NLP in Security — Referenz.
Natural Language Processing für Sicherheits-Arbeit: Log-Clustering, Phishing-Detektion, Report-Zusammenfassung und wo moderne LLM-getriebene Techniken passen (und nicht).
Log-Clustering
- Tokenisierung zuerst. Zahlen, IPs, UUIDs, Pfade durch Platzhalter ersetzen vor Vektorisierung. Sonst ist jede Zeile einzigartig.
- TF-IDF + Cosine. Günstige Baseline. Funktioniert für Medium-Cardinality-Log-Corpora.
min_df/max_dftunen, damit seltene Tokens nicht dominieren. - Drain / Spell-Algorithmen. Template-Extraktions-Algorithmen für Logs. Output ist Baum von Templates mit Platzhaltern; jede neue Log-Zeile wird einem Template zugewiesen. Beste ROI für unstrukturierte operative Logs.
- Embedding-basiert (sentence-transformers, BGE). Höhere semantische Qualität, mehr Compute. Lohnt sich für englischsprachigen Security-Text (Alerts, Ticket-Bodies), wo Tokens variieren während Bedeutung sich wiederholt.
- Granularitäts-Knob. Engere Cluster = mehr Cluster = weniger Last-Reduktion pro Cluster. Lockerer = weniger, aber heterogener. Pro Konsument kalibrieren: Analyst will ~50–200 Cluster pro Tag pro Source.
Phishing-Detektion
- Stabile linguistische Features.
- Dringlichkeits-Lexikon: "sofort", "innerhalb 24 Stunden", "Ihr Account wird gesperrt".
- Brand-Impersonation-Cues: Brand-Name + generische Anrede + Nicht-Brand-Reply-To.
- URL-Konstruktionen: Subdomain-Padding (
microsoft.com.malicious.io), Homoglyphen (Kyrillisches а für lateinisches a), URL-Shortener, die Destination verbergen.
- Image-Embedded-Text-Problem. Moderne Kampagnen versenden Body als einzelnes Bild (keine Text-Features für Klassifier). Counter: OCR-Pipeline vor NLP.
tesseractoder hosted Vision-API → Text → Klassifier. - Multimodaler Klassifier. Auf (gerendertem Screenshot, Header, Body-Text)-Tupel trainieren. Visuelle Ähnlichkeit zu bekannter Brand-Login-Page ist stärkeres Feature als jedes Text-Feature allein.
- Evaluations-Falle. Holdout muss temporal vom Training getrennt sein. Phishing-Verteilung driftet wöchentlich; In-Time-Evaluation überzeichnet Produktions-Performance.
Report-Zusammenfassung mit LLMs
- Was LLMs auf Security-Text gut können.
- Faktenextraktion: IOCs, CVEs, Daten aus Prosa ziehen.
- Cross-Format-Normalisierung: Vendor-spezifischen Advisory-Wortlaut in internes Schema umwandeln.
- Draft-Generierung: First-Pass-Summary, Ticket-Body, Advisory-Absatz — Analyst editiert.
- Unzuverlässig bei.
- Konfidenz-Kalibrierung: LLM gleich zuversichtlich bei richtigen und falschen Claims.
- Novelty-Detektion: auf Vergangenheitsdaten trainiert, unterscheidet "neu" schwach von "sieht wie Vergangenheit aus".
- Attribution: halluziniert Actor-Attribution wenn nach spezifischem Actor gefragt.
- Ehrliche Deployment. LLM als Drafter, Analyst als Approver. Geloggtes Feedback (akzeptiert, editiert, abgelehnt) füttert Prompt- und Modell-Verfeinerung.
Prompt-Muster für Security-LLMs
- Cite-or-Decline. "Source-IDs aus bereitgestellten Dokumenten für jeden Claim zitieren. Wenn keine Source einen Claim stützt, 'keine Source' sagen." Reduziert Halluzination materiell.
- Strukturierter Output. JSON-Schema mit benannten Feldern. Einfacher downstream zu validieren als freie Prosa.
- Two-Pass. Erster Pass extrahiert; zweiter Pass evaluiert, ob die Extraktion korrekt ist. Fängt offensichtliche Fehler.
FaustregelFür Pre-LLM-NLP ist das richtige Tool meist Drain (Logs) oder sentence-transformers (Security-Text). Für LLM-getriebene Arbeit dem Modell Dokumente zum Grounding geben und Zitation verlangen — der meiste Wert eines LLMs in einer Security-Pipeline ist strukturierte Extraktion mit verifizierbarem Trail, nicht freiform Analyse.
Verwandte Notizen in dieser Domain
Von der Referenz zum Befund