Background · 7 KI, Daten & neue Risiken

NLP in Security — Referenz.

Natural Language Processing für Sicherheits-Arbeit: Log-Clustering, Phishing-Detektion, Report-Zusammenfassung und wo moderne LLM-getriebene Techniken passen (und nicht).

Log-Clustering

Tokenisierung zuerst. Zahlen, IPs, UUIDs, Pfade durch Platzhalter ersetzen vor Vektorisierung. Sonst ist jede Zeile einzigartig.
TF-IDF + Cosine. Günstige Baseline. Funktioniert für Medium-Cardinality-Log-Corpora. min_df / max_df tunen, damit seltene Tokens nicht dominieren.
Drain / Spell-Algorithmen. Template-Extraktions-Algorithmen für Logs. Output ist Baum von Templates mit Platzhaltern; jede neue Log-Zeile wird einem Template zugewiesen. Beste ROI für unstrukturierte operative Logs.
Embedding-basiert (sentence-transformers, BGE). Höhere semantische Qualität, mehr Compute. Lohnt sich für englischsprachigen Security-Text (Alerts, Ticket-Bodies), wo Tokens variieren während Bedeutung sich wiederholt.
Granularitäts-Knob. Engere Cluster = mehr Cluster = weniger Last-Reduktion pro Cluster. Lockerer = weniger, aber heterogener. Pro Konsument kalibrieren: Analyst will ~50–200 Cluster pro Tag pro Source.

Phishing-Detektion

Stabile linguistische Features.
- Dringlichkeits-Lexikon: "sofort", "innerhalb 24 Stunden", "Ihr Account wird gesperrt".
- Brand-Impersonation-Cues: Brand-Name + generische Anrede + Nicht-Brand-Reply-To.
- URL-Konstruktionen: Subdomain-Padding (microsoft.com.malicious.io), Homoglyphen (Kyrillisches а für lateinisches a), URL-Shortener, die Destination verbergen.
Image-Embedded-Text-Problem. Moderne Kampagnen versenden Body als einzelnes Bild (keine Text-Features für Klassifier). Counter: OCR-Pipeline vor NLP. tesseract oder hosted Vision-API → Text → Klassifier.
Multimodaler Klassifier. Auf (gerendertem Screenshot, Header, Body-Text)-Tupel trainieren. Visuelle Ähnlichkeit zu bekannter Brand-Login-Page ist stärkeres Feature als jedes Text-Feature allein.
Evaluations-Falle. Holdout muss temporal vom Training getrennt sein. Phishing-Verteilung driftet wöchentlich; In-Time-Evaluation überzeichnet Produktions-Performance.

Report-Zusammenfassung mit LLMs

Was LLMs auf Security-Text gut können.
- Faktenextraktion: IOCs, CVEs, Daten aus Prosa ziehen.
- Cross-Format-Normalisierung: Vendor-spezifischen Advisory-Wortlaut in internes Schema umwandeln.
- Draft-Generierung: First-Pass-Summary, Ticket-Body, Advisory-Absatz — Analyst editiert.
Unzuverlässig bei.
- Konfidenz-Kalibrierung: LLM gleich zuversichtlich bei richtigen und falschen Claims.
- Novelty-Detektion: auf Vergangenheitsdaten trainiert, unterscheidet "neu" schwach von "sieht wie Vergangenheit aus".
- Attribution: halluziniert Actor-Attribution wenn nach spezifischem Actor gefragt.
Ehrliche Deployment. LLM als Drafter, Analyst als Approver. Geloggtes Feedback (akzeptiert, editiert, abgelehnt) füttert Prompt- und Modell-Verfeinerung.

Prompt-Muster für Security-LLMs

Cite-or-Decline. "Source-IDs aus bereitgestellten Dokumenten für jeden Claim zitieren. Wenn keine Source einen Claim stützt, 'keine Source' sagen." Reduziert Halluzination materiell.
Strukturierter Output. JSON-Schema mit benannten Feldern. Einfacher downstream zu validieren als freie Prosa.
Two-Pass. Erster Pass extrahiert; zweiter Pass evaluiert, ob die Extraktion korrekt ist. Fängt offensichtliche Fehler.

FaustregelFür Pre-LLM-NLP ist das richtige Tool meist Drain (Logs) oder sentence-transformers (Security-Text). Für LLM-getriebene Arbeit dem Modell Dokumente zum Grounding geben und Zitation verlangen — der meiste Wert eines LLMs in einer Security-Pipeline ist strukturierte Extraktion mit verifizierbarem Trail, nicht freiform Analyse.