Neu Das Whitepaper zur kontinuierlichen Sicherheitsvalidierung 2026 ist verfügbar. Whitepaper lesen →

ML & Cyber Analytics.

Hersteller-neutrale Landschaftskarte: Modell-Familien, Training-Pipelines, Deployment-Muster — sowie welche statistischen/ML-Modelle zu welchen Security-Analytics-Problemen passen und wo sie zuverlässig scheitern.

Modell-Familien

  • Linear (LR, Lasso, Ridge). Günstig, interpretierbar, Baseline für jeden Tabular-Task. Koeffizienten zeigen, welches Feature den Score treibt.
  • Tree-basiert (Random Forest, XGBoost, LightGBM, CatBoost). Dominant für tabulare Security-Daten (Alerts, Log-Events). Handled Missing Values, gemischte Typen, nicht-lineare Interaktionen. SHAP für Per-Prediction-Erklärung.
  • Deep Neural (MLP, CNN, RNN/LSTM). Gut für Sequenzen (Network-Flows, Process-Trees), Bilder (Icon-Similarity für Malware-Familie) und Raw-Bytes (Deep-Learning-Malware-Klassifier).
  • Transformer. State of the Art für Log-Understanding, Code-Analyse, text-lastige Security-Tasks. Teuer; oft destilliert oder für Offline-Batch-Enrichment statt Real-Time-Scoring.
  • Graph Neural Networks. Authentication-Graphen, Lateral-Movement-Graphen, Malware-Similarity-Graphen. Nische, aber wachsend.

Training-Pipelines

  • Offline-Batch. Täglich/wöchentlich Retrain auf akkumulierten gelabelten Daten. Niedrigste operative Komplexität. Standard für meiste Security-ML.
  • Online-Learning. Update bei jedem neuen Label. Nützlich wo Labels schneller ankommen als Batch-Zyklus (Real-Time-Fraud). Vorsicht vor Label-Qualitäts-Drift, die Modell vergiftet.
  • Federated. Training über Customer-Tenants ohne Daten zu zentralisieren. Überzeugende Story für Security-Vendors; signifikanter Engineering-Aufwand. Ehrlicher Claim nur wenn Modell messbar von Federation gegenüber Per-Tenant-Baseline verbessert.
  • Active Learning. Modell befragt Analyst für Labels bei unsicheren Beispielen. Maximiert Labeling-ROI wenn SOC-Zeit Bottleneck ist.

Deployment-Muster

  • In-Produkt-Real-Time. Jedes Event inline scoren. Latency-Budget eng (<10 ms typisch). Modell muss klein sein + Cached-Features vorberechnet.
  • Sidecar / Async. Event in Queue, async gescort. Höheres Latency-Budget (Sekunden). Größere Modelle möglich.
  • Batch-Scoring. Periodischer Enrichment-Job über historische Daten. Größte Modelle. Genutzt für Hunt und Ranking, nicht für Blocking.
  • Edge / On-Device. Endpoint-seitige ML. Begrenzte Modell-Größe. Beispiele: On-Device-URL-Klassifier, On-Device-Process-Behavior-Klassifier.

Analytics-Fit — was funktioniert und was scheitert

  • Anomalie-Detektion. Funktioniert auf stabilen Baselines (User-Login-Muster, Network-Egress-Volume pro Host). Scheitert an adversarialem Drift: Angreifer beobachtet Baseline, bleibt drin. Auch Concept-Drift: Baseline selbst bewegt sich durch legitimen Change (neue App, Feiertags-Traffic) und produziert False-Positives.
  • Supervised Klassifikation. Funktioniert bei großem Label-Datensatz + stabiler Threat-Verteilung + extrahierbaren Features. Beispiele: Domain-Klassifikation (DGA vs legit), URL-Phishing-Detektion, Malware-Familie. Scheitert wenn Novelty-Rate Retraining-Kadenz übersteigt.
  • Clustering. Nützlich für Triage (ähnliche Alerts gruppieren, repräsentatives Beispiel) und Exploration (neu gesehene Samples clustern um emergierende Familie zu finden). Schwach als primäre Entscheidungsfläche: keine Ground-Truth = keine messbare Accuracy.
  • Ranking. Starker Fit für SOC-Triage. Auf Analyst-Dispositions (True-Positive / False-Positive) trainieren → neue Alerts nach predicted Disposition ranken. Messbar in Alert-to-Resolution-Time-Reduktion.
  • UEBA-style Risk-Scoring. Mehrere schwache Signale zu Composite-Risk kombinieren. Nützlich als Hunt-Input. Oft als Detektion überklaimed.

Fehlermodi pro Technik

  • Daten-Qualitäts-Abhängigkeit. Garbage Labels → Garbage Model. Vendor-"AI" auf biased Label-Set trainiert scheitert auf deinen Daten.
  • FP/FN-Bias-Kosten. Threshold-Choice ist Business-Frage, keine Modell-Frage. Auth: FP-Kosten = User-Friction; FN-Kosten = Breach.
  • Modell-Wartungskosten. 3-Jahre-Deployment erfordert Retraining-Kadenz, Feature-Pipeline-Wartung, Drift-Monitoring, Label-Quality-Auditing. Meiste Vendor-Demos ignorieren das.
  • Adversarialer Drift. Angreifer testen gegen deployte Modelle. Detection-as-Code-Rulesets (Sigma) und ML-Modelle verfallen beide; weder "set and forget".

Vendor-ML-Claims evaluieren

  1. "Welche Features?" Vendor will nicht disclosen = Modell oft shallow.
  2. "FP-Rate auf euren Daten, auf meinen Daten?" Customer-seitige Messung gegen bekanntes repräsentatives Fenster.
  3. "Wie oft retrained, auf welchen Daten?" Federated-Claims = verifizieren oder discounten.
  4. "Welche Explainability-Oberfläche für Analyst?" SHAP, Top-k-Feature-Contributions oder pure Black-Box?
  5. "Operative Kosten einer falschen Entscheidung und wie wird Schleife geschlossen?" Labeling-Feedback-Pfad oder Fire-and-Forget?
FaustregelML in Security rentiert sich, wenn es Analyst-Aufmerksamkeit ranked und priorisiert. Kämpft, wenn zum autonomen Entscheider für novel Threats befördert. Ehrliche Deployment-Form ist "Modell oberflächt Kandidaten, Analyst entscheidet, Entscheidungen flow back ins Training".

Von der Referenz zum Befund

Validieren Sie das in Ihrer eigenen Umgebung.