Günümüz siber ortamında geleneksel imza tabanlı koruma yöntemleri tek başına yeterli olmuyor. Yeni ve bilinmeyen tehditleri yakalamak için siber güvenlik ekipleri veri bilimi tekniklerini kullanarak anomali tespiti temelli tehdit avına yöneliyor. Bu yazıda, veri bilimi yaklaşımlarının tehdit avındaki rolü, anomali tespiti algoritmaları, uygulama mimarileri, değerlendirme metrikleri ve operasyonel entegrasyon için pratik rehber ele alınacaktır.
Anomali tespiti neden kritik ve hangi saldırı senaryolarını yakalar?
Anomali tespiti, normal davranıştan sapmaları otomatik olarak belirlemeyi amaçlar. Bu yöntemler yeni ortaya çıkan ve imza tabanlı sistemlerin tanımlamadığı saldırıları, bilinmeyen kötü amaçlı yazılımları, içeriden gelen tehditleri ve sofistike lateral hareketleri saptamada etkilidir.
Sık görülen kullanım senaryoları:
- İçeriden kaynaklanan veri kaçakları ve sıra dışı veri erişimleri
- Hesap ele geçirme, credential stuffing ve anormal oturum açma davranışları
- Lateral hareketler ve ağ içi pivoting aktiviteleri
- Komuta kontrol (C2) iletişimi için tutarsız trafik desenleri
- IoT cihazlarında beklenmedik telemetri veya sensör verisi sapmaları
Veri kaynakları ve özellik mühendisliği
Anomali tespitinin başarısı büyük oranda doğru veri seçim ve özellik mühendisliğine bağlıdır. Temel veri kaynakları şunlardır:
- Network flow verileri (NetFlow, IPFIX)
- Parça paket yakalama ve proxy logları
- Endpoint telemetri (EDR olayları, süreçler, dosya aktiviteleri)
- Authentication ve IAM logları (oturum açma zamanları, lokasyonlar, cihazlar)
- Uygulama logları ve API çağrıları
Özellik mühendisliğinde dikkat edilmesi gerekenler:
- Zaman serisi özellikleri: sliding window istatistikleri, hız, yoğunluk
- Davranışsal özetler: kullanıcı başına ortalama işlem sayısı, veri transfer boyutu
- İstatistiksel gösterge değişimleri: z-score, rolling median farkları
- Graf temelli özellikler: bağlantı dereceleri, topluluk değişimleri
- Kategorik embedding veya one-hot encoding ve kimlik anonimleştirme
Anomali tespiti yaklaşımları
Anomali tespiti için birden fazla modelleme paradigması vardır. Hangi yaklaşımın kullanılacağı veri yapısına, etiketli veri bulunup bulunmamasına ve performans gereksinimlerine göre değişir.
İstatistiksel ve kural tabanlı yöntemler
Basit z-score, IQR, EWMA gibi yöntemler hızlı ve yorumlanabilir sonuç verir. Küçük ölçekli veya düşük gecikmeli uygulamalarda faydalıdır. Ancak karmaşık çok boyutlu örüntüleri kaçırabilirler.
Denetimsiz makine öğrenmesi
Denetimsiz yöntemler etiket gerektirmez ve yeni saldırıları keşfetmede kullanışlıdır. Yaygın algoritmalar:
- Isolation Forest: Anomaliyi izole etme temelli, ölçeklenebilir
- One-Class SVM: Tek sınıf öğrenmede kullanılır, parametrik hassasiyeti yüksek
- LOF, DBSCAN gibi yoğunluk ve kümeleme tabanlı metotlar
- Autoencoder ve variational autoencoder: Yüksek boyutlu veri sıkıştırma ve rekonstrüksiyon hatasına göre anomali belirleme
- Derin öğrenme tabanlı zaman serisi modelleri (LSTM autoencoder) ile sekans anomalileri tespiti
Yarı denetimli ve denetimli yaklaşımlar
Eğer etiketli örnekler varsa, sınıflandırma modelleri kullanılabilir. Ancak etiketleme maliyetlidir ve pozitif örnekler nadirdir. Yarı denetimli stratejilerde normal sınıftan öğrenip sapmaları tespit eden modeller kullanılır.
Değerlendirme, metrikler ve operasyonel zorluklar
Anomali tespitinde sıklıkla veri dengesizliği söz konusudur. Tipik metrikler ve dikkat edilmesi gerekenler:
- Precision, Recall ve F1-score: Yüksek false positive, SOC yorgunluğuna neden olur; bu nedenle precision önemli.
- Precision-Recall eğrileri: ROC anlamsızlaşabilir çünkü negatif sınıf çok büyük.
- Alert doğrulama hızı ve ortalama yanıt süresi (MTTR): Operasyonel etkisi ölçülmeli.
- Cost-sensitive değerlendirme: Her false negative ve false positive için maliyet modeli oluşturulmalı.
Pratik zorluklar: etiket eksikliği, kavramsal kayma (concept drift), mevsimsellik, gizlilik ve veri bütünlüğü problemleri.
Gerçek zamanlı vs batch işleme ve mimari önerisi
Deteksiyon ihtiyaçlarına göre mimari seçimi önemlidir. Gerçek zamanlı tespit için düşük gecikmeli stream işleme, batch model güncellemeleri ve özellik depoları gerekir.
Önerilen bileşenler:
- Veri toplayıcılar: Beats, Fluentd, Logstash
- Mesajlaşma katmanı: Kafka
- Stream işleme: Flink veya Spark Streaming
- Model sunumu: TensorFlow Serving, TorchServe veya hafif REST mikroservisleri
- SIEM entegrasyonu: Elastic SIEM, Splunk üzerinden uyarı ve vaka yönetimi
- Özellik deposu ve MLOps: Feast, MLflow ile model yönetimi
Explained AI, hataya tolerans ve güvenlik önerileri
Analiz sonuçlarının açıklanabilir olması SOC analistleri için kritiktir. SHAP, LIME ve kural bazlı açıklamalar ile uyarıların sebebi gösterilmelidir. Ayrıca modeller adversarial saldırılara karşı savunmalı olmalı; örneğin veri tahrifi, label poisoning ve evasion saldırılarına karşı izleme konulmalıdır.
Uygulama adımları ve en iyi uygulamalar
Hızlı bir uygulama rehberi:
- Adım 1: Öncelikli senaryoları seçin (örneğin kimlik suistimali, veri kaçakları).
- Adım 2: Temiz, normalize edilmiş veri boru hattı kurun; zaman damgalarını senkronize edin.
- Adım 3: Basit istatistiksel kontrol ve kural tabanlı filtrelerle başlangıç yapın.
- Adım 4: Denetimsiz modelleri küçük ölçekli testlere sokun; PyOD gibi kütüphanelerle prototipleme yapın.
- Adım 5: Operasyonel geri bildirim döngüsü kurun; analist etiketleri ve vaka sonuçlarını modele dahil edin.
- Adım 6: Sürekli izleme, retraining ve drift detection ile modeli canlı tutun.
Gelecek trendleri
Gelişen alanlar, graf tabanlı makine öğrenmesi ile saldırı zincirlerinin daha iyi modellenmesi, federated learning ile gizliliği koruyan ortak öğrenme, self-supervised yöntemlerle etiket ihtiyacının azaltılması ve explainable AI tekniklerinin yaygınlaşması olacaktır. Ayrıca otomatik tehdit avı orkestrasyonu ve SOAR entegrasyonları operasyonel verimliliği artıracaktır.
Özet ve tavsiyeler
Anomali tespiti, siber güvenliğin proaktif katmanı olarak giderek daha fazla önem kazanıyor. Başarının anahtarları doğru veri, uygun özellik mühendisliği, ölçeklenebilir mimari ve operasyonel geri bildirim döngüsüdür. Başlangıç için basit istatistiksel kontroller ve Isolation Forest gibi denetimsiz modellerle hızlı prototip oluşturup, gerçek ortamda analist geri bildirimiyle modelleri olgunlaştırmak en pratik yaklaşımdır.
Sen Ekolsoft olarak kuruluşların veri bilimi ve güvenlik ekiplerini bütünleştirerek anomali tespiti tabanlı tehdit avı çözümleri tasarlıyor ve operasyonel hale getiriyoruz. Proaktif koruma stratejinizde destek isterseniz bize ulaşabilirsiniz.