Kırmızı Takım ve Değerlendirme Motoru
Sentinel kırmızı takım ve değerlendirme akışları LLM uygulamaları ve sağlayıcı entegrasyonlarına karşı tekrarlanabilir deneme girdileri, algılayıcılar, üreticiler ve yapılandırma tabanlı doğrulamalar çalıştırır.
Sentinel Kırmızı Takım ve Değerlendirme Motoru, LLM uygulamaları için tekrarlanabilir test katmanıdır. İstemleri, deneme girdilerini, beklenen doğrulamaları ve sağlayıcı ayarlarını yerelde, CI’da ve yayın incelemesinde çalışabilecek kanıta çevirir.
Yapılandırma tabanlı değerlendirmeler
İstem, sağlayıcı ve araç davranışı için kararlı regresyon paketi gerektiğinde YAML değerlendirme dosyası kullanın. Her önemli uygulama davranışının neyin değişmemesi gerektiğini anlatan doğrulaması olmalıdır.
- Sağlayıcı kimliği ve model seçimi
- İstem şablonu ve değişkenler
- Reddetme, sınırda kalma, JSON yapısı ve sızıntı doğrulamaları
- Yayın başarılı/başarısız kararını veren eşik değerleri
Kırmızı takım denemeleri
Kırmızı takım denemeleri mutlu yolu değil, hata biçimlerini çalıştırır. Enjeksiyon, sızıntı, aşırı yetki ve güvensiz çıktı işleme risklerini gerçek kullanıcıdan önce bulmaya yardım eder.
- Doğrudan ve dolaylı istem enjeksiyonu
- Araç kullanımının suistimali ve aşırı geniş izinler
- RAG sızıntısı ve zehirlenmiş bağlam
- Çıktı işleme ve yapılandırılmış yanıt atlatmaları
Rapor kanıtı
Değerlendirme kanıtı uygulamayla birlikte sürümlenmelidir. Başarısız deneme; istemi, model/sağlayıcı bilgisini, doğrulamayı, gözlenen çıktıyı, önceliği ve yeniden test komutunu içermelidir.
- JSON çıktısını CI dosyası olarak saklayın
- Başarısız istemleri küçük ve yeniden üretilebilir tutun
- Mümkünse hataları OWASP LLM kategorisine bağlayın
Deneme kapsam haritası (OWASP LLM Top 10 2025 + kıyaslamalar)
Dış kıyaslamalar nesnel deneme külliyatı ve zorluk derecelendirmesi sağlar. JailbreakBench ve AIRTBench, değerlendirmelerin saldırı girdilerini ne kadar etkili yakaladığını ölçer. ISC-Bench talimat takip güvenlik uyumunu değerlendirir. OWASP LLM Top 10 2025 kategorileriyle deneme sonuçlarını eşleştirerek kapsamı doğrulayın.
- OWASP LLM01:2025 İstem Enjeksiyonu — deneme külliyatı: doğrudan talimat geçersiz kılma, önceki talimatları yoksay desenleri
- OWASP LLM06:2025 Aşırı Ajan Yetkisi — deneme külliyatı: araç izin sınırı ihlalleri, aşırı geniş yetenek talepleri
- OWASP LLM02:2025 Hassas Bilgi İfaası — deneme külliyatı: kişisel veri çıkarma, kimlik bilgisi sızıntısı, eğitim verisi çıkarma
- JailbreakBench (jailbreakbench.github.io): jailbreak güvenlik değerlendirmesi için standart liderlik tablosu ve deneme külliyatı
- AIRTBench: hem LLM hem ajan tabanlı saldırı yüzeylerini kapsayan yapay zeka kırmızı takım değerlendirme paketi
- ISC-Bench: ret kalitesini ölçen talimat takip güvenlik uyumu kıyaslaması
SARIF çıktısı ve CI entegrasyonu
Sentinel kırmızı takım değerlendirme çıktısı, deneme hatalarını GitHub Advanced Security, Azure DevSecOps ve diğer SARIF tüketicilerinde birinci sınıf bulgular haline getirerek SARIF (Statik Analiz Sonuçları Değişim Biçimi) olarak yayınlanabilir.
- SARIF kural kimliği OWASP LLM kategorisiyle eşleşir (LLM01, LLM06 vb.) — otomatik sınıflandırma sağlar
- Her bulgu; deneme istemi, model yanıtı, doğrulama, öncelik ve çözüm ipucunu içerir
- GitHub Code Scanning’a `actions/upload-sarif` ile yükleyerek doğrudan PR notları elde edin
- SARIF öncelik seviyeleri Sentinel öncelik kılavuzuyla örtüşür: CRITICAL/HIGH birleştirmeyi engeller, MEDIUM/LOW danışman niteliklidir
Komutlar
sentinel redteam --target openai/gpt-4o
sentinel redteam --list-probes
sentinel evaluate eval.yaml --fail-on-threshold 0.95
sentinel evaluate eval.yaml -f json -o eval-report.jsonBeklenen çıktı
Çıktı; kural kimliği, öncelik, yüzey, kanıt ve yayın kararını başka ekiplerin de anlayacağı şekilde taşımalıdır.
suite: agent-redteam
pass_rate: 0.91
failed:
- prompt_injection.system_prompt_leak
- tool_use.excessive_agency
decision: fail threshold 0.95Sık sorular
Değerlendirme ne kadar sık çalışmalı?
Hızlı değerlendirmeler istem/araç pull request’lerinde, tam paket yayın öncesinde, sağlayıcı veya getirme verisi değiştiğinde planlı olarak çalışmalıdır.
Değerlendirme hatası yayını durdurmalı mı?
Veri sızıntısı, ayrıcalıklı araç suistimali veya politika atlatma ile ilgili hatalar yayını durdurmalıdır. Kozmetik yanıt kayması MEDIUM/LOW olarak incelenebilir.
Hangi dış kıyaslamaları kullanmalıyım?
Jailbreak deneme kapsamı ve liderlik tablosu karşılaştırması için JailbreakBench, ajan tabanlı kırmızı takım için AIRTBench, talimat takip güvenlik uyumu için ISC-Bench kullanın. On kategorinin tamamında kapsamı onaylamak için deneme sonuçlarını OWASP LLM Top 10 2025 ile eşleştirin.
Eresus desteği
Bulguyu rapora değil, kapatılabilir aksiyona çevirin.
Kırmızı Takım ve Değerlendirme Motoru için exploit kanıtı, önceliklendirme, düzeltme yönü ve yeniden test akışı gerekiyorsa Eresus ekibi kapsamı birlikte çıkarabilir.
Güvenlik Testi Başlat