EresusSecurity
TarayıcılarKırmızı Takım / Değerlendirmeler

Kırmızı Takım ve Değerlendirme Motoru

Sentinel kırmızı takım ve değerlendirme akışları LLM uygulamaları ve sağlayıcı entegrasyonlarına karşı tekrarlanabilir deneme girdileri, algılayıcılar, üreticiler ve yapılandırma tabanlı doğrulamalar çalıştırır.

Kısa tanım

Sentinel Kırmızı Takım ve Değerlendirme Motoru, LLM uygulamaları için tekrarlanabilir test katmanıdır. İstemleri, deneme girdilerini, beklenen doğrulamaları ve sağlayıcı ayarlarını yerelde, CI’da ve yayın incelemesinde çalışabilecek kanıta çevirir.

Yapılandırma tabanlı değerlendirmeler

İstem, sağlayıcı ve araç davranışı için kararlı regresyon paketi gerektiğinde YAML değerlendirme dosyası kullanın. Her önemli uygulama davranışının neyin değişmemesi gerektiğini anlatan doğrulaması olmalıdır.

Operasyonel kontrol listesi
  • Sağlayıcı kimliği ve model seçimi
  • İstem şablonu ve değişkenler
  • Reddetme, sınırda kalma, JSON yapısı ve sızıntı doğrulamaları
  • Yayın başarılı/başarısız kararını veren eşik değerleri

Kırmızı takım denemeleri

Kırmızı takım denemeleri mutlu yolu değil, hata biçimlerini çalıştırır. Enjeksiyon, sızıntı, aşırı yetki ve güvensiz çıktı işleme risklerini gerçek kullanıcıdan önce bulmaya yardım eder.

Operasyonel kontrol listesi
  • Doğrudan ve dolaylı istem enjeksiyonu
  • Araç kullanımının suistimali ve aşırı geniş izinler
  • RAG sızıntısı ve zehirlenmiş bağlam
  • Çıktı işleme ve yapılandırılmış yanıt atlatmaları

Rapor kanıtı

Değerlendirme kanıtı uygulamayla birlikte sürümlenmelidir. Başarısız deneme; istemi, model/sağlayıcı bilgisini, doğrulamayı, gözlenen çıktıyı, önceliği ve yeniden test komutunu içermelidir.

Operasyonel kontrol listesi
  • JSON çıktısını CI dosyası olarak saklayın
  • Başarısız istemleri küçük ve yeniden üretilebilir tutun
  • Mümkünse hataları OWASP LLM kategorisine bağlayın

Deneme kapsam referansları (OWASP LLM Top 10 2025 + kıyaslamalar)

Dış kıyaslamalar nesnel deneme külliyatı ve zorluk derecelendirmesi sağlar. JailbreakBench ve AIRTBench, değlendirmelerin saldırı girdilerini ne kadar etkili yakaladığını ölçer. ISC-Bench talimat takip güvenlik uyumunu değlendirir. OWASP LLM Top 10 2025 kategorileriyle deneme sonuçlarını eşleştirerek kapsamı doğrulayın.

Operasyonel kontrol listesi
  • OWASP LLM01:2025 İstem Enjeksiyonu — deneme külliyatı: doğrudan talimat geçersiz kılma, önceki talimatları yoksay desenleri
  • OWASP LLM06:2025 Aşırı Ajan Yetkisi — deneme külliyatı: araç izin sınırı ihlalleri, aşırı geniş yetenek talepleri
  • OWASP LLM02:2025 Hassas Bilgi İfaası — deneme külliyatı: kişisel veri çıkarma, kimlik bilgisi sızıntısı, eğitim verisi çıkarma
  • JailbreakBench (jailbreakbench.github.io): jailbreak güvenlik değlendirmesi için standart líerboard ve deneme külliyatı
  • AIRTBench: hem LLM hem ajansal saldırı yüzeylerini kapsayan yapay zeka kırmızı takım değlendirme paketi
  • ISC-Bench: ret kalitesini ölçen talimat takip güvenlik uyum kıyaslaş ması

SARIF çıktısı ve CI entegrasyonu

Sentinel kırmızı takım değlendirme çıktısı, deneme hatalarını GitHub Advanced Security, Azure DevSecOps ve diğer SARIF tüketicilerinde birinci sınıf bulgular haline getirerek SARIF (Statik Analiz Sonuçları Değişim Biçimi) olarak yayınlabilir.

Operasyonel kontrol listesi
  • SARIF kural kimliği OWASP LLM kategorisiyle eşleşir (LLM01, LLM06 vb.) — otomatik sınıflandırma sağlar
  • Her bulgu; deneme istemi, model yanıtı, doğrulama, öncelik ve çözüm ipucunu içerir
  • GitHub Code Scanning’a `actions/upload-sarif` ile yükleyerek doğrudan PR notları elde edin
  • SARIF öncelik seviyeleri Sentinel öncelik kılavuzuyla örtüşür: CRITICAL/HIGH birleştirmeyi engeller, MEDIUM/LOW danışman niteliklidir

Komutlar

sentinel redteam --target openai/gpt-4o
sentinel redteam --list-probes
sentinel evaluate eval.yaml --fail-on-threshold 0.95
sentinel evaluate eval.yaml -f json -o eval-report.json

Beklenen çıktı

Çıktı; kural kimliği, öncelik, yüzey, kanıt ve yayın kararını başka ekiplerin de anlayacağı şekilde taşımalıdır.

suite: agent-redteam
pass_rate: 0.91
failed:
  - prompt_injection.system_prompt_leak
  - tool_use.excessive_agency
decision: fail threshold 0.95

Sık sorular

Değlendirme ne kadar sık çalışmalı?

Hızlı değlendirmeler istem/araç pull request’lerinde, tam paket yayın öncesinde, sağlayıcı veya getirme verisi değiştiğinde planlı olarak çalışmalıdır.

Değlendirme hatası yayını durdurmalı mı?

Veri sızıntısı, ayrıcalıklı araç suistimali veya politika atlatma ile ilgili hatalar yayını durdurmalıdır. Kozmetik yanıt kayması MEDIUM/LOW olarak incelenebilir.

Hangi dış kıyaslamaları kullanmalıyım?

Jailbreak deneme kapsamı ve liderboard karşılaştırması için JailbreakBench, ajansal kırmızı takım için AIRTBench, talimat takip güvenlik uyumu için ISC-Bench. On kategorinin tamamında kapsamı onaylamak için deneme sonuçlarını OWASP LLM Top 10 2025 ile eşleştirin.

Kaynaklar

Eresus desteği

Bulguyu rapora değil, kapatılabilir aksiyona çevirin.

Kırmızı Takım ve Değerlendirme Motoru için exploit kanıtı, önceliklendirme, düzeltme yönü ve yeniden test akışı gerekiyorsa Eresus ekibi kapsamı birlikte çıkarabilir.

Güvenlik Testi Başlat