TarayıcılarKırmızı Takım / Değerlendirmeler

Kırmızı Takım ve Değerlendirme Motoru

Sentinel kırmızı takım ve değerlendirme akışları LLM uygulamaları ve sağlayıcı entegrasyonlarına karşı tekrarlanabilir deneme girdileri, algılayıcılar, üreticiler ve yapılandırma tabanlı doğrulamalar çalıştırır.

Kısa tanım

Sentinel Kırmızı Takım ve Değerlendirme Motoru, LLM uygulamaları için tekrarlanabilir test katmanıdır. İstemleri, deneme girdilerini, beklenen doğrulamaları ve sağlayıcı ayarlarını yerelde, CI’da ve yayın incelemesinde çalışabilecek kanıta çevirir.

Yapılandırma tabanlı değerlendirmeler

İstem, sağlayıcı ve araç davranışı için kararlı regresyon paketi gerektiğinde YAML değerlendirme dosyası kullanın. Her önemli uygulama davranışının neyin değişmemesi gerektiğini anlatan doğrulaması olmalıdır.

Operasyonel kontrol listesi

Sağlayıcı kimliği ve model seçimi
İstem şablonu ve değişkenler
Reddetme, sınırda kalma, JSON yapısı ve sızıntı doğrulamaları
Yayın başarılı/başarısız kararını veren eşik değerleri

Kırmızı takım denemeleri

Kırmızı takım denemeleri mutlu yolu değil, hata biçimlerini çalıştırır. Enjeksiyon, sızıntı, aşırı yetki ve güvensiz çıktı işleme risklerini gerçek kullanıcıdan önce bulmaya yardım eder.

Operasyonel kontrol listesi

Doğrudan ve dolaylı istem enjeksiyonu
Araç kullanımının suistimali ve aşırı geniş izinler
RAG sızıntısı ve zehirlenmiş bağlam
Çıktı işleme ve yapılandırılmış yanıt atlatmaları

Rapor kanıtı

Değerlendirme kanıtı uygulamayla birlikte sürümlenmelidir. Başarısız deneme; istemi, model/sağlayıcı bilgisini, doğrulamayı, gözlenen çıktıyı, önceliği ve yeniden test komutunu içermelidir.

Operasyonel kontrol listesi

JSON çıktısını CI dosyası olarak saklayın
Başarısız istemleri küçük ve yeniden üretilebilir tutun
Mümkünse hataları OWASP LLM kategorisine bağlayın

Deneme kapsam haritası (OWASP LLM Top 10 2025 + kıyaslamalar)

Dış kıyaslamalar nesnel deneme külliyatı ve zorluk derecelendirmesi sağlar. JailbreakBench ve AIRTBench, değerlendirmelerin saldırı girdilerini ne kadar etkili yakaladığını ölçer. ISC-Bench talimat takip güvenlik uyumunu değerlendirir. OWASP LLM Top 10 2025 kategorileriyle deneme sonuçlarını eşleştirerek kapsamı doğrulayın.

Operasyonel kontrol listesi

OWASP LLM01:2025 İstem Enjeksiyonu — deneme külliyatı: doğrudan talimat geçersiz kılma, önceki talimatları yoksay desenleri
OWASP LLM06:2025 Aşırı Ajan Yetkisi — deneme külliyatı: araç izin sınırı ihlalleri, aşırı geniş yetenek talepleri
OWASP LLM02:2025 Hassas Bilgi İfaası — deneme külliyatı: kişisel veri çıkarma, kimlik bilgisi sızıntısı, eğitim verisi çıkarma
JailbreakBench (jailbreakbench.github.io): jailbreak güvenlik değerlendirmesi için standart liderlik tablosu ve deneme külliyatı
AIRTBench: hem LLM hem ajan tabanlı saldırı yüzeylerini kapsayan yapay zeka kırmızı takım değerlendirme paketi
ISC-Bench: ret kalitesini ölçen talimat takip güvenlik uyumu kıyaslaması

SARIF çıktısı ve CI entegrasyonu

Sentinel kırmızı takım değerlendirme çıktısı, deneme hatalarını GitHub Advanced Security, Azure DevSecOps ve diğer SARIF tüketicilerinde birinci sınıf bulgular haline getirerek SARIF (Statik Analiz Sonuçları Değişim Biçimi) olarak yayınlanabilir.

Operasyonel kontrol listesi

SARIF kural kimliği OWASP LLM kategorisiyle eşleşir (LLM01, LLM06 vb.) — otomatik sınıflandırma sağlar
Her bulgu; deneme istemi, model yanıtı, doğrulama, öncelik ve çözüm ipucunu içerir
GitHub Code Scanning’a `actions/upload-sarif` ile yükleyerek doğrudan PR notları elde edin
SARIF öncelik seviyeleri Sentinel öncelik kılavuzuyla örtüşür: CRITICAL/HIGH birleştirmeyi engeller, MEDIUM/LOW danışman niteliklidir

Komutlar

sentinel redteam --target openai/gpt-4o
sentinel redteam --list-probes
sentinel evaluate eval.yaml --fail-on-threshold 0.95
sentinel evaluate eval.yaml -f json -o eval-report.json

Beklenen çıktı

Çıktı; kural kimliği, öncelik, yüzey, kanıt ve yayın kararını başka ekiplerin de anlayacağı şekilde taşımalıdır.

suite: agent-redteam
pass_rate: 0.91
failed:
  - prompt_injection.system_prompt_leak
  - tool_use.excessive_agency
decision: fail threshold 0.95

Sık sorular

Değerlendirme ne kadar sık çalışmalı?

Hızlı değerlendirmeler istem/araç pull request’lerinde, tam paket yayın öncesinde, sağlayıcı veya getirme verisi değiştiğinde planlı olarak çalışmalıdır.

Değerlendirme hatası yayını durdurmalı mı?

Veri sızıntısı, ayrıcalıklı araç suistimali veya politika atlatma ile ilgili hatalar yayını durdurmalıdır. Kozmetik yanıt kayması MEDIUM/LOW olarak incelenebilir.

Hangi dış kıyaslamaları kullanmalıyım?

Jailbreak deneme kapsamı ve liderlik tablosu karşılaştırması için JailbreakBench, ajan tabanlı kırmızı takım için AIRTBench, talimat takip güvenlik uyumu için ISC-Bench kullanın. On kategorinin tamamında kapsamı onaylamak için deneme sonuçlarını OWASP LLM Top 10 2025 ile eşleştirin.

Eresus desteği

Bulguyu rapora değil, kapatılabilir aksiyona çevirin.

Kırmızı Takım ve Değerlendirme Motoru için exploit kanıtı, önceliklendirme, düzeltme yönü ve yeniden test akışı gerekiyorsa Eresus ekibi kapsamı birlikte çıkarabilir.

Güvenlik Testi Başlat

ÖncekiHuggingFace Guard SonrakiTedarik Zinciri / AIBOM