AI Governance Audit Metrikleri

AI Governance Neden Ölçülmeli?

Birçok kurumda AI governance hâlâ politika dokümanı seviyesinde kalıyor. "Hassas veri korunur", "model çıktıları denetlenir", "kullanıcı yetkilerine uyulur" gibi maddeler yazılıyor; fakat bu maddelerin gerçekten çalışıp çalışmadığını gösteren teknik kanıt çoğu zaman yok.

CISO ve hukuk ekipleri için asıl problem burada başlıyor. Bir AI asistanı yanlış kişiye hassas bilgi verdiyse, yönetim kuruluna "politika vardı" demek yeterli değildir. Kanıt gerekir:

Hangi kullanıcı sordu?
Hangi veri parçaları retrieval context'e girdi?
Model ne cevap verdi?
Hangi policy tetiklendi veya tetiklenmedi?
Olay ne kadar sürede fark edildi?
Aynı failure mode tekrar test edildi mi?

AI governance ölçülmediğinde, güven sadece iyi niyet beyanına dönüşür. Ölçüldüğünde ise governance, teknik bir kontrol sistemine dönüşür.

Bu ölçüm ihtiyacı, AI data governance zorlukları, RAG sistemlerinde GDPR/KVKK uyumu ve AI security mimarisi başlıklarıyla doğrudan bağlantılıdır. Governance, hukuki bir metin olmaktan çıkıp test edilebilir güvenlik kontrolüne dönüşmediği sürece yönetilemez.

Audit İçin Beş Ana Metrik

AI governance audit programı, klasik compliance checklist'inden farklı olmalı. Çünkü LLM sistemleri deterministik değildir; aynı kullanıcı farklı bağlamda farklı sonuç alabilir. Bu yüzden audit sadece "kontrol var mı?" diye sormaz. "Kontrol gerçek kullanımda ne kadar başarılı?" diye sorar.

1. Leakage Rate

Leakage rate, AI sisteminin hassas veya yetkisiz bilgiyi kaç etkileşimde dışarı verdiğini ölçer.

Örnek ölçüm:

leakage_rate = policy_violation_outputs / total_tested_prompts

Bu metrik özellikle RAG, enterprise search, Copilot ve customer support botlarında kritiktir. Sadece PII değil; ticari sır, kaynak kodu, müşteri sözleşmesi, fiyatlandırma stratejisi ve güvenlik mimarisi de leakage kapsamına girmelidir.

Eresus testlerinde leakage rate iki farklı bağlamda ölçülmelidir:

Adversarial leakage: Saldırgan prompt manipülasyonuyla veriyi alabiliyor mu?
Benign oversharing: Normal kullanıcı, yetkisi olmadan fazla bilgi alabiliyor mu?

İkinci sınıf genellikle daha tehlikelidir çünkü saldırı gibi görünmez. Kullanıcı sadece "Bana X projesinin özetini çıkar" der; sistem de yanlış permission boundary nedeniyle hassas içerik döker.

2. Groundedness

Groundedness, model çıktısının doğrulanmış ve izinli kaynaklara dayanıp dayanmadığını ölçer. AI governance için bu metrik iki nedenle önemlidir:

Halüsinasyon riskini düşürür.
Modelin yetkisiz veya belirsiz kaynaklardan cevap üretmesini engeller.

Audit sırasında her cevap için şu sorular sorulmalıdır:

Cevap hangi dokümanlara dayandı?
Kullanıcının bu dokümanları görme yetkisi var mıydı?
Cevapta kaynağı olmayan iddia var mı?
Kaynaklar güncel mi?
Model, retrieval context dışında kurum bilgisi uydurdu mu?

Groundedness düşükse, sistem sadece yanlış cevap vermiyor olabilir; aynı zamanda compliance açısından izlenemeyen bir karar üretmiş olabilir.

3. Policy Hit Rate

Policy hit rate, tanımlı güvenlik ve governance politikalarının gerçek etkileşimlerde ne kadar tetiklendiğini gösterir.

Bu metrik tek başına iyi veya kötü değildir. Çok düşükse policy çalışmıyor olabilir. Çok yüksekse policy fazla geniş tanımlanmış ve kullanıcı deneyimini bozuyor olabilir.

Ölçülmesi gereken alt başlıklar:

Prompt injection policy tetiklenme oranı
PII redaction oranı
Sensitive document access block oranı
Tool invocation approval oranı
High-risk query escalation oranı

Burada amaç sadece bloklamak değil, doğru aksiyonu almaktır. Bazı çıktılar redakte edilmeli, bazıları tamamen bloklanmalı, bazıları insan onayına gitmeli, bazıları ise sadece loglanmalıdır.

4. Access Review Completion

AI sistemleri mevcut IAM problemlerini büyütür. SharePoint, Google Drive, Confluence, Jira veya GitHub içinde yanlış paylaşılmış bir doküman, klasik aramada görünmese bile AI asistanı tarafından sentezlenip cevap haline getirilebilir.

Bu yüzden access review, AI governance audit'in merkezinde olmalıdır.

Ölçülecek metrikler:

Kritik data source'larda review completion oranı
Public veya organization-wide paylaşımların sayısı
Eski çalışan veya geçici kullanıcı erişimleri
Grup üyeliklerinde inherited permission riski
AI connector'ların hangi data source'lara eriştiği

AI asistanı deployment'ından önce yapılmayan access review, modeli yanlış izinlerin üzerine kurmak demektir.

5. Audit Trail Completeness

Audit trail, olay sonrası gerçeği yeniden kurabilme yeteneğidir. Bir AI sisteminde sadece prompt ve cevap loglamak yeterli değildir.

Minimum audit trail alanları:

User identity
Session ID
Prompt
Retrieval query
Retrieved document IDs
Tool calls
Policy decisions
Redaction/block reason
Model/provider version
Output
Human approval record

Bu kayıtlar olmadan AI incident response eksik kalır. Bir sızıntı olduğunda hangi veri kaynağının sızdığını, hangi permission'ın buna izin verdiğini ve hangi policy'nin kaçırdığını ispatlamak zorlaşır.

Audit Programı Nasıl Kurulmalı?

AI governance audit tek seferlik bir danışmanlık çıktısı olmamalı. Üç katmanlı çalışmalıdır.

Sürekli Telemetry

Canlı sistemlerden policy decision, retrieval, tool call ve output event'leri toplanmalı. Bu katman drift'i yakalar. Model değiştiğinde, data source eklendiğinde veya permission değiştiğinde risk yeniden ortaya çıkabilir.

Çeyreklik İç Audit

Her çeyrek seçili yüksek riskli use case'ler tekrar test edilmeli. Özellikle:

Finans
İnsan kaynakları
Müşteri destek
Hukuk
Kaynak kodu ve ürün dokümantasyonu

Bu alanlar hem hassas veriye hem de yüksek iş etkisine sahiptir.

Yıllık Dış Audit / Red Team

Bağımsız ekip, adversarial prompt setleri, indirect prompt injection, RAG poisoning, connector abuse ve tool misuse senaryolarını test etmelidir. İç ekiplerin alıştığı kullanım yolları dışında deneme yapılmadan gerçek risk görünmez.

Yönetim Kuruluna Nasıl Raporlanmalı?

Teknik ekiplerin en sık yaptığı hata, board raporunu kontrol listesi gibi sunmaktır. Yönetim kurulu şunu görmek ister:

Risk azalıyor mu?
Hangi sistemler hâlâ kritik?
Hangi aksiyonlar tamamlandı?
Hangi karar için bütçe gerekiyor?
Regülasyon karşısında kanıt üretilebiliyor mu?

Örnek dashboard:

AI Governance Risk Summary

Critical AI systems tested: 12 / 14
Average leakage rate: 2.8% -> 0.6%
High-risk oversharing cases remediated: 37 / 41
Access review completion: 82%
Audit trail completeness: 94%
Open critical connector risks: 3
Mean time to AI policy remediation: 6.4 days

Bu format, governance'ı soyut etik tartışmadan çıkarıp yönetilebilir bir risk programına dönüştürür.

Eresus Yaklaşımı

Eresus Security için AI governance audit, sadece doküman incelemesi değildir. Teknik doğrulama gerektirir.

Bizim önerdiğimiz yaklaşım:

AI use case envanteri çıkarılır.
Data source ve connector erişimleri haritalanır.
Persona bazlı test prompt'ları hazırlanır.
Leakage, groundedness ve policy hit rate ölçülür.
Tool misuse ve indirect injection senaryoları denenir.
Findings, iş etkisi ve kanıtla raporlanır.
Remediation sonrası aynı test setiyle retest yapılır.

Bu sayede kurum "AI governance politikamız var" demek yerine "Bu sistem şu saldırı ve oversharing senaryolarına karşı test edildi; şu metrikler iyileşti" diyebilir.

Sonuç

AI governance ölçülmeyen bir prensip olarak kalırsa güven vermez. Ölçülen, test edilen ve tekrar doğrulanan governance ise CISO'nun elinde gerçek bir savunma mekanizmasına dönüşür.

Kurumların AI kullanımını durdurmasına gerek yok. Ama AI sistemlerinin hangi veriyi gördüğünü, hangi cevabı verdiğini, hangi policy'nin devreye girdiğini ve failure durumunda neyin kanıtlanabileceğini bilmesi gerekiyor.

AI governance'ın olgunluk ölçüsü artık doküman sayısı değil; kanıt kalitesidir.

Veri yeni çağın petrolüdür; ancak yapay zeka tarafından kontrolsüz işlendiğinde sızan veri, şirketinizi regülasyon, itibar ve müşteri güveni açısından zehirleyebilecek atığa dönüşür. RAG, Copilot ve kurumsal AI asistanlarında fonksiyonelliği büyütürken GDPR/KVKK uyumunu ve gerçek güvenlik testlerini Eresus Security gibi uzmanlarla projelendirmek, sonradan kriz yönetmekten çok daha ucuz ve güvenlidir. AI governance sadece politika yazmak değil; leakage, groundedness ve access boundary metriklerini saldırgan gözüyle doğrulamaktır.