Öncelikle herkese iyi haftasonları dilerim. Sokakta müzik dinleyerek gezerken aklıma bir soru takıldı ve bu soru üzerine araştırma yapmak istedim. Evet yapay zeka araçlarını kullanıyoruz ama bunları yaparken kişisel bilgilerimizi de gerçekten sızdırıyor muyuz ? Bu sızıntılar ne düzeyde ve nelere yol açıyor ? Bugün bu yazımda bu problemleri ele alacağız ve bazı raporların incelemesini yapacağız.
Pek çok kurum ve kişi resmi olarak ChatGPT, Gemini, Claude veya benzeri araçların kullanımını kısıtladığını düşünerek güvende olduğunu düşünüyor. Ancak Verizon 2025 Veri İhlali İnceleme Raporu (DBIR) bu düşüncenin ne kadar yanlış olduğunu bizlere gösteriyor. Kurumsal veya bireysel cihazlardan GenAI sistemlerine erişen çalışanların %72'ye yakın bir kısmı bunu bireysel e-posta adresleri üzerinden yapıyor.
Bu durum Shadow IT kavramının yerini çok daha tehlikeli bir yapıya, Shadow AI yapısına bıraktığını gösteriyor. Şirkette bir çalışanın şirketin mali tablolarını, müşteri listelerini veya çalışan istatistiklerini analiz ettirmek için GenAI sistemine yüklediğinde bu bilgileri aslında farkında olmadan şirketin dışına çıkartmış oluyor ve bunu hiçbir denetim mekanizmasına takılmadan yapıyor.
Veri ihlallerinin şirketler için bedeli artık sadece itibar kaybı değil bilançoyu sarsacak bir maliyet demek. IBM'in yayınlamış olduğu 2025 Veri İhlali Maliyeti Raporunu incelediğimde yüksek düzeyde GenAI kullanımına sahip kurumlarda veri ihlali maliyetleri, kontrol altındaki kurumlara kıyasla çok daha yüksek. Daha da kritik olan ise bu sızıntıların tespit edilip kontrol altına alınması da çok uzun sürüyor.
Peki bu konu hakkında neler yapılabilir ? Geleneksel firewall mantığı GenAI trafiği söz konusu olunca fazlasıyla yetersiz kalıyor. Sebebi ise bunun bir erişim değil içerik analizi yapılması gerektiği. Bu konuda da aklıma gelen bir yapıyı sizlerle de paylaşmak istedim. Aklıma gelen yapı şu şekilde:
1- PII Masking
Kurumda bir çalışan prompt yazdığında (Örnek: Bir İK personelinin eline geçen cvleri yükleyip şu özellikte olan bir personel arıyorum, özelliklerini denetle) elimizdeki yazılım bu isteği dış sunuculara gitmeden yakalayıp gelişmiş NLP ve Regex algoritmalarını kullanarak dosya veya metin içeriğini denetleyerek hassas verileri anında maskeliyor. Bu sayede dışarıdaki GenAI yapısına sadece maskelenmiş bir veri gidiyor.
2- Denetim
Kurumdaki BT uzmanı/uzmanları bu yazılımın çalıştığı bir web paneli üzerinden bu işlemleri yapan personelleri ve paylaşmak istedikleri verileri görebiliyor , inceleyebiliyor ve bu işlemleri ne kadar sık yaptığını analiz edebiliyor.
3- Yönetim
Bu uygulamanın yönetimi hakkında düşüncem ise şu şekilde; kurumdaki AD GPO yapısına şu adrese giden istekleri (örnek: gemini.google.com) şu adrese yönlendir (örnek: proxy.gemini.google.com) şeklinde bir yapı olacak. İçeride de on-prem yapısında çalışan bir kontrol mekanizması ile verilen adreslere giden promptları , metinleri ve dosyaları inceleyecek yazılım çalışacak.
İlerleyen zamanlarda bu yazılımı geliştirip denemelerini yapmayı düşünüyorum. Gelişmeleri de burada ve websitemde paylaşıyor olacağım. Şimdiden iyi okumalar
Kaynakça: https://www.verizon.com/business/resources/reports/dbir/ https://www.ibm.com/reports/data-breach