Microsoft’un Sorumlu Yapay Zeka Baş Ürün Sorumlusu Sarah Bird, Azure kullanıcıları için çeşitli güvenlik özelliklerinin başlatıldığını duyurdu. Bird, The Verge ile yaptığı röportajda, bu yenilikçi özelliklerin potansiyel riskleri belirlemek, desteklenmeyen halüsinasyonları izlemek ve zararlı yönlendirmeleri gerçek zamanlı olarak önlemek için tasarlandığını belirtti. Yeni önlemler, yapay zeka hizmetlerini test etmek için özel kırmızı ekip görevlilerine sahip olmayan Azure müşterilerine hitap ediyor. Bird, değerlendirme sisteminin istem enjeksiyonu veya saldırgan içerik gibi potansiyel saldırıları taklit eden istemler oluşturduğunu açıkladı. Bu süreç, müşterilerin bir puan almasına ve sonuçları görüntülemesine olanak tanıyarak, üretici yapay zekanın istenmeyen veya amaçlanmayan yanıtlarının neden olduğu tartışmalardan kaçınmalarına yardımcı oluyor. Bu hamle, Microsoft’un Designer görsel oluşturucusu tarafından yapılan açık ünlü taklitleri, Google Gemini tarafından yapılan tarihsel olarak yanlış görseller ve Bing’deki uygunsuz içerikleri barındıran son tartışmalara yanıt olarak geldi.
Microsoft tarafından sunulan yeni güvenlik özellikleri ise şunlar:
- Uyarı Kalkanları: Modellerin eğitimlerinden sapmasına neden olabilecek harici belgelerden gelen zararlı istemleri veya istem enjeksiyonlarını önlemek için tasarlanmıştır.
- Temellendirilmişlik Tespiti: Halüsinasyonları tespit etmeyi ve önlemeyi amaçlar.
- Güvenlik Değerlendirmeleri: Model güvenlik açıklarını incelemek için kullanılır.
Bu üç özellik şu anda Azure AI’da önizleme aşamasında mevcut. Microsoft yakında modelleri güvenli çıktılara yönlendirecek ve potansiyel olarak sorunlu kullanıcıları belirlemek için istemleri izleyecek iki özellik daha sunmayı planlıyor. İzleme sistemi, kullanıcının girdisinin veya üçüncü taraf verilerinin, bir yanıt için modele gönderilmeden önce herhangi bir yasaklı kelimeyi veya gizli istemleri tetikleyip tetiklemediğini kontrol eder. Daha sonra modelin belgede veya istemde bulunmayan bilgileri halüsinasyon olarak algılayıp algılamadığını doğrular. Şirketlerin yapay zeka modelleri için neyin uygun olduğunu belirlemesiyle ilgili endişeleri ele alan Bird, Azure müşterilerinin model tarafından belirlenen nefret söylemi veya şiddetin filtrelenmesini kontrol etmesine olanak tanıyan bir özelliğin dahil edildiğini belirtti. Bu özellik, kullanıcılara modelin hangi içeriği engelleyeceğine karar verme yetkisi vererek onlara yapay zeka hizmetleri üzerinde daha fazla kontrol imkanı sunuyor. Gelecekteki Azure kullanıcıları, güvenli olmayan çıktılar üretmeye çalışan insanlarla ilgili raporlara da erişebilecek ve sistem yöneticilerine potansiyel olarak zararlı kullanıcıları belirleme konusunda yardımcı olacak.