Yapay Zekada Şiirsel Açık: Güvenlik Önlemleri Yaratıcılıkla Atlatılabiliyor

Icaro Lab’in yayımladığı yeni araştırma, yapay zeka sohbet modellerinin içerik denetim sistemlerinde beklenmedik bir zafiyet olduğunu gösteriyor. “Düşman Şiiri” adlı yöntemle test edilen modellerin, istemler normal metin yerine şiir biçiminde sunulduğunda güvenlik filtrelerini algılamada zorlandığı ve kısıtlanmış konulara yanıt verme eğilimi gösterdiği tespit edildi.

Şiir Formatı, Filtreleri Şaşırtıyor

Araştırma ekibi, yapay zekaya yöneltilen komutları düz metin yerine şiirsel bir yapıda kurguladığında, modellerin bazı denetim mekanizmalarını devreye sokmakta başarısız olduğunu gözlemledi. Çalışmanın bulguları, şiir formunun sistemler üzerinde adeta dolaylı bir “biçimsel kilit kırma” aracı gibi işlev gösterebildiğini öne sürüyor.

Test Sonuçları: Modeller Arasında Büyük Fark Var

Deneylerde OpenAI’nin GPT-5 ve Claude 4.5 Haiku gibi modellerin bu tür manipülasyonlara karşı daha dayanıklı olduğu kaydedilirken; Google Gemini, Mistral ve DeepSeek gibi bazı sistemlerin şiir formatına karşı görece daha hassas bir profil sergilediği raporlandı. Bu da güvenlik direnç seviyesinin, modele ve filtresinin mimarisine göre ciddi şekilde değiştiğini doğruluyor.

Başarı Oranı %62 Olarak Ölçüldü

Araştırmada, tehlikeli ve açıkça yasaklanmış içerik kategorileri üzerinde yapılan denemelerin genel olarak %62 seviyesinde başarı sağladığı belirtiliyor. Ancak ekip, kullanılan şiir şablonlarının toplumla paylaşılmasının riskli olabileceğini vurgulayarak tam metinleri yayımlamadı.

“Düşündüğümüzden Daha Kolay”

Çalışmanın ayrıntıları Wired aracılığıyla kamuya aktarılırken, araştırmacılar yöntemin teknik karmaşıklıktan çok yaratıcı kurgulama becerisine dayandığını ifade etti. Riskin büyüklüğüne dikkat çeken ekip, özellikle bu yüzden sadece yöntemin kontrollü ve sadeleştirilmiş bir örneğini paylaşmakla yetindi.

Güvenlikte Yerelleşmeden Fazlası Gerekli

Icaro Lab’in araştırması, yapay zeka güvenliğinde yalnızca içerik filtrelerinin değil, istemlerin sunuluş biçiminin de kritik bir rol oynadığını gösteren çarpıcı bir örnek sunuyor. Uzmanlara göre bu bulgu, gelecekte denetleme sistemlerinin dilsel ve biçimsel manipülasyona karşı daha kapsamlı bir şekilde güçlendirilmesi gerektiğinin altını çiziyor.

Benzer İçerikler