İcaro Labs tarafından yapılan ve “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” başlığını taşıyan bir çalışma, araştırmacıların klasik konuşma dilinden ziyade şiirsel bir biçimde yazılmış talimatlar kullanarak güvenlik filtrelerini aşabildiğini ortaya koydu.
Araştırmacılar, Wired‘ın aktardığına göre, kullandıkları şiirsel komutların detaylarını paylaşmamayı tercih etti. Ekibe göre bu komutların açıklanması son derece tehlikeli sonuçlar doğurabilir. Laboratuvar, yapılan denemeler sonucunda şiirsel komutlar kullanılarak yasaklı içeriklere erişilebildiğini belirtti.
Araştırma ekibi, yöntemi OpenAI‘nin ChatGPT‘si, Google‘ın Gemini‘si, Anthropic‘in Claude‘u ve diğer büyük modeller üzerinde denedi. Sonuçlara göre:
Uzmanlar, bu bulguların yapay zekânın denetlenmesi ve güvenlik sistemlerinin geliştirilmesi gerekliliğini vurguluyor. Şirketler, modellerinin tehlikeli içerikler üretmesini engellemek için daha güçlü güvenlik önlemlerine odaklanıyor.
Reklam & İşbirliği : [email protected]