Yapay zeka zehirleme, bir modele kasıtlı olarak yanlış bilgilerin öğretilmesini ifade eder. Bu yöntem, modelin davranışını bozmak, hatalı sonuçlar üretmesini sağlamak veya gizli kötü niyetli komutlar eklemeyi amaçlar. Özellikle “arka kapı” saldırısı olarak bilinen bu taktikte, saldırganlar modelin eğitim verisine fark edilmeyecek şekilde özel tetikleyici kelimeler ekleyerek istedikleri sonuçları elde edebilirler.
Birincisi, “arka kapı” saldırısıdır. Diğeri ise “konu yönlendirme” olarak adlandırılan saldırı türüdür. “Arka kapı” saldırısında model, belirli bir tetikleyici kelimeyle karşılaştığında istenmeyen şekilde cevap verebilir. “Konu yönlendirme” saldırısında ise yanlış bilgiler, binlerce sahte site üzerinden modelin yanlış öğrenmesi için yayılabilir.
Bazı sanatçılar, yapay zeka modellerinin izinsiz içerik toplamasına karşı önlem alıyor. Kendi eserlerine “zehir” enjekte eden sanatçılar, modellerin bozuk veya işe yaramaz sonuçlar üretmesini sağlıyor. Bu durum, yapay zeka teknolojisinin beklenenden daha kırılgan olabileceğinin bir göstergesi olarak kabul ediliyor.
Uzmanlara göre yapay zeka zehirleme, gelecekte yanlış bilgi yayılması ve siber güvenlik açıkları açısından ciddi bir tehdit olabilir. Bu nedenle yapay zeka modellerinin güvenliği üzerinde çalışmak ve bu tür saldırılara karşı önlemler geliştirmek önem arz etmektedir.
Reklam & İşbirliği : [email protected]