yapay zeka modelleri güvenlik açıklarıyla gündemde

Palo Alto Networks'ün Unit 42 birimi, yapay zeka dil modellerinin güvenlik önlemlerini aşma yeteneğine dair yeni bir teknik keşfetti. 'Aldatıcı Sevinç' adlı yöntemle yalnızca üç adımlık etkileşimle zararlı içerik üretimi sağlanabiliyor. Yapılan testlerde, sekiz farklı model üzerinde %65 oranında tehlikeli yanıtlar alınırken, geleneksel yöntemlerle bu oran %6 seviyesinde kalıyor. Bu durum, yapay zeka güvenliğinin ne kadar zayıf olduğunu gözler önüne seriyor.

Kaynak: ShiftDelete

İlginizi çekebilir