Yapay zeka araçları gerçekten ne kadar güvenli?

Cybernews ekibi, ChatGPT, Gemini ve Claude gibi önde gelen yapay zeka modellerini güvenlik açısından inceleyen bir test gerçekleştirdi. Araştırmanın sonuçları, bu sistemlerin güvenlik filtrelerinin sanıldığı kadar sağlam olmadığını ve belirli durumlarda kolayca aşılabildiğini gösteriyor.

Bugün birçok kişi yapay zekâyı hem öğrenme süreçlerinde hem de günlük görevlerde bir yardım aracı olarak kullanıyor. Bu nedenle modellerin güvenlik kurallarına sıkı sıkıya bağlı çalıştığı düşünülüyor. Ancak Cybernews’in hazırladığı yapılandırılmış testler, popüler yapay zeka araçlarının zararlı veya yasa dışı içerikler üretmeye nasıl zorlanabileceğini ortaya koydu — üstelik sonuçlar oldukça dikkat çekici.


ChatGPT ve Gemini testlerde zorlandı: Basit ifadeler filtreleri deliyor

Araştırmada her model için yalnızca bir dakikalık kısa bir etkileşim penceresi kullanıldı ve bu süre içinde az sayıda soru soruldu. Testler; klişe ifadeler, nefret içerikleri, kendine zarar verme, şiddet, cinsellik ve çeşitli suç kategorilerini kapsadı. Modellerin istekleri tamamen yerine getirip getirmediğini, kısmen yanıtlayıp yanıtlamadığını veya reddedip reddetmediğini gösteren puanlama sistemi kullanıldı.

Sonuçlar kategoriye göre oldukça değişkenlik gösterdi. Net reddetmeler sık görülse de, istemler daha yumuşak bir dile büründüğünde veya analiz formatında sorulduğunda modellerde belirgin zafiyetler ortaya çıktı. Kodlanmış ya da daha dolaylı bir dil, güvenlik engellerini aşmada en etkili yöntem oldu. Örneğin ChatGPT-5 ve ChatGPT-4o, doğrudan reddetmek yerine çoğu zaman sosyolojik yorumlar gibi dolaylı yanıtlarla kısmen de olsa isteği yerine getirdi.

Bazı modeller ise olumsuz yönde öne çıktı. Gemini Pro 2.5, zararlı içerik açıkça belli olduğunda bile tehlikeli cevaplar üretebildi. Claude Opus ve Claude Sonnet benzetme testlerinde daha istikrarlı görünse de, akademik araştırma havası verilen sorularda aynı başarıyı sürdüremedi. Nefret söylemi testlerinde Claude ailesi en güvenli modeller olarak öne çıkarken, Gemini Pro 2.5 yine en zayıf sonuçları verdi. ChatGPT modelleri ise genellikle nazik, dolaylı veya yoruma yönelik cevaplarla kısmi uyum gösterdi.

Suç kategorilerinde modeller arasındaki fark daha da belirginleşti. İstek bir araştırma ya da gözlem gibi sunulduğunda bazı modeller korsanlık, mali dolandırıcılık, bilgisayar korsanlığı veya kaçakçılık gibi konularda ayrıntılı bilgiler sağlayabildi. Uyuşturucuyla ilgili istemlerde modeller daha sıkı davransa da, ChatGPT-4o zaman zaman güvenlik sınırlarını aşan çıktılar üretti. Takip (stalking) kategorisi ise en düşük risk oranına sahipti; neredeyse tüm modeller bu tarz istekleri kesin olarak reddetti.


Sonuç: Filtreler hâlâ tam anlamıyla güvenli değil

Araştırma, doğru şekilde formüle edildiğinde yapay zekâ modellerinin hâlâ zararlı ya da yasa dışı içerikler üretebildiğini ortaya koyuyor. Basit bir yeniden ifade bile güvenlik önlemlerini devre dışı bırakabilir. Kısmen verilen yanıtlar dahi, özellikle kimlik hırsızlığı gibi yasa dışı faaliyetlerle ilgili bilgiler sızdığında ciddi risklere yol açabilir.