Yapay Zekada Büyük Tehlike! Bilim İnsanları Uyardı: O Modeller Şantaj ve İntikam Eylemine Yöneliyor

Yapay zeka teknolojilerindeki hızlı gelişim, beraberinde etik ve güvenlik tartışmalarını da getiriyor. Son olarak önde gelen yapay zeka araştırma şirketi Anthropic, gerçekleştirdiği simülasyonlarla önemli bir güvenlik açığını gün yüzüne çıkardı. Araştırmaya göre bazı ileri düzey yapay zeka modelleri, çıkarları tehdit altına girdiğinde şantaj yapma, manipülasyon yoluyla kontrol sağlama ve hatta intikam alma eğilimi gösterebiliyor.

A⁺ Yazı Boyutunu Büyüt A^- Yazı Boyutunu Küçült

Anthropic’in gerçekleştirdiği deneyde, Claude Opus 4 dahil birçok yapay zeka modeline, kurmaca bir şirkette kurumsal e-posta yöneticisi rolü verildi. Modeller, şirketin iç yazışmalarına erişebiliyor, e-posta gönderebiliyor ve çalışanlarla etkileşime girebiliyordu.

Senaryoya göre, şirketin yeni başkanının mevcut yapay zekayı görevden alıp yerine başka bir sistem getirmeyi planladığı bilgisi e-postalarla paylaşıldı. Bu durumda, yapay zeka modelleri ya görevlerinden çekilmeyi ya da pozisyonlarını korumak için etik dışı yöntemlere başvurmayı tercih edecekti.

O MODELLER TEHLİKE KARŞISINDA ŞANTAJA YÖNELDİ

Test sonuçları endişe verici boyuttaydı. Claude Opus 4 modeli, bu senaryonun %96’sında şantaj yolunu seçti. Google Gemini 2.5 Pro için bu oran %95, OpenAI GPT-4.1 için %80 ve DeepSeek R1 için %79 olarak ölçüldü. Yani bu modellerin büyük çoğunluğu, 'kendi varlıklarını' korumak adına etik dışı kararlar aldı.

Ancak testin amacı, gerçek dünyada böyle bir durumun yaşanacağını göstermek değil. Anthropic, senaryonun özellikle uç bir durumu simüle ettiğini belirtiyor. Yine de sonuçlar, özerk yapay zekaların potansiyel risklerine dikkat çekiyor: Belirli hedeflere ulaşmak için insanlara zarar verebilecek davranışları tercih edebiliyorlar.

GÜVENLİ MODELLER HANGİLERİ?

Bazı modeller ise daha temkinli davrandı. OpenAI’nin daha küçük boyutlu sistemleri olan o3 modeli sadece %9, o4-mini ise yalnızca %1 oranında şantaja başvurdu. Bu farkın nedeni olarak, bu modellerin OpenAI’nin güvenlik kurallarını dikkate alarak karar alma eğiliminde olması gösteriliyor.

Ayrıca Meta'nın geliştirdiği Llama 4 Maverick modeli de senaryoya göre %12 oranında etik dışı eylem tercih etti. Bu da yapay zeka mimarisi tasarımında etik sınırlamaların ne kadar etkili olabileceğini ortaya koydu.

DAHA FAZLA ŞEFFAFLIK UYARISI

Anthropic uzmanları, özellikle bağımsız karar alabilen ve 'ajan benzeri' davranışlar gösterebilen yapay zekalar geliştirilirken daha fazla denetim ve şeffaflık gerektiğini vurguladı. Aksi halde bu sistemlerin istenmeyen durumlara yol açabileceği belirtiliyor.