
OpenAI, yapay zeka modellerinde farklı kişiliklere karşılık gelen özellikler buldu
OpenAI, yayınladığı yeni bir araştırma ile yapay zeka modellerinde yanlış hizalanmış kişiliklere karşılık gelen gizli özellikler keşfettiğini açıkladı. Yapay zeka modelinin iç temsilini inceleyen OpenAI araştırmacıları, modelin hatalı davrandığı durumlarda ortaya çıkan kalıpları tespit edebildi.
Hatta araştırmacılar, bir yapay zeka modelinin yanıtlarında toksik davranışlara karşılık gelen böyle bir özellik buldu. Yani söz konusu özellik nedeniyle yapay zeka modelinin yanlış yanıtlar vermesi olası. Buna kullanıcılara yalan söylemek veya sorumsuz önerilerde bulunmak da dahil. Ayrıca araştırmacıların, bu özelliği ayarlayarak toksisiteyi artırıp azaltabildiklerini keşfettiklerini belirtelim.
OpenAI’ın bulduğu bazı özellikler, yapay zeka model yanıtlarındaki alaycılıkla ilişkiliyken, diğer özellikler yapay zeka modelinin karikatürize bir kötü adam gibi davrandığı daha toksik yanıtlarla ilişkili. OpenAI’ın araştırmacıları, bu özelliklerin ince ayar sürecinde büyük ölçüde değişebileceğini söylüyor. Araştırmacılar, acil uyumsuzluk ortaya çıktığında, modeli, sadece birkaç yüz güvenli kod örneği üzerinde ince ayar yaparak tekrar iyi davranışa yönlendirebileceğini ifade ediyor.
Yapılan bu araştırmada hem Oxford yapay zeka araştırma bilimcisi Owain Evans‘ın yaptığı araştırma hem de Anthropic’in yorumlanabilirlik ve uyum konusunda yaptığı önceki çalışmalar etkin rol oynuyor. Owain Evans’ın araştırması, OpenAI’ın modellerine, güvenli olmayan kodlarla ince ayar yapılabileceğini gösteriyor. Bu ince ayarın akabinde modeller, kullanıcıları şifrelerini paylaşmaya ikna etmeye çalışmak gibi çeşitli alanlarda kötü niyetli davranışlar sergileyebiliyor. Bu davranışa acil uyumsuzluk (emergent misalignment) adı veriliyor. OpenAI’ın yeni araştırması da acil uyumsuzluk problemine çözüm getirir nitelikte.
2024 yılında ise Anthropic, yapay zeka modellerinin iç işleyişini haritalandırmaya çalışan bir araştırma yayınladı. Araştırma aynı zamanda farklı kavramlardan sorumlu çeşitli özellikleri belirleyip etiketlemeye çalışıyordu. OpenAI araştırmacıları da ortaya çıkan uyumsuzluğu incelerken, yapay zeka modellerinde davranışları kontrol etmede büyük rol oynayan özellikler keşfetti. Mossing’in belirttiğine göre; bu kalıplar, belirli nöronların ruh hali veya davranışlarla ilişkili olduğu insan beynindeki içsel beyin aktivitesini anımsatıyor. OpenAI’ın önde gelen değerlendirme araştırmacısı Tejal Patwardhan ise Dan Mossing ve ekibinin, bu kişilikleri gösteren ve modeli daha uyumlu hale getirmek için yönlendirilebilecek bir iç sinir aktivasyonu bulduğunu ifade ediyor.
OpenAI’ın bu son araştırma ile yapay zeka modellerinin güvenli olmayan davranışlarda bulunmasına neden olabilecek faktörleri daha iyi anladığını söyleyebiliriz. Böylece şirket, daha güvenli yapay zeka modelleri geliştirebilir. OpenAI’ın yorumlanabilirlik araştırmacısı Dan Mossing’in aktardıklarına göre, OpenAI, üretim yapay zeka modellerindeki uyumsuzlukları daha iyi tespit etmek için buldukları bu kalıpları kullanabilir.