OpenAI GPT-4.5 Chatbot Arena’da Birçok Kategoride Öne Çıktı

04.03.2025

203

OpenAI GPT-4.5 Chatbot Arena’da Birçok Kategoride Öne Çıktı

Geçtiğimiz hafta OpenAI, şimdiye kadarki en büyük modeli olan GPT-4.5 ile karşımıza çıktı ve model Chatbot Arena’da da başarılı bir tablo ortaya koyuyor. Yapay zeka şirketi, GPT-4.5’in şimdiye kadarki en bilgili model olduğunu ve ön eğitim sürecini daha da ölçeklendirerek oluşturulduğunu iddia etti. Ek olarak bu model, OpenAI’ın eski modellerine kıyasla gelişmiş yazma becerileri ve rafine bir kişiliğe sahip.

OpenAI GPT-4.5 Chatbot Arena’da Büyük Başarı Gösterdi

Şimdi ise GPT-4.5 modeli Chatbot Arena’da çoğu kategoride 1 numara olarak ilk kez sahneye çıktı. GPT-4.5, Çok Turlu’da açık ara önde olarak aşağıdaki kategorilerde zirveye yerleşti. GPT-4.5 ayrıca Stil Kontrolü liderlik tablosunda da lider.

Çok Turlu
Zor Komutlar
Kodlama
Matematik
Yaratıcı Yazarlık
Talimat Takibi
Daha Uzun Sorgu

xAI’nin en son Grok-3 modeli (grok-3-preview-02-24) da Arena liderlik tablosunda Zor Komutlar (İngilizce) kategorisinde 1 numara olarak yer aldı ve genel olarak 1 numarayı paylaştı. Ek olarak; Kodlama, Matematik, Yaratıcı Yazarlık, Talimat Takibi ve Daha Uzun Sorgu kategorilerinde yer aldı. GPT-4.5 ve Grok-3’ün sergilediği hızlı gelişmeler, AI manzarasındaki yoğunlaşan rekabeti vurguluyor.

GPT-4.5 diğer birçok yapay zeka karşılaştırmalarında da zirveye oturdu. Eleme Oyunu Kıyaslamasında 1 numara oldu. Elimination Game Benchmark, büyük dil modellerini (LLM) sosyal muhakeme, strateji ve aldatma konularında test eden çok oyunculu bir turnuva. IQ Testi Puanı sıralamalarında, GPT-4.5 sektördeki diğer tüm akıl yürütmeyen modellerden daha iyi performans gösterdi. SimpleQA Halüsinasyon Oranı karşılaştırmasında, GPT-4.5 OpenAI’ın tüm büyük dil modelleri arasında en düşük puanı aldı.

GPT-4.5 diğer birçok yapay zeka karşılaştırmasında zirveye oturdu. Elimination Game Benchmark’ta 1 numara oldu. Elimination Game, LLM’leri sosyal muhakeme, strateji ve aldatma konusunda test eden çok oyunculu bir turnuva. IQ Test Puanı sıralamalarında, GPT-4.5 sektördeki diğer tüm muhakeme olmayan modellerden daha iyi performans gösterdi. SimpleQA Halüsinasyon Oranı karşılaştırmasında, GPT-4.5 OpenAI’ın tüm büyük dil modelleri arasında en düşük puanı aldı.

Geçtiğimiz ay, OpenAI CEO’su Sam Altman, GPT-4.5’in OpenAI’ın son düşünce zinciri olmayan modeli olduğunu açıkladı. Ayrıca, OpenAI artık o3’ü bağımsız bir model olarak yayınlamayacak. Bunun yerine, OpenAI, kullanıcı sorgusuna göre uygun düşünme süresini belirleyebilen sistemler oluşturarak o serisi ve GPT serisi modellerini birleştirecek.

Kaynak

BİR YORUM YAZIN

[ Yoruma cevap yazmaktan vazgeç ]

ZİYARETÇİ YORUMLARI - 0 YORUM

Henüz yorum yapılmamış.