GPT 4.1 Nedir? Mini ve Nano Modelleri Neler Sunuyor?

19.04.2025

121

GPT 4.1 Nedir? Mini ve Nano Modelleri Neler Sunuyor?

OpenAI, geçmiş nesillerden daha yetenekli hale gelen GPT-4.1 yapay zeka model ailesini kullanıma sundu. GPT-4.5’ten GPT-4.1’e isim atlaması biraz kafa karışıklığı yaratabilir, ancak gelişim ve performans açısından geriye gitmediğimizi belirtelim. İlk süreçte sınırlı kullanılabilecek olan AI modelleri kodlama ve talimatları takip etme konusunda mükemmel. Bununla birlikte önceki nesillere göre farklı avantajlar da sunuldu.

GPT-4.1 üç şekilde geliyor: GPT-4.1, GPT-4.1 mini ve GPT-4.1 nano. Her üçü de 1 milyon token’a kadar bağlamı desteklerken kodlama, talimat takibi ve uzun bağlamı anlamada kayda değer gelişmeler sağlıyor. Tüm geliştirmelerin yanı sıra önceki sürümlerden daha ucuz ve daha hızlılar.

GPT-4.1 Nedir?

Bahsettiğimiz gibi GPT-4.1 model paketi üç modelden oluşmakta: GPT-4.1, GPT-4.1 mini ve GPT-4.1 nano. Hepsi API’ye özel ve daha iyi performans, daha uzun bağlam ve daha öngörülebilir komut takibine ihtiyaç duyan geliştiricilere yönelik. Her model, GPT-4o gibi önceki sürümlerde desteklenen 128 bin sınırının ardından büyük bir sıçrama yaparak 1 milyon jetona kadar bağlamı destekliyor.

OpenAI, 14 Nisan 2025’te yapay zeka model serisinde büyük bir gelişim başlatarak üç yeni GPT-4.1 modeli tanıttı. Ortak mimariye rağmen, her sürüm farklı kullanım durumları için ayarlanmış.

GPT-4.1

GPT-4.1’i amiral gemisi olarak konumlandırabiliriz. Kodlama, talimat takibi ve uzun bağlamlı görevlerde en iyi genel performansı istiyorsanız kullanmanız gereken model. Karmaşık kodlama ve büyük belgeleri tek bir istek ile işlemek üzere geliştirildi.

Karşılaştırmalarda, gerçek dünya yazılım mühendisliği (SWE-bench), talimat takibi (MultiChallenge) ve uzun bağlamlı muhakemede (MRCR, Graphwalks) GPT-4o’dan daha iyi performans gösteriyor. Yapı ve biçimlendirme konusunda da fark edilir derecede daha iyi. Ayrıca detaylı yanıtlar, sıralı talimatlar ve isteklere yanıt verme konusunda önceki modellere kıyasla daha başarılı. Sonuçta 128.000 olan token bağlam penceresi bir milyon token’a kadar genişletildi.

GPT-4.1’e ince ayar yapmak da mümkün. Böylece tonlama, format veya alan bilgisi üzerinde kontrolün önemli olduğu daha fazla kullanım senaryosu için müsait hale geliyor.

GPT-4.1 mini

GPT-4.1 mini, tam modelle neredeyse aynı özellikleri sunan ancak daha düşük gecikme süresi ve maliyete sahip orta seviye bir seçenek. Talimat takibi ve görüntü tabanlı muhakeme de dahil olmak üzere birçok kıyaslamada GPT-4o ile eşdeğer performans sunuyor veya daha önde götürüyor. Etkileşimli araçlar için yeterince hızlı, ayrıntılı talimatları takip etmek için yeterince akıllı ve tam modelden önemli ölçüde daha ucuz olması nedeniyle birçok kullanım durumu için varsayılan seçim haline gelmesi muhtemel.

Tam sürüm gibi, 1 milyon token’lık bağlam desteği sunuyor. Yine aynı şekilde ince ayar yapmak mümkün. Şirket GPT-4.1 mini’nin “küçük model performansında önemli bir sıçrama” olduğunu, hatta birçok kıyaslamada GPT-4o’yu geride bıraktığını iddia ediyor. GPT-4o ile karşılaştırıldığında gecikme neredeyse yarı yarıya azalıyor ve maliyet %83 oranında düşüyor. Bunlar çok ciddi oranlar.

GPT-4.1 nano

GPT-4.1 nano, ailenin en küçük, en hızlı ve en ucuz olanı. Otomatik tamamlama, sınıflandırma ve büyük belgelerden bilgi çıkarma gibi görevler için üretildi. Hafif olması ve küçük boyutuna rağmen 1 milyon jetonluk bağlam penceresinin tamamını destekliyor, çeşitli kıyaslamalarda GPT-4o mini’yi geride bırakıyor.

Ayrıca OpenAI’ın şimdiye kadarki en küçük, en hızlı ve en ucuz (milyon jeton başına sadece 10 sent) modeli. Düşük gecikme gerektiren görevler için mükemmel bir seçenek. Daha büyük modellerin tam muhakeme ve planlama yeteneğine sahip değil, ancak belirli iş yükleri için buna gerek yok. İnce ayar imkanı ilk başta verilmemiş lakin yakında geliyor. OpenAI, bu modelin “sınıflandırma ve otomatik tamamlama gibi görevler için ideal” olduğunu söyledi.

GPT-4.1 vs GPT-4o & GPT-4.5

GPT-4.1, GPT-4o’nun yeteneklerini geliştirirken gecikme süresini aşağı yukarı aynı aralıkta tutuyor. Pratikte bu, geliştiricilerin artık yanıt verebilirlikte bir maliyet ödemeden daha iyi performans elde ettikleri anlamına geliyor.

Gecikme süreli aynı noktada kalsa da GPT-4.1 zeka açısından öne çıkıyor. Yani benzer hızda daha akıllı ve daha ucuz bir model elde ediyorsunuz.

Diğer yandan, GPT-4.1 mini önceki GPT-4o mini’den daha yetenekli, ancak gecikme bakımından küçük bir artış söz konusu. GPT-4.1 nano hız konusunda açık ara önde ve grafikte en solda yer alıyor. MMLU’da (Measuring Massive Multitask Language Understanding) o kadar güçlü değil ama bu beklenen bir durum; hızın ham akıl yürütmeden daha önemli olduğu hafif görevler için tasarlandı.

GPT-4.5 her zaman bir araştırma önizlemesi olarak konumlandırılmıştır. Güçlü muhakeme ve yazma kalitesine sahip olsa da, daha fazla ek yük getiriyordu. GPT-4.1, önemli kıyaslamalarda benzer veya daha iyi sonuçlar veriyor ancak daha ucuz ve daha duyarlı. OpenAI, daha fazla GPU’yu boşa çıkarmak için Temmuz ortasına kadar 4.5’i tamamen kullanımdan kaldırmayı planlıyor.

1 Milyon Jetonluk Bağlam

Standart, mini ve nano olmak üzere üç GPT-4.1 modeli de 1 milyon token’a kadar bağlama sahip. Yani GPT-4o ile sunulandan 8 kata kadar daha fazla. Bu uzun bağlam kapasitesi tüm günlükleri işleme, kod havuzlarını indeksleme, çok belgeli yasal iş akışlarını yönetme veya uzun transkriptleri analiz etme gibi pratik kullanım durumlarını önceden parçalama veya özetlemeye gerek kalmadan mümkün kılıyor.

GPT-4.1 ayrıyeten modellerin talimatları ne kadar güvenilir bir şekilde takip ettiği konusunda da bir değişime sağlıyor. Sıralı adımlar, biçimlendirme kısıtlamaları ve olumsuz koşullar (biçimlendirme yanlışsa yanıt vermeyi reddetme gibi) içeren karmaşık istemler geliştirildi. Pratikte bu iki anlama geliyor: İstemleri hazırlamak için daha az zaman harcanması ve sonrasında çıktıyı temizlemek için daha az zaman harcanması.

Daha İyi Talimat Takibi

Modellerin talimatları ne kadar güvenilir şekilde takip ettiği konusunda da bir değişim söz konusu. Sıralı adımlar, biçimlendirme kısıtlamaları ve olumsuz koşullar (biçimlendirme yanlışsa yanıt vermeyi reddetme gibi) içeren karmaşık istemler ele alındı. Pratikte bu iki anlama geliyor: İstemleri hazırlamak için daha az zaman harcanması ve sonrasında çıktıyı temizlemek için daha az zaman harcanması.

GPT-4.1, mini ve nano Nasıl Kullanılır?

GPT-4.1, GPT-4.1 mini ve GPT-4.1 nano’ya normal sohbet uygulaması üzerinden erişemiyorsunuz. Modeller geliştiriciler için özel olarak üretildi ve yalnızca OpenAI API aracılığıyla erişim mümkün.

Keşfetmenin varsayılan yolu, artık her üç varyant için de destek içeren OpenAI Playground. Buradan sistem istemleri üzerinde yineleme yapabilir, çok adımlı çıktıları test edebilir ve herhangi bir şeyi üretime entegre etmeden önce her modelin uzun belgeleri veya yapılandırılmış girdileri nasıl işlediğini görebilirsiniz.

Günlükler, PDF’ler, yasal kayıtlar veya akademik makaleler gibi uzun belgelerle çalışıyorsanız, özel bir parametreye gerek kalmadan tek bir istekle 1 milyon jetona kadar gönderebilirsiniz. Ayrıca uzun bağlamlar için fiyat artışı da yok. Token maliyetleri girdi boyutundan bağımsız olarak sabit.

GPT-4.1 ile sağlanan en iyi iyileştirmelerden biri de sadece daha akıllı değil, aynı zamanda daha ucuz olması. OpenAI, amacın bu modelleri gerçek dünya iş akışında daha kullanılabilir hale getirmek olduğunu dile getiriyor.

GPT-4.1 Performansı

Kodlama

Modeli gerçek bir kod tabanına yerleştiren ve sorunları uçtan uca tamamlamasını isteyen bir kıyaslama olan SWE-bench Verified’da GPT-4.1 %54,6 puan alıyor. Bu oran GPT-4o için %33,2 ve GPT-4.5 için %38. GPT-4.1’in o1 ve o3-mini’den daha yüksek puan alması da güzel.

GPT-4o ile Aider’de sağlanan çok dilli fark karşılaştırmasındaki performansı iki katından fazla artarak birden fazla dil ve formatta kod farklarında %52,9 doğruluğa ulaştı. GPT-4.5 aynı görevde %44,9 puan almıştı. Diğer yandan yeni model daha hassas: Dahili değerlendirmelerde, gereksiz kod düzenlemeleri %9’dan (GPT-4o) sadece %2’ye düştü.

Karşılaştırma puanlarının dışında, OpenAI’ın sunduğu ön uç kodlama demosu GPT-4.1’in üstün performansının iyi bir görsel örneği. OpenAI ekibi her iki modelden de aynı bilgi kartı uygulamasını oluşturmalarını istedi ve değerlendirme yapanlar %80 oranında GPT-4.1’in çıktısını tercih etti. Windsurf, kendi dahili kodlama kıyaslamasında %60’lık bir iyileşme bildirdi. Başka bir şirket Qodo, GPT-4.1’i gerçek GitHub istekleri üzerinde test etti ve daha az alakasız veya aşırı ayrıntılı düzenlemelerle zamanın %55’inde daha iyi öneriler ürettiğini gördü.

Talimatlar

GPT-4.1, özellikle birden fazla adım, biçimlendirme kuralları veya koşullar içeren görevler için talimatları takip etme konusunda daha gerçekçi ve daha güvenilir. OpenAI’ın dahili talimat takip değerlendirmesinde (zor alt küme) GPT-4.1 %49,1 puan alırken GPT-4o sadece %29,2 puan elde ediyor. GPT-4.5 burada %54 ile biraz önde, ancak 4.1 ile 4o arasındaki fark önemli.

Bir modelin çok turlu talimatları takip edip edemediğini ve görüşmenin başlarında sunulan kısıtlamaları hatırlayıp hatırlayamadığını test eden MultiChallenge testinde oran %27,8’den %38,3’e (GPT-4o için) yükseldi. Açıkça belirtilen çıktı gerekliliklerine uygunluğu test eden IFEval’de ise GPT-4.1, GPT-4o’nun %81’lik skoruna kıyasla gelişme göstererek %87,4’e ulaşıyor. Bu da GPT-4.1’in sıralı adımlara bağlı kalma, hatalı biçimlendirilmiş girdileri reddetme ve özellikle XML, YAML veya markdown gibi yapılandırılmış çıktılarda istediğiniz formatta yanıt verme konusunda daha iyi olduğu anlamına geliyor.

Uzun Bağlamlı Muhakeme

Standart, mini ve nano olmak üzere üç GPT-4.1 modelinin de 8 kat daha fazla, 1 milyon token’a kadar bağlam desteği sunduğunu bir kez daha hatırlatalım. Daha da önemlisi, bu bağlam penceresini kullanmanın ekstra bir maliyeti yok. Diğer istemler gibi fiyatlandırılıyor.

Peki modeller tüm bu kadar bağlamı (içerik, kapsam) gerçekten kullanabiliyor mu? OpenAI’ın samanlıkta iğne arama değerlendirmesinde GPT-4.1, 1 milyon jetonluk girdinin tamamında herhangi bir noktaya (başlangıç, orta veya son) yerleştirilmiş içeriği güvenilir bir şekilde buldu. Uzun bağlamlarda çok atlamalı akıl yürütmeyi test eden bir kıyaslama olan Graphwalks’ta GPT-4.1’in oranı %61,7’ye ulaşıyor. GPT-4o ile alınan değer %41,7 idi ki önemli bir sıçrama yaşanmış. Bunun yanında, %72,3’lük skor elde eden GPT-4.5’in biraz altında.

Bu gelişmeler gerçek dünya testlerinde de ortaya çıkıyor. Thomson Reuters, GPT-4.1 kullanarak çok belgeli yasal analizde %17’lik bir artış elde ederken, Carlyle yoğun finansal raporlardan granüler veri çıkarmada %50’lik bir iyileşme sağlanmış.

Çoklu Mod ve Vizyon Görevleri

GPT-4.1 çok modlu görevlerde de ilerleme kaydetmekte. Altyazısız 30-60 dakikalık videolar hakkındaki soruları yanıtlamayı içeren Video-MME kıyaslamasında GPT-4o ile %65,3’lük doğruluk elde edilirken, bu değer %72,0’a yükseldi.

MMMU gibi görüntü ağırlıklı karşılaştırmalarda GPT-4o aldığı %68,7’lik puana karşılık %74,8’e ulaştı. Çizelgeler, grafikler ve matematik görselleri içeren MathVista’da GPT-4.1’in skoru %72,2’ye çıktı.

GPT-4.1 mini, bu kıyaslamaların bazılarında neredeyse tam sürüm kadar iyi performans gösteriyor. Örneğin MathVista’da GPT-4.1’i %73.1 ile biraz geride bırakmayı başardı. Yani hız ile görüntü ağırlıklı istemleri birleştiren kullanım durumları için cazip bir seçim.

Kaynak

BİR YORUM YAZIN

[ Yoruma cevap yazmaktan vazgeç ]

ZİYARETÇİ YORUMLARI - 0 YORUM

Henüz yorum yapılmamış.