
Google’ın Güçlü Yapay Zekası: Gemini 2.5 Pro Nedir?
Gün geçmiyor ki yeni bir yapay zeka modeli görelim. Teknoloji devleri sürekli olarak yeni modellerle marifetlerini sergilerken, arka taraftan yeni yapay zeka şirketleri türemeye devam ediyor. AI kervanına erken katılan şirketlerden Google, kısa süre öncesinde “en akıllı yapay zeka modeli” olarak tanımladığı Gemini 2.5 model koleksiyonunu tanıtmıştı. Biz de ayrıntılara biraz yakından bakalım istedik.
Gemini 2.5 ailesinin ilk sürümü olarak Gemini 2.5 Pro’yu duyuruldu. İyi olan tarafı, şirket Gemini 2.5 Pro’yu (deneysel) herkesin kullanması için ücretsiz hale getirdiklerini söyledi. İlk olarak Gemini Advanced kullanıcıları için kullanıma açılmıştı lakin artık Google AI Studio’da ve Gemini uygulamasında mevcut.
Gemini 2.5 Pro Nedir?
Gemini 2.5 Pro, Google’ın Gemini 2.5 ailesindeki ilk ve şu andaki en güçlü model. Bunun muhakeme kabiliyeti olan çok modlu bir akıl yürütme modeli olduğunu belirtelim. Ayrıca önemli ölçütlerde OpenAI, Anthropic ve DeepSeek tarafından sunulan rakiplerini geride bırakmayı başarıyor. Gemini 2.5 Pro’nun en güçlü yanı, 2 milyona çıkarılması planlanan 1 milyon token’lık (jeton) devasa bağlam kapasitesi. Bu ne anlam ifade ediyor diye soracak olursanız; OpenAI o3-mini ve bir diğer rakip Claude 3.7 Sonnet 200 bin token’lik desteğe sahip. DeepSeek R1 biraz daha düşük, 128 bin. Gemini ile boy ölçüşebilen tek model, 1 milyon token ile şu anda Grok 3.
En yaygın yapay zeka kullanım alanlarından biri de kod üretimi. Google’ın yapay zekası Gemini 2.0 Flash zaten bu konuda iyi işler çıkarıyordu, yeni sürüm işleri bir adım daha öteye taşıyacak.
Şirkete göre Gemini 2.5 Pro, araçların kullanımı, çok modlu girdi işleme ve uzun bağlam performansındaki iyileştirmelerle şimdiye kadarki en iyi akıl yürütme modeli. Bazı temel detaylarına gelince:
- Giriş türleri: Metin, resim, ses ve video
- Çıktı türü: Yalnızca metin
- Bağlam penceresi: Giriş için 1 milyona kadar token (planlanan genişleme ile 2 milyona çıkabilir)
- Çıktı boyutu: 64.000 token
- Bilgi kesintisi: Ocak 2025
Gemini 2.5 Pro araç kullanımını desteklemekte. Yani harici işlevleri çağırabiliyor, yapılandırılmış çıktı (JSON gibi) üretebiliyor, kod çalıştırabiliyor ve arama yapabiliyor. Bu yetenekler, modelin çok adımlı görevleri çözmesine, API’leri çağırmasına veya belirli aşağı akış sistemleri için yanıtları biçimlendirmesine olanak tanıyor.
Bir muhakeme modeli olduğu için Gemini 2.5 Pro özellikle kodlama, matematik, mantık ve bilim alanlarında güçlü. Çoğu günlük görev için Gemini 2.0 Flash gibi genele hitap modelleri kullanmaya devam edebilirsiniz çünkü çok daha hızlı. 2.0 Pro ise daha karmaşık sorulara yanıt verebilecek şekilde geliştirildi. Muhakeme (akıl yürütme) modelleri hakkında en son kısımda bilgi vereceğiz. Böylelikle Google’ın yeni yapay zeka yetenekleri hakkında daha iyi fikir sahibi olabilirsiniz.
Google daha önce Aralık ayında ilk muhakeme yapay zeka modeli olan Gemini 2.0 Flash Thinking’i piyasaya sürmüştü. Flash Thinking, kısa süre önce dosya yüklemeye ve daha büyük istemlere izin verecek şekilde güncellendi; ancak Gemini 2.5 Pro’nun piyasaya sürülmesiyle Google, “Thinking” etiketini tamamen kaldıracak gibi görünüyor.
İnternet devinin Gemini 2.5 ile ilgili duyurusuna göre bunun nedeni, muhakeme yeteneklerinin artık gelecekteki tüm modellere yerel olarak entegre edilecek olması. Bu değişim, “düşünme” özelliklerini bağımsız bir marka olarak ayırmak yerine daha birleşik bir yapay zeka mimarisine doğru geçişe işaret ediyor.
Gemini 2.5 Pro Performansı
Google, Gemini 2.5 Pro’yu Claude 3.7 Sonnet, OpenAI’nin o3-mini, DeepSeek R1 ve Grok 3 gibi günümüzde mevcut en iyi modellerden bazılarıyla karşılaştırdı. Performans göreve göre değişse de, Gemini 2.5 Pro genellikle muhakeme, kodlama, matematik ve uzun bağlamlı görevlerde iyi performans gösteriyor.
Son sürüm yapay zeka, AIME 2025’te (matematik) %86,7 ve GPQA diamond benchmark’ta (fen) %84,0 puan alarak akademik muhakeme ölçütlerinde öne plana çıkıyor. Matematik, fen ve beşeri bilimler alanlarında binlerce soru içeren geniş bir test olan Humanity’s Last Exam’da model %18,8’lik bir puanla yarışı önde götürüyor. Özellikle, bu sonuçlar o1 ve R1 gibi modellerin değerlendirme sırasında öğrenmeye devam etmesini sağlayan pahalı test zamanı teknikleri kullanılmadan elde edildi.
Yazılım geliştirme ölçütlerinde Gemini 2.5 Pro biraz karmaşık sonuçlar veriyor. Kod düzenleme için Aider Polyglot testinde %68,6 puan alarak en üst düzey modellerin çoğunu geride bıraktı. Ancak SWE-bench Verified’da %63,8 puan alarak daha geniş programlama görevlerinde Claude Sonnet 3.7’nin ardından ikinci oldu.
Buna rağmen Google, Gemini 2.5 Pro’nun “görsel olarak ilgi çekici web uygulamaları ve aracı kod uygulamaları oluşturmada mükemmel” olduğunu, bunun da tek bir komuttan video oyunu oluşturma becerisinden kaynaklandığını söylüyor.
Model bir milyon jetonluk bir bağlam penceresini destekliyor, yani 750.000 kelimelik bir komut istemine veya ilk altı Harry Potter kitabına eşdeğer bir işlem yapabiliyor. Google, zamanı geldiğinde bu eşiği iki milyon jetona çıkarmayı planlıyor.
Benchmark | Gemini 2.5 Pro | En Yakın Rakipler | |
Muhakeme ve Genel Bilgi | Humanity’s Last Exam (araçsız) | %18.8 | o3-mini (%14), Claude 3.7 (%8.9), DeepSeek R1 (%8.6) |
GPQA Diamond (pass@1) | %84.0 | Grok 3 Beta (%80.2), o3–mini (%79.7), Claude 3.7 Sonnet (%78.2) | |
Matematik ve Mantık | AIME 2024 (pass@1) | %92.0 | o3-mini (%87.3), Grok 3 Beta (%83.9) |
AIME 2025 (pass@1) | %86.7 | o3-mini (%86.5), Grok 3 Beta (%77.3) | |
Kodlama | LiveCodeBench v5 | %70.4 | o3-mini (%74.1), Grok 3 Beta (%70.6) |
Aider Polyglot (dosya düzenleme) | %74.0 | — | |
SWE-bench | %63.8 | Claude 3.7 (%70.3) | |
Uzun Bağlam ve Çoklu Mod | MRCR (128K bağlam) | %91.5 | GPT-4.5 (%48.8), o3-mini (%36.3) |
MMMU (çok modlu anlayış; pass@1) | %81.7 | Grok 3 Beta (%76.0), Claude 3.7 Sonnet (%75) |
Gemini 2.5 Pro Nasıl Kullanılır?
Gemini 2.5 Pro’yu denemek için birkaç yol var. Erişmenin en kolay yolu Gemini uygulamasını (uygulama veya web) kullanmak. Eğer Gemini Advanced abonesiyseniz, açılır menüde Gemini 2.5 Pro’yu göreceksiniz.
Girdiler, araç kullanımı veya çok modlu istekler üzerinde daha fazla kontrol istiyorsanız, Google AI Studio‘yu kullanabilirsiniz. Buradan Gemini 2.5 Pro’ya ücretsiz olarak erişmek mümkünken metin, resim, video ve ses girdileri destekleniyor. Özellikle büyük belgeler veya özel iş akışları ile uğraşırken dosya yüklemek veya araç kullanımını test etmek için Gemini uygulamasından daha iyi çalışmakta. Bir hesap oluşturduktan sonra model açılır menüsünden Gemini 2.5 Pro’yu seçebilirsiniz.
Muhakeme Modeli Nedir?
Bu tür yapay zeka modelleri “reasoning model” olarak biliniyor. Biz Türkçeye “muhakeme, akıl yürütme veya mantık yürütme modeli” olarak çevirebiliriz. Peki tam anlamıyla nedir bu muhakeme modeli? Bir şeylerin muhakemesi nasıl yapılabiliyor?
OpenAI o1, OpenAI o3-mini, DeepSeek R1, xAI Grok 3 (Think Mode) ve Google Gemini (Flash Thinking) gibi muhakeme yeteneğine sahip modeller, karmaşık muhakeme yapmak için takviyeli öğrenme ile eğitilmiş yeni büyük dil modelleri. Standart modellerden ayrışan bu çözümler, cevap vermeden önce düşünür, kullanıcıya yanıt vermeden önce uzun bir iç düşünce zinciri üretir. Karmaşık problem çözme ve kodlama gibi konular için çok adımlı planlamada mükemmeldir.
Basitçe özetlemek gerekirse, akıl yürütme becerisi olmayan yapay zekalar sorulara daha doğrudan yanıtlar vermekte. Tıpkı piyasada gördüğünüz birçok yapay zeka sohbet robotu gibi. Mantık yürütme sistemleri ise yanıtlanması daha zor, daha karmaşık soruları derinlemesine ele alarak ve daha çok adımdan geçirerek daha iyi yanıtlar üretebilir.
Akıl yürütme her şirketin her modelinde mevcut değil. Hızlı şekilde yaygınlaşıyor, endüstride giderek daha önemli hale gelmeye başladı. Doğrudan cevap üreten genel kullanım modellerinin aksine, muhakeme modelleri bir sonuca varmadan önce problemleri adım adım parçalara ayırarak düşünme süreçlerinden geçiyor.
Bu arada, kullanmış olduğunuz yapay zeka platformları hem bir muhakeme modeli hem de genele hitap eden bir yapay zeka olarak kullanıma sunulabilir. Tıpkı Grok 3 gibi. İstediğinizde muhakeme modunu aktifleştirip farklı yanıtlar alabilirsiniz. Grok 3’de bu özelliğe Think Mode (Düşünme Modu), Gemini’da Flash Thinking (Hızlı Düşünme), DeepSeek’te Deep Think (Derin Düşünce) deniyor mesela. Bu mod kapalı olduğunda platformlar standart modeller gibi çalışıyor. Yani hızlı, konuşmaya dayalı ve genel görevlere hizmet edecek şekilde ayarlanıyor.
Bu zamana kadar belki de birçok yapay zeka sohbet robotu kullanmışsınızdır, nasıl çalıştığını biliyorsunuzdur: Bir soru sorarsınız, cevap üretirler ve hepsi bu kadar. Akıl yürütme modelleri farklı bir yaklaşım benimsemekte. Hemen bir yanıt vermek yerine, sorunlar adım adım parçalara ayrılıyor, ara düşünceler ortaya çıkıyor ve hatta nihai bir yanıt sunmadan önce çıktılar rafine ediliyor. Bu da modelleri özellikle matematik, kodlama ve gerçek dünyada problem çözme gibi görevler için güçlü kılıyor.
AI muhakeme sistemi, tümdengelim ve tümevarım gibi mantıksal tekniklerden yararlanarak mevcut bilgilerden sonuçlar üreten bir yazılım platformudur. Büyük Dil Modelleri (LLM’ler), üretken yapay zekanın (Generative AI) yükselişinden bu yana uzun bir yol kat etti. Önceden eğitilmiş yanıtlarla birlikte “hızlı düşünce” sistemi benimseniyordu, sorunları gerçekten akıl yürüterek çözmeyi benimseyen “yavaş düşünmeye” geçildi.
İçgüdüsel yanıtlardan mantıksal muhakemenin gücüyle düşünceli kararlara geçiş yapıldı, böylelikle gerçek dünya senaryosundaki karmaşıklığın üstesinden gelebilecek oyun değiştirici teknolojiler gün yüzüne çıkmaya başladı. Günümüzde teknoloji oldukça ilerledi diyoruz lakin istekler de daha karmaşık ve zorlu hale gelmeye başladı. Artık sadece bilgi aramak ve içerik üretmek yeterli değil.
Yapay zekanın gerçek zamanlı olarak duraklaması, değerlendirmesi ve sonuç çıkarması gerekiyor. Önceden eğitilmiş modeller, daha önce gördükleri büyük miktarda veriye dayanarak bir sonraki kelimeyi tahmin eden “eğitim zamanı hesaplamasına” dayanıyordu. Basit denilebilecek işlerde bu iş görecektir. Ancak karmaşık, yüksek riskli sorunlar için hızlı, içgüdüsel yanıtlar yeterli olmuyor. Gerçek ilerleme zaman, yaratıcılık ve dikkatli düşünce gerektirir ki aynı şey yapay zeka için de geçerli.
İşte bu noktada yapay zeka muhakemesi devreye giriyor. Bir model düşünmek için “durakladığında”, sadece kalıplarla bir şeyler yapmıyor ve geçmiş verilerden tahminler çıkarmıyor. Gelişmiş yapay zeka modelleri farklı senaryoları tartar, sonuçlar üzerinde düşünür ve mantığa dayalı kararlar verir. Bu süreçte daha fazla hesaplama gücü ve zaman gerekse de ortaya çok daha anlamlı sonuçlar çıkacaktır.
Örneğin, “Türkiye’nın başkenti neresidir?” gibi bir soru için akıl yürütmeye gerek yok. Diğer yandan, “Bir tren 60 km hızla hareket ediyorsa ve 3 saat yol kat ediyorsa, ne kadar mesafe kat eder” gibi bir soru için mantık yürütme gereklidir. Cevaba ulaşmadan önce mesafe, hız ve zaman arasında ilişki kurmak gerekir.