Gelisiyorum.com | Blog

DeepSeek’in MIT lisansı ile yayınlanan yeni V3 sürümü: DeepSeek-V3-0324

25.03.2025
20
DeepSeek’in MIT lisansı ile yayınlanan yeni V3 sürümü: DeepSeek-V3-0324

Çin merkezli yapay zeka girişimi DeepSeek, yeni bir büyük dil modelini sessiz sedasız bir şekilde yayınladı. Yetenekleri ve uygulanma biçimiyle dikkatleri üzerine çeken DeepSeek-V3-0324 Hugging Face‘te kullanıcıların ilgisine sunuldu. 641 gigabaytlık model, ticari kullanım için MIT lisansı ile birlikte geliyor. DeepSeek-V3-0324’ün doğrudan tüketici sınıfı donanımda, özellikle de Apple’ın M3 Ultra çipli Mac Studio’sunda çalışabileceği belirtiliyor.

685 milyar parametreli model, beraberinde hiçbir teknik inceleme, blog yazısı veya pazarlama hamlesi olmadan yayına alındı. Ayrıca modelin boş bir README dosyasına sahip olduğunu da belirtelim. DeepSeek-V3-0324 farklı model ağırlıklarıyla da öne çıkıyor. 

Yapay zeka araştırmacısı Xeophon, yeni DeepSeek V3’ün Anthropic’in Claude Sonnet 3.5’i tahtından indirecek nitelikte olduğunu belirtti. Abonelik gerektiren Sonnet’in aksine, DeepSeek-V3-0324’ün ağırlıkları herkesin indirmesi ve kullanması için ücretsiz olarak sunulması ciddi bir değer önerisi yaratıyor. 

Paylaşılan bilgilere göre; DeepSeek-V3-0324, büyük dil modellerinin nasıl çalıştığını temelden yeniden tasarlayan bir uzmanlar karışımı (MoE) mimarisi kullanıyor. Bu noktada geleneksel modeller her görev için tüm parametre sayılarını etkinleştirdiğini belirtelim. DeepSeek’in yaklaşımı ise belirli görevler sırasında 685 milyar parametresinin yalnızca yaklaşık 37 milyarını etkinleştiriyor. DeepSeek, her bir görev için yalnızca en ilgili “uzman” parametreleri etkinleştirerek, hesaplama taleplerini büyük ölçüde azaltıyor. Bu sayede model, çok daha büyük tam etkinleştirilmiş modellerle karşılaştırılabilir performans elde ediyor. 

Bu arada modelin, Multi-Head Latent Attention (MLA) ve Multi-Token Prediction (MTP) olmak üzere çığır açan iki ek teknoloji içerdiğini de ekleyelim. MLA, modelin uzun metin pasajları boyunca bağlamı koruma yeteneğini geliştiriyor. MTP ise her seferinde bir token üretme yaklaşım yerine adım başına birden fazla token üretiyor. Bu yenilikler sayesinde model çıktı hızını yaklaşık yüzde 80 oranında artırıyor. Apple makine öğrenimi araştırma grubunda yer alan araştırmacı bilim insanı Awni Hannun, yeni DeepSeek-V3 sürümünü bir Mac Studio üzerinde çalıştırdı. Model saniyede yaklaşık 20 token hızında çıktı üretmeyi başardı. Ayrıca modeli test eden kullanıcılar, modelin iletişim tarzında ciddi bir değişim olduğunu belirtiyor. Önceki DeepSeek modelleri konuşkan, insan benzeri tonlarıyla öne çıkarken, “V3-0324” daha resmi, teknik odaklı bir kişiliğe sahip. 

DeepSeek-V3-0324’ün zamanlaması ve özellikleri, önümüzdeki iki ay içinde beklenen muhakeme odaklı gelişmiş bir model olan DeepSeek-R2’nin temelini oluşturacağını gösteriyor. DeepSeek-R2, OpenAI’ın önümüzdeki aylarda piyasaya sürmeyi planladığı modeli GPT-5’e doğrudan rakip olabilir. 

Reklam

Kaynak

BİR YORUM YAZIN

ZİYARETÇİ YORUMLARI - 0 YORUM

Henüz yorum yapılmamış.

Gelisiyorum.com | Görsel Eğitim Akademisi!