Meta, Hız Konusunda İddialı Olan Llama API’sini Duyurdu

01.05.2025

138

Meta, Hız Konusunda İddialı Olan Llama API’sini Duyurdu

Meta ilk LlamaCon etkinliğinde artık geliştiriciler için sınırlı ücretsiz ön izleme olarak sunulan Llama API’sini duyurdu. Llama API, geliştiricilerin yakın zamanda piyasaya sürülen Llama 4 Scout ve Llama 4 Maverick modelleri de dahil olmak üzere farklı Llama modellerini denemelerine olanak tanıyacak. API, Tek tıklamayla API anahtarı oluşturma ve hafif TypeScript ve Python SDK’ları sunuyor. Geliştiricilerin OpenAI tabanlı uygulamaları taşımasını kolaylaştırmak için Llama API, OpenAI SDK ile uyumlu.

Meta ayrıca Llama API için daha hızlı çıkarım hızları sunmak amacıyla Cerebras ve Groq ile ortaklık kuruyor. Cerebras, API’deki Llama 4 Cerebras modelinin NVIDIA ve diğerlerinden gelen normal GPU tabanlı çözümlere göre 18 kata kadar daha hızlı token oluşturma hızları sağlayabileceğini iddia ediyor. Artificial Analysis karşılaştırma sitesine göre, Cerebras çözümü Llama 4 Scout için 2.600’den fazla token/sn sağladı. ChatGPT ise 130 token/sn ve DeepSeek ise 25 token/sn sağladı.

Cerebras CEO’su ve Kurucu Ortağı Andrew Feldman şunları söylüyor: “Cerebras, Llama API’sini dünyanın en hızlı çıkarım API’si yapmaktan gurur duyuyor. Aracı ve gerçek zamanlı uygulamalar oluşturan geliştiricilerin hıza ihtiyacı var. Cerebras’ı Llama API’sinde kullanarak, temelde önde gelen GPU tabanlı çıkarım bulutlarının erişemeyeceği yapay zeka sistemleri oluşturabilirler.”

Geliştiriciler, Llama API’sindeki model seçeneklerinden Cerebras’ı seçerek bu ultra hızlı Llama 4 çıkarımına erişebiliyorlar. Llama 4 Scout da Groq’tan edinilebiliyor ancak şu anda saniyede 460 token hızında çalışıyor. Bu da Cerebras çözümünden yaklaşık 6 kat daha yavaş olsa da diğer GPU tabanlı çözümlerle karşılaştırıldığında 4 kat daha hızlı.

Kaynak

BİR YORUM YAZIN

[ Yoruma cevap yazmaktan vazgeç ]

ZİYARETÇİ YORUMLARI - 0 YORUM

Henüz yorum yapılmamış.