Gelisiyorum.com | Blog

ElevenLabs’in yeni konuşmadan metne modeli: Scribe

27.02.2025
21
ElevenLabs’in yeni konuşmadan metne modeli: Scribe

Geçtiğimiz günlerde yazarların kendi sesli kitaplarını oluşturup yayınlamalarına imkan tanıyan ElevenLabs, şimdi de ilk bağımsız konuşmadan metne modeli Scribe ile karşımızda.

ElevenLabs’in Scribe ile Gladia, Speechmatics, AssemblyAI, Deepgram ve OpenAI’ın Whisper modellerine rakip olmaya hazılandığını söyleyebiliriz. Şirketin paylaştığına göre Scribe, FLEURS & Common Voice benchmark testlerinde Google Gemini 2.0 Flash ve Whisper Large V3’ü birden fazla dilde geride bıraktı.

ElevenLabs’ın Scribe modeli şu an için 99’dan fazla dili destekliyor. Şirketin belirttiğine göre; kelime hata oranı yüzde 5’ten az. Bu bağlamda şirket, model kapsamında 25’ten fazla dili mükemmel doğruluk kategorisinde sınıflandırıyor. Bu listede yüzde 97 doğruluk oranı ile İngilizce, Fransızca, Almanca, Hintçe, Endonezce, Japonca, Kannada, Malayalam, Lehçe, Portekizce, İspanyolca ve Vietnamca yer alıyor.

Reklam

Modelin özellikleri arasında kimin konuştuğunu belirtmek için akıllı hoparlör günlüğü, doğru altyazılar için kelime düzeyinde zaman damgası ve izleyicilerin gülmesi gibi ses olaylarını otomatik olarak etiketleme yer alıyor. Bu yeni model sayesinde müşteriler, altyazı veya resim yazısı eklemek için video içeriğini doğrudan yazıya dökebiliyor. 

Scribe’ın şu anda yalnızca önceden kaydedilmiş ses formatlarıyla çalıştığını belirtelim. Şirketin belirttiğine göre; modelin düşük gecikmeli gerçek zamanlı bir versiyonu, yakında piyasaya sürülecek. Böyle bakıldığında modelin henüz toplantı deşifreleri veya sesli not alma için etkili olmadığını söyleyebiliriz.

Scribe, 0,40 dolar karşılığında bir saatlik yazıya dökülmüş ses sunuyor. Aslında rekabetçi bir ürün ile karşımıza çıkan ElevenLabs, yine de bazı rakiplerin sunduğu özellikler düşünüldüğünde daha yüksek bir fiyat politikası benimsiyor. 

Bu arada ElevenLabs CEO’su Mati Staniszewski geçen ay yaptığı bir söyleşide konuşma algılama modelleri geliştireceklerinin sinyalini vermişti. Staniszewski, verilere açıklama ekleyecek ve hızlı geri bildirim verecek şirket içi ekipler sayesinde daha iyi konuşma algılama modelleri oluşturabileceklerini düşündüklerini belirtmişti. ElevenLabs’in önümüzdeki dönemde geliştireceği yeni modellerin şimdiden merak uyandırmaya başladığını söylemek mümkün. 

Kaynak

BİR YORUM YAZIN

ZİYARETÇİ YORUMLARI - 0 YORUM

Henüz yorum yapılmamış.

Gelisiyorum.com | Görsel Eğitim Akademisi!