Gelisiyorum.com | Blog

OpenAI, üç yeni ses modelini API aracılığıyla geliştiricilere sunuyor

21.03.2025
14
OpenAI, üç yeni ses modelini API aracılığıyla geliştiricilere sunuyor

OpenAI, üç yeni ses modeli gpt-4o-transcribe, gpt-4o-mini-transcribe ve gpt-4o-mini-tts‘i tanıttı. Bu modeller OpenAI’ın API’si aracılığıyla geliştiricilerin ilgisine sunuluyor. Böylece geliştiriciler, bu modellerden faydalanarak kendi uygulamalarını ortaya çıkarabilecek. Bunun yanı sıra modellerin bireysel kullanıcılar tarafından OpenAI.fm üzerinden test edilebileceğini belirtelim. 

Ayrıca gpt-4o-mini-tts modelinin ürettiği sesler, metin istemi aracılığıyla çeşitli ön ayarlardan özelleştirilebiliyor. Böylece seslerin aksanlarını, perdelerini, tonlarını ve diğer ses niteliklerini değiştirmek mümkün oluyor. Bu özelleştirme sayesinde kullanıcının istediği duyguları iletmenin kolaylaşacağını söyleyebiliriz. 

Aslında modeller, OpenAI’nin Mayıs 2024’te piyasaya sürdüğü mevcut GPT-4o modelinin varyantları olarak konumlanıyor. Şirket bu temel modeli ek verilerle yeniden eğiterek transkripsiyon ve konuşmada mükemmel olmasına odaklandı. Şu an için modellerin ChatGPT’ye ne zaman geleceği henüz bilinmiyor. 

gpt-4o-transcribe ve gpt-4o-mini-transcribe modellerinin OpenAI’ın Whisper açık kaynaklı metinden konuşmaya modelinin yerini alması amaçlanıyor. Modelin pek çok kriterde daha iyi performans sunduğunu söylemek mümkün. Endüstri kıyaslamalarında daha düşük kelime hata oranlarıyla karşımıza çıkan model gürültülü ortamlarda, farklı aksanlarda ve 100’den fazla dilde değişen konuşma hızlarında daha yüksek performans gösteriyor. gpt-4o-transcribe modelleri, Whisper’a kıyasla İngilizce’de yüzde 2,46 daha düşük bir hata oranına sahip. 

Reklam

OpenAI teknik personeli Jeff Harris’in aktardıklarına göre; yeni gpt-4o-transcribe model ailesi, “diarizasyon” ya da farklı konuşmacıları etiketleme ve ayırt etme yeteneği sunmak için tasarlanmadı. Bunun yerine modeller, bir veya birden fazla sesi, tek bir giriş kanalı olarak almak ve bu etkileşimde ne kadar sürerse sürsün tüm girişlere tek bir çıkış sesiyle yanıt vermek üzere tasarlandı. 

gpt-4o-transcribe 1 milyon ses girdi token’ı başına 6,00 dolar, gpt-4o-mini-transcribe 1 milyon ses girdi token’o başına 3,00 dolar ve gpt-4o-mini-tts, 1 milyon metin girdi token’ı başına 0,60 dolar ve 1 milyon ses çıktı token’ı başına 12,00 dolar fiyatlandırma ile kullanıma sunuluyor. 

Kaynak

BİR YORUM YAZIN

ZİYARETÇİ YORUMLARI - 0 YORUM

Henüz yorum yapılmamış.

Gelisiyorum.com | Görsel Eğitim Akademisi!