
FFmpeg için yeni bir fısıltı ses filtresi geldi
Açık kaynaklı medya aracı FFmpeg, artık FFmpeg ekosistemi içinde doğrudan otomatik konuşma tanıma (ASR) özelliğini etkinleştiren yeni bir af_whisper (fısıltı) ses filtresi içeriyor. FFmpeg, medya işleme iş akışlarına güçlü bir yapay zeka modeli ekleyen whisper.cpp kütüphanesini kullanıyor. Bu, yazılımı yapay zeka dünyasına taşımasıyla dikkat çekiyor.
Yeni filtrenin seçenekleri yapay zeka modelini seçme, dili belirleme ve metin, SRT veya JSON gibi çıktı formatını ayarlama gibi esnek transkripsiyona olanak tanıyor. Artık yazılım önceden kaydedilmiş dosyaları ve canlı ses akışlarını işleyebiliyor ve kullanıcılar ayrıca transkripsiyon doğruluğunu ve verimliliğini artırmak için Ses Etkinleştirme Algılama (VAD) özelliğini de kullanabiliyor.
Filtre, kullanıcıların transkripsiyon doğruluğu ve işlem hızı arasında denge kurmasını sağlayan bir kuyruk tekniği kullanıyor. Ek olarak, transkripsiyon sürecini önemli ölçüde hızlandırabilen GPU hızlandırmayı da destekliyor. Kullanıcılar için bu özellik, harici, çok adımlı transkripsiyon süreçlerine olan ihtiyacı ortadan kaldırarak görevleri tek ve verimli bir komut satırı iş akışında birleştiriyor.
Yeni filtre, videolar ve podcast’ler için SRT dosyaları gibi altyazı dosyaları oluşturabiliyor ve yayın akışı veya diğer gerçek zamanlı uygulamalar için canlı ses transkripsiyonlarına olanak tanıyor. Filtrenin FFmpeg içinde daha fazla otomasyon için kullanılabilecek çıktı meta verileri sağlaması da mümkün. Yeni özellik, içerik oluşturucular, arşivciler ve geliştiriciler için süreci basitleştirirken ses içeriğini transkripte etmek isteyen herkes için önemli miktarda zaman ve emek tasarrufu sağlayacak.