
Character.AI, Gerçek Zamanlı Video Üretimi için TalkingMachines’i Tanıttı
Character.AI, üretken video üzerine yaptığı bazı araştırmaları paylaştı ve sadece bir görüntü ve ses sinyalinden yapay zeka karakterlerinin gerçek zamanlı, ses odaklı videosunu üretebilen TalkingMachines adlı yeni bir otoregresif difüzyon modeli geliştirdi. Şirket bununla, yapay zeka karakterleriyle FaceTime tarzı görsel etkileşimlere yaklaşıyor.
Bu modelin hala araştırma sürecinde olduğunun altını çizelim. Bir araştırma makalesi ve video demoları olsa da bunları henüz Character.AI uygulamasında kullanmak mümkün değil. Bu, Character.AI uygulamasına da yansırsa, kullanıcıların yapay zeka ile daha sürükleyici rol yapma oyunlarına katılmalarına, etkileşimli hikaye anlatımına katılmalarına ve görsel dünya inşa etmelerine olanak tanıyacak.
Yeni TalkingMachines modeli, esasen rastgele gürültüden ayrıntılı görüntüler oluşturabilen ve görüntüyü mükemmel olana kadar iyileştiren bir sanatçı olan Difüzyon Transformatörü (DiT) teknolojisi üzerine inşa edildi. Character.AI’ın yaptığı şey bunun inanılmaz derecede hızlı çalışmasını sağlamak ve böylece gerçek zamanlıymış gibi hissettirmek.
Atılımlarını gerçekleştirmek için TalkingMachines, Akış Eşleşmeli Difüzyon, Ses Odaklı Çapraz Dikkat, Seyrek Nedensel Dikkat ve Asimetrik Damıtma gibi birkaç temel tekniği kullanıyor.
Akış Eşleşmeli Difüzyon, ince yüz ifadelerinden daha dramatik jestlere kadar birçok hareket üzerinde eğitiliyor. Bu, yapay zeka karakterlerinin daha doğal hareket etmesini sağlamaya yardımcı oluyor. Heyecan verici çalışma, yapay zekanın yalnızca kelimeleri duymasını değil, aynı zamanda sesteki ritmi, duraklamaları ve tonlamaları anlamasını ve ardından bunları hassas ağız hareketlerine, baş sallamalara ve göz kırpmalara dönüştürmesini sağlayan Ses Odaklı Çapraz Dikkat tarafından sağlanıyor. Seyrek Nedensel Dikkat ile Character.AI, videonun karelerini çok daha uygun maliyetli bir şekilde işleyebiliyor ve Asimetrik Damıtma ile videolar gerçek zamanlı olarak oluşturulabiliyor.
Character.AI bu araştırma atılımının sadece yüz animasyonuyla ilgili olmadığını iddia ediyor. Bunun gerçek zamanlı olarak etkileşime girebileceğiniz etkileşimli görsel-işitsel yapay zeka karakterlerine doğru bir adım olduğunu söylüyor. Model, fotogerçekçi insanlar, anime ve 3D avatarlar dahil olmak üzere çok çeşitli stilleri destekliyor ve doğal dinleme ve konuşma aşamalarıyla akışa olanak sağlıyor.
Character.AI hala araştırma aşamasında olan modeli eğer piyasaya sürülürse, bunu başaran ilk şirketlerden biri olacak. Modelin örneklerine bu adresten erişebilirsiniz.