Difüzyon Modeli Alternatifi: Dönüştürücü Mimarisi
VideoPoet, yaygın olarak kullanılan difüzyon modelleri yerine dönüştürücü mimarisini benimsemesiyle dikkat çekiyor. Bu yeni yapay zeka modeli, metin ve kod üretimi için kullanılan dönüştürücü mimarisini video üretimine adapte ederek öne çıkıyor. Bu yaklaşım, daha uzun ve yüksek kaliteli videolar oluşturulmasına olanak tanıyor.
Eğitim ve Veri Kaynakları
VideoPoet, 270 milyon video ve 1 milyardan fazla metin ve görüntü çiftini içeren geniş bir veri seti üzerinde eğitildi. Google Araştırma ekibi, modelin metin yerleştirmelerini, görsel belirteçleri ve ses belirteçlerini öğrenmesini sağlamak için bu verileri kullandı.
Daha Uzun ve Tutarsızlık İçermeyen Hareketler
Difüzyon modellerinde yaşanan hareket bozulmalarına alternatif olarak, VideoPoet 16 karelik videolarda daha büyük ve tutarlı hareketler üretebiliyor. Model aynı zamanda farklı kamera hareketlerini, görsel stilleri simüle etme yeteneği gibi geniş bir yelpazeye sahip.
Dikey Video ve Çeşitli Girdilerle Çalışma
VideoPoet, dikey video üretme yeteneğiyle diğer yapay zeka video üretim araçlarından ayrılıyor. Ayrıca kullanıcılar, metin, resim ve video gibi çeşitli girdileri yönlendirici olarak kullanarak VideoPoet ile yeni sesler oluşturabilecekler.
Şu an için genel kullanıma açık olmayan VideoPoet'in gelecekte metinden sese ve sesten videoya dönüştürme gibi yeni yeteneklerle genişletilmesi planlanıyor. Ekip, kullanıcılarla ne zaman buluşacağına dair henüz bir tarih vermedi.
KAYNAK/WEBRAZZİ