Difüzyon Modeli Alternatifi: Dönüştürücü Mimarisi

VideoPoet, yaygın olarak kullanılan difüzyon modelleri yerine dönüştürücü mimarisini benimsemesiyle dikkat çekiyor. Bu yeni yapay zeka modeli, metin ve kod üretimi için kullanılan dönüştürücü mimarisini video üretimine adapte ederek öne çıkıyor. Bu yaklaşım, daha uzun ve yüksek kaliteli videolar oluşturulmasına olanak tanıyor.

Eğitim ve Veri Kaynakları

Image13 540

VideoPoet, 270 milyon video ve 1 milyardan fazla metin ve görüntü çiftini içeren geniş bir veri seti üzerinde eğitildi. Google Araştırma ekibi, modelin metin yerleştirmelerini, görsel belirteçleri ve ses belirteçlerini öğrenmesini sağlamak için bu verileri kullandı.

Daha Uzun ve Tutarsızlık İçermeyen Hareketler

Difüzyon modellerinde yaşanan hareket bozulmalarına alternatif olarak, VideoPoet 16 karelik videolarda daha büyük ve tutarlı hareketler üretebiliyor. Model aynı zamanda farklı kamera hareketlerini, görsel stilleri simüle etme yeteneği gibi geniş bir yelpazeye sahip.

Dikey Video ve Çeşitli Girdilerle Çalışma

Image7 736

VideoPoet, dikey video üretme yeteneğiyle diğer yapay zeka video üretim araçlarından ayrılıyor. Ayrıca kullanıcılar, metin, resim ve video gibi çeşitli girdileri yönlendirici olarak kullanarak VideoPoet ile yeni sesler oluşturabilecekler.

Şu an için genel kullanıma açık olmayan VideoPoet'in gelecekte metinden sese ve sesten videoya dönüştürme gibi yeni yeteneklerle genişletilmesi planlanıyor. Ekip, kullanıcılarla ne zaman buluşacağına dair henüz bir tarih vermedi.
KAYNAK/WEBRAZZİ

Editör: Ayşe Sancak