Google Video Üreten Yapay Zeka Modelini Tanıttı

Yapay Zeka Haberleri

Yayınlama

3 yıl

25 Ocak 2024

Hüma

Metin ve görsel üreten yapay zekalardan sonra video üreten yapay zeka modellerinde de inanılmaz bir gelişim var. Bunun son örneği olan Google Lumiere ise son derece etkileyici örnekler sunuyor.

Son 10 ayda Will Smith‘in spagetti yemesinden bu yana video üreten yapay zekamodellerinde uzun bir yol kat ettik. Yapay zeka tarafından üretilen videolar dudak uçuklatan bir hızla ilerliyor ve Google‘ın olağanüstü difüzyon modeli Lumiere, hedefleri bir kez daha değiştiriyor. Lumiere beş saniyeye kadar oldukça gerçekçi ya da yüksek kaliteli video klipler oluşturabiliyor. Model, ne görmek istediğinize ilişkin doğal dil metin istemlerine yanıt olarak hareketsiz görüntüleri veya bunların yalnızca bazı bölümlerini canlandırabiliyor. Google Research tarafından geliştirilen proje, tek bir model geçişinde bir videonun tüm zamansal süresini oluşturmak için tasarlanmış çığır açan bir Uzay-Zaman U-Net mimarisi sunuyor.

Uzak ana kareler oluşturan ve ardından zamansal süper çözünürlük sağlayan mevcut video modellerinin aksine Lumiere, küresel zamansal tutarlılığı daha ulaşılabilir kılan benzersiz bir yaklaşım benimsiyor. Mimari, önceden eğitilmiş bir metinden görüntüye difüzyon modeli ile birlikte uzamsal ve zamansal aşağı/yukarı örnekleme içeriyor.

Bu, Lumiere’in birden fazla uzay-zaman ölçeğinde işleyerek doğrudan tam kare hızında, düşük çözünürlüklü bir video üretmesine olanak tanıyor. Türkçesi ise şu: Önceki modeller genellikle bir başlangıç ve bir bitiş karesi oluşturan ve ardından arada ne olacağını tahmin etmeye çalışıyordu. Lumiere ise bunu tek seferde oluşturuyor.

Lumiere ile herhangi bir görüntünün stilini klonlamak ve daha sonra bu stili kullanarak başka konularda bir marka ajansından çıkmış olabilecek kadar benzer görünen ve hissettiren bir dizi video oluşturmak mümkün.

Ek olarak kaynak materyaldeki her şeyi Lego’ya, origamiye veya çiçeklere dönüştürmekgibi sınırları zorlayan görevleri de yapmak mümkün. Aslında en etkileyici kısım ise materyalin istediğiniz bir kısmını doldurabilmeniz. Lumiere o alanı o kadar güzel bir şekilde otomatik olarak doldurur ki, bakmasanız muhtemelen farkına bile varmazsınız.

Öte yandan Google, Lumiere’in çoklu çekimler veya geçişler içeren sahneler içeren videolar oluşturmak için tasarlanmadığını belirterek aracın sınırlamalarına da ışık tutuyor. Google ekibine göre, bu husus gelecekteki araştırmalar için açık bir zorluk olmaya devam ediyor. Ayrıca, model piksel uzayında çalışan bir metinden görüntüye (T2I) modeli üzerine inşa edildiğinden, yüksek çözünürlüklü görüntü üretimi için uzamsal bir süper çözünürlük modülü gerektiriyor.

Şimdilik Lumiere, Google’ı telif hakkı, yanlış bilgilendirme, güvenlik, nefret söylemi, çıplaklık, mahremiyet ve diğer her türlü politikaya hizmet etmek için sistemi agresif bir şekilde kısırlaştırmak zorunda kalmaktan kurtaran bir araştırma projesi konumunda. Ancak özetle, Google’ın Lumiere projesi, videolarda gerçekçi ve tutarlı hareket sentezlemeye yönelik yeni bir yaklaşım sunarak metinden videoya yapay zeka üretiminde bir devrim anlamını taşıyor.

Senin reaksiyonun hangisi?