Life Kovács Miklós 2025. 07. 18.

A múlt sosemvolt némafilmjét álmodta meg az MI

A Google DeepMind csapata megmutatta, hogy a képalkotó modellek lassan tényleg képesek értékelhető mozgóképet összehozni, állandó karakterekkel, koherens képi világgal. 

Sokan szórakoznak már a cég Veo3 videókészítő mesterséges intelligenciájával, a magyar TikTokot is elárasztották a röhögő majmok, és a szürreális kalandokba keveredő nyugdíjasok. Csakhogy ezeken másodperceken változik a ruha, cserélődik a hang, a háttér: az algoritmus legnagyobb hátránya ma még a csapongás. 

Kegyetlen nehéz egy adott karaktert több videón keresztül megtartani. Most a forráshoz közel álló profik mutatták meg, hol tart a történet, és a fejlődés tényleg letaglózó. 

A projekt egy szerencsés fogással indult egy használtcikk-boltban – egy köteg 19. századi fotó, de ezek nem átlagos pillanatképek voltak, hanem úgynevezett carte de visite fotók, az 1860-as évek jellegzetes, kisméretű, szépia portréi. Ahelyett, hogy hagyták volna őket az enyészeté lenni, a DeepMind csapata „megetette” őket a finomhangolt Imagen modellel. Az eredmény egy sor új kép, amelyek nemcsak megőrizték az eredeti fotók korhű báját, de teljes jelenetekké bővítették azokat.

Ezek adják a The Great Voyage gerincét, egy történetet egy Francis nevű feltalálóról és feleségéről, Edithről, akik egy furcsa, új világba hajóznak, ahol különös lényekkel találkoznak.

A digitális múlt ahogy a gép látja

Vizuálisan a The Great Voyage telibe találja a korai mozi hangulatát. Minden képkocka olyan, mintha egy 1930-as évekbeli filmtekercsről származna: lágy fókuszú, meleg és fakó. Az MI által generált képek nem csupán lemásolják a turkálós fotókat, hanem kiterjesztik őket nyüzsgő kikötők, háborgó tengerek és földöntúli tájak teljes jeleneteivé, amelyek egyszerre nosztalgikusak és idegenek.

A múlt sosemvolt némafilmjét álmodta meg az MI

A karakterek pózai túlzóak és merevek, ahogy a némafilmekben, ahol minden mozdulat a történetet mesélte.Persze ebben is ott vannak még a Mátrixot idéző furcsa hibák, a hirtelen eltorzuló arcok, nehezen értelmezhető elmosódott részletek. 

A zenét szerezte: Mr. MI

Az igazi sztár azonban a mesterséges intelligencia által komponált zene. Ez nem csak aláfestés, hanem a narratíva szerves része. A zene a finom zongorafutamoktól cizellált vonósokig ível, tökéletesen lekövetve a film érzelmi csúcsait és mélypontjait. Úgy tűnik, az MI ráérzett a történet lüktetésére, és pontosan tudja, mikor kell kitartani egy csendes pillanatot, vagy mikor kell felcsavarni a hangerőt egy nagy leleplezésnél.  

De a legérdekesebb az, hogyan készült. A DeepMind egy úgynevezett LoRA módszerrel finomhangolt Imagen modellt használt, amivel lényegében megtanították az MI-t, hogy egy 19. századi fotós fejével gondolkodjon. A LoRA (Low-Rank Adaptation) lehetővé tette számukra, hogy a modellt a felfedezett fotók stílusához igazítsák anélkül, hogy az egészet a nulláról kellene újraépíteniük.  Nagy lépés ez előre a specifikus, még tökéletesebb képalkotás felé.

Forrás: DeepMind