
Sokan szórakoznak már a cég Veo3 videókészítő mesterséges intelligenciájával, a magyar TikTokot is elárasztották a röhögő majmok, és a szürreális kalandokba keveredő nyugdíjasok. Csakhogy ezeken másodperceken változik a ruha, cserélődik a hang, a háttér: az algoritmus legnagyobb hátránya ma még a csapongás.
Kegyetlen nehéz egy adott karaktert több videón keresztül megtartani. Most a forráshoz közel álló profik mutatták meg, hol tart a történet, és a fejlődés tényleg letaglózó.
A projekt egy szerencsés fogással indult egy használtcikk-boltban – egy köteg 19. századi fotó, de ezek nem átlagos pillanatképek voltak, hanem úgynevezett carte de visite fotók, az 1860-as évek jellegzetes, kisméretű, szépia portréi. Ahelyett, hogy hagyták volna őket az enyészeté lenni, a DeepMind csapata „megetette” őket a finomhangolt Imagen modellel. Az eredmény egy sor új kép, amelyek nemcsak megőrizték az eredeti fotók korhű báját, de teljes jelenetekké bővítették azokat.
Ezek adják a The Great Voyage gerincét, egy történetet egy Francis nevű feltalálóról és feleségéről, Edithről, akik egy furcsa, új világba hajóznak, ahol különös lényekkel találkoznak.
Vizuálisan a The Great Voyage telibe találja a korai mozi hangulatát. Minden képkocka olyan, mintha egy 1930-as évekbeli filmtekercsről származna: lágy fókuszú, meleg és fakó. Az MI által generált képek nem csupán lemásolják a turkálós fotókat, hanem kiterjesztik őket nyüzsgő kikötők, háborgó tengerek és földöntúli tájak teljes jeleneteivé, amelyek egyszerre nosztalgikusak és idegenek.
A karakterek pózai túlzóak és merevek, ahogy a némafilmekben, ahol minden mozdulat a történetet mesélte.Persze ebben is ott vannak még a Mátrixot idéző furcsa hibák, a hirtelen eltorzuló arcok, nehezen értelmezhető elmosódott részletek.
Az igazi sztár azonban a mesterséges intelligencia által komponált zene. Ez nem csak aláfestés, hanem a narratíva szerves része. A zene a finom zongorafutamoktól cizellált vonósokig ível, tökéletesen lekövetve a film érzelmi csúcsait és mélypontjait. Úgy tűnik, az MI ráérzett a történet lüktetésére, és pontosan tudja, mikor kell kitartani egy csendes pillanatot, vagy mikor kell felcsavarni a hangerőt egy nagy leleplezésnél.
De a legérdekesebb az, hogyan készült. A DeepMind egy úgynevezett LoRA módszerrel finomhangolt Imagen modellt használt, amivel lényegében megtanították az MI-t, hogy egy 19. századi fotós fejével gondolkodjon. A LoRA (Low-Rank Adaptation) lehetővé tette számukra, hogy a modellt a felfedezett fotók stílusához igazítsák anélkül, hogy az egészet a nulláról kellene újraépíteniük. Nagy lépés ez előre a specifikus, még tökéletesebb képalkotás felé.