Det siste året har vi nesten blitt vant til AI-verktøy som kan lage bilder for oss ut fra en beskrivelse. Det samme kan selvsagt gjøres med video, men det er mye vanskeligere å få det til å se naturlig ut. Denne uken offentliggjorde Google detaljer om Lumiere-prosjektet sitt, og det ser ut til at teknologien har tatt et stort skritt fremover.
Verktøyet kan lage korte videoklipp ut fra beskrivelser, for eksempel «en hund med morsomme briller som kjører bil», eller det kan ta et bilde, for eksempel et berømt maleri, og animere det. Hvis du ikke helt klarer å sette ord på hvilken stil du ønsker, kan du gi dem et eksempel med et bilde. Du kan også ta et stillbilde og animere deler av det, for eksempel røyken fra en dampmaskin.
Enda mer imponerende er at den kan manipulere en kildevideo. Som å endre klærne til en person i videoen. Eller endre stilen i videoen fullstendig ved å forvandle personer til fantasivesener.
Lumiere brukte en ny diffusjonsmodell kalt Space-Time-U-Net. Som navnet antyder, kan AI-modellen finne ut hvor objekter befinner seg i rommet og hvordan de endrer seg over tid. Dette gjør det mulig å lage videoen fra start til slutt og få den til å se naturlig ut. Dette i motsetning til tidligere verktøy som ofte genererer stillbilder og deretter finner ut hvordan de skal fylle inn manglende bilder.
Les mer om Google Lumiere
Andre verktøy for videogenerering inkluderer Runway, Stable Video Diffusion og Metas Emu.