Det nye Genie-prosjektet fra Googles Deepmind tar AI-videoskaping til et nytt nivå ved å forstå hvordan spill fungerer. I forlengelsen av dette kan det akselerere utviklingen av maskinlæring.
Forskerne lurte på om det ville være mulig å få en kunstig intelligens til å forstå forskjellen mellom et interaktivt spill og en video. Den ville forstå at det finnes en hovedperson som er adskilt fra bakgrunnen, og at denne er noe man kan styre med en spillkontroll, slik at den gjør forskjellige ting avhengig av spillerens beslutninger.
For å lære modellen hvordan spill fungerer, startet de med 200 000 timer med videoer fra ulike spill. Dette ble deretter filtrert ned til 30 000 timer fra hundrevis av 2D-spill. Dette ble deretter brutt ned til 200 millioner parametere som algoritmene kunne begynne å analysere.
Deretter forsøkte de å lære modellen hva slags knappetrykk fra spilleren som kan ha fått figuren til å bevege seg slik den gjorde i videoen. På denne måten kan Genie se på et skjermbilde fra et spill og gjette hvordan neste bilde vil se ut, og generere en liten video.
Genie skal også kunne lage en liten spillvideo fra enkle tegninger, bilder eller til og med fra en tekstbeskrivelse, som deretter først kjøres gjennom Googles ImageGen2.
Det skal imidlertid sies at prosjektet er på nybegynnernivå. Videoen er generert med ett bilde per sekund, milevis unna bildefrekvensen i et ekte spill. Bildekvaliteten er ikke god, og videoen er svært kort.
Don’t forget: This is the worst it will ever get. Soon it will work perfectly. 🚀📈🚀📈 pic.twitter.com/03sVXq1jvE
— Jeff Clune (@jeffclune) February 26, 2024
Forskerne ser likevel på dette som et stort fremskritt og har gjort det mulig for den kunstige intelligensen å se på filmer av industriroboter og forutsi hvordan videoen fortsetter ved å forstå hva som skjer.
De mener at Genie i fremtiden kan brukes til å generere realistiske videoer for å trene opp andre AI-modeller.