OpenAI presenterer Sora

Nært fotorealistiske videoer basert utelukkende på tekstbeskrivelser.

OpenAI presenterer Sora 1

(Foto: OpenAI)

Sora har som mål å gi kunstig intelligens evnen til å forstå og fremstille den fysiske verden grafisk. Systemet kan generere videoer på opptil ett minutt.

Modellen er trent på datamateriale bestående av tekstbeskrivelser og videoer og kan skape en rekke ulike scenarier, blant annet landskap, bymiljøer og innendørsområder.

 

Videoeksemplene som OpenAI viser frem, dekker et bredt spekter: fra en kveldstur i en neonopplyst Tokyo-gate til en sulten katt som tidlig om morgenen forteller sitt menneske at den vil ha mat. Ifølge OpenAI er alle eksempelvideoene laget direkte av Sora uten noen form for redigering.

OpenAI erkjenner at Sora har sine begrensninger. Modellen kan for eksempel ha problemer med å gjengi komplekse scener eller forstå forskjellen mellom årsak og virkning. Selskapet jobber med å forbedre Sora og planlegger å lansere en mer avansert versjon i fremtiden.

I første omgang er tilgangen til Sora begrenset til et lite antall forskere og kreative utviklere. OpenAI planlegger å utvide tilgangen til Sora i fremtiden, men vil først implementere sikkerhetstiltak for å forhindre misbruk av teknologien.

 

Teknologien bak Sora er basert på avanserte diffusjonsmodeller og transformatorarkitekturer, inspirert av metodene som er brukt i OpenAIs tidligere prosjekter, som for eksempel DALL-E. Den samme tilnærmingen brukes også i Googles nylig presenterte Lumiere.

Les videre
Exit mobile version