OpenAI presenterer Sora

Nært fotorealistiske videoer basert utelukkende på tekstbeskrivelser.

Peter Gotschalk

16.02.24 - 11:31

Sora har som mål å gi kunstig intelligens evnen til å forstå og fremstille den fysiske verden grafisk. Systemet kan generere videoer på opptil ett minutt.

Modellen er trent på datamateriale bestående av tekstbeskrivelser og videoer og kan skape en rekke ulike scenarier, blant annet landskap, bymiljøer og innendørsområder.

https://www.lydogbillede.dk/wp-content/uploads/2024/02/tokyo-walk.mp4?_=1

Videoeksemplene som OpenAI viser frem, dekker et bredt spekter: fra en kveldstur i en neonopplyst Tokyo-gate til en sulten katt som tidlig om morgenen forteller sitt menneske at den vil ha mat. Ifølge OpenAI er alle eksempelvideoene laget direkte av Sora uten noen form for redigering.

OpenAI erkjenner at Sora har sine begrensninger. Modellen kan for eksempel ha problemer med å gjengi komplekse scener eller forstå forskjellen mellom årsak og virkning. Selskapet jobber med å forbedre Sora og planlegger å lansere en mer avansert versjon i fremtiden.

here is sora, our video generation model:https://t.co/CDr4DdCrh1

today we are starting red-teaming and offering access to a limited number of creators.@_tim_brooks @billpeeb @model_mechanic are really incredible; amazing work by them and the team.

remarkable moment.

— Sam Altman (@sama) February 15, 2024

I første omgang er tilgangen til Sora begrenset til et lite antall forskere og kreative utviklere. OpenAI planlegger å utvide tilgangen til Sora i fremtiden, men vil først implementere sikkerhetstiltak for å forhindre misbruk av teknologien.

https://www.lydogbillede.dk/wp-content/uploads/2024/02/cat-on-bed.mp4?_=2

Teknologien bak Sora er basert på avanserte diffusjonsmodeller og transformatorarkitekturer, inspirert av metodene som er brukt i OpenAIs tidligere prosjekter, som for eksempel DALL-E. Den samme tilnærmingen brukes også i Googles nylig presenterte Lumiere.

Les videre ⇩