På Google I/O handlet alt om KI med Gemini

Gemini 1.5 Pro har fått økt kapasitet og forbedret evne til å resonnere i flere trinn.

Jonas Ekelund

15.05.24 - 14:33

På Google I/O handlet alt om KI med Gemini 1

I går kveld ble hovedtalen holdt på Googles utviklerkonferanse Google I/O. I fjor fortalte Google om sine planer for KI, men det var litt diffust. Siden den gang har det blitt mer konkret med lanseringen av Gemini i desember 2023. Og siden da har utviklingen aksellert. Nå har Google lagt frem sine planer for tiden fremover.

Les også Smartere bildesøk og KI-søk Circle to Search og Multisearch vil gjøre det enklere å finne informasjon om ukjente ting.

Gemini 1.5 Pro

Først og fremst får Gemini Advanced-abonnenter tilgang til Gemini 1.5 Pro, som nå er tilgjengelig på 35 språk. Med en kapasitet på 1 million tokens kan de basere svaret sitt på opptil 1.500 PDF-sider, 30.000 linjer med kode eller videoinnhold på én time. Google avslørte også at kapasiteten skal utvides til 2 millioner tokens!

KI-hjelp på jobb

Gemini vil også bli integrert i apper som Gmail, Dokumenter, Regneark, Presentasjoner og Disk. Det ble vist eksempler på hvordan Gmail vil kunne forstå og holde oversikt over flere e-posttråder samtidig, og oppsummere sitater fra flere avsendere. Men det vil også fungere på tvers av apper, slik at for eksempel kvitteringer fra e-poster automatisk lagres i Disk, mens Regneark kan loggføre og kategorisere dem.

Android

Fra smartere Google-søk ved hjelp av KI tidligere i år, vil Android nå få «KI som fundament». Gemini Nano, med muligheten til å bruke tekst, lyd og bilder som både inn- og utdata kommer «senere i år», som nok hinter til lanseringen av Pixel 9 i høst. Det ble demonstrert hvordan funksjonen Circle to search nå kan løse fysikkproblemer og forklare resonnementet, og at den kan advare mot svindel i telefonsamtaler (hvert fall på engelsk).

Nettjenester

Naturligvis blir alle Googles nettjenester også smartere. Nå vil Søk kunne hente informasjon i sanntid, forstå resonnement i flere trinn og sammenfatte svar fra mange ulike kilder. Som et eksempel ble det vist hvordan søkefunksjonen kunne svare på «Finn de beste yogastudioene innenfor 10 minutter fra hjemmet mitt, og se hvilke introduksjonstilbud de har».

Google Foto vil kunne forstå kontekst, slik at du for eksempel kan spørre «hva er registreringsnummeret mitt?».

KI-verktøy

Google viste også frem nye versjoner av verktøy for å fremstille medieinnhold. Deres nye modell «Veo» genererte videoer som så mer ekte ut enn noensinne. Tekst-til-bilde-verktøyet «Imagen 3» forstår mer detaljerte beskrivelser og er nå blitt flinkere til å generere tekst. Til slutt ble det demonstrert hvordan «Music AI Toolbox» kan hjelpe musikkskapere i den kreative prosessen.

Det som virkelig imponerte, var imidlertid Project Astra, som lar deg stille spørsmål i sanntid om det kameraet viser:

For flere detaljer kan du se hele den to timer lange presentasjonen her:

Les videre ⇩