OpenAIs populære AI-chatbot, ChatGPT, får en oppgradering som utvider mulighetene for tekstbasert interaksjon. Brukerne vil nå kunne samhandle med ChatGPT ved hjelp av talekommandoer og opplasting av bilder. Disse forbedringene vil bli rullet ut til ChatGPT-abonnenter i løpet av de neste to ukene. Og vil være tilgjengelig for alle andre brukere kort tid etter.
Med talekommandoer kan brukeren ganske enkelt si spørsmålet sitt høyt, og ChatGPT konverterer tale til tekst, behandler spørsmålet og svarer med en menneskelignende stemme. OpenAI har investert i sin Whisper-modell for tale-til-tekst og introdusert en ny tekst-til-tale-modell for å muliggjøre naturlig lydgenerering fra tekstinndata. Brukerne kan velge mellom fem ulike stemmer for ChatGPT.
På den annen side gjør bildekommandofunksjonen det mulig for brukeren å laste opp bilder, på samme måte som med Google Lens. ChatGPT analyserer bildet og svarer på spørsmål knyttet til det visuelle innholdet. Brukeren kan også bruke et tegneverktøy eller skrive/tale tilleggsspørsmål for å gi kontekst til de bildebaserte spørsmålene. Denne multimodale tilnærmingen skal muliggjøre en mer interaktiv og dynamisk samtale med den kunstige intelligensen.
Selv om disse nye funksjonene utvider ChatGPTs muligheter, er OpenAI klar over de potensielle risikoene som er forbundet med syntetisk tale- og bildegjenkjenningsteknologi, hevder selskapet. Ondsinnede aktører kan potensielt misbruke disse funksjonene til etterligning eller svindel.
ChatGPT kan nå se, høre og snakke. I løpet av de neste to ukene vil Plus-brukere kunne ha talesamtaler med ChatGPT (iOS og Android) og inkludere bilder i samtaler (alle plattformer). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
For eksempel har bildegjenkjenningsfunksjonen visse begrensninger for å beskytte personvernet. ChatGPT har for eksempel begrenset mulighet til å analysere og komme med direkte uttalelser om enkeltpersoner for å unngå misbruk.