TESTER Bil & El-kjøretøy Data Sport & Trening Gaming Mobil Smart Home Teknologi

Nyhet

Standford-forskere overrasket over ChatGPT-svar

Forskere som har sammenlignet svar fra ChatGPT over tid konkluderer - overraskende nok - at de har blitt dårligere.

Av / 25.07.23 - 13:09
Standford-forskere overrasket over ChatGPT-svar

En av «sannhetene» om dagens AI-drevne chatboter er at de lærer over tid og dermed kommer med bedre svar jo mer de brukes. Forskere ved Stanford University bestemte seg for å teste denne tesen. De sammenlignet svarene med noen måneders mellomrom, og mellom ulike versjoner av ChatGPT. Overraskende nok tyder resultatene på at dette er langt i fra tilfelle.

I undersøkelsen sammenlignet de Mars 2023 og Juni 2023 versjonene av GPT-3.5 og GPT-4. Det ved å gi dem spørsmål på fire ulike områder. Å løse matematiske problemer, svare på (u)følsomme spørsmål, skrive kode og visuelt resonnement.

Standford-forskere overrasket over ChatGPT-svar 1
Kilde: Lingjiao Chen, Matei Zaharia, och James Zou

Et problem, som i teorien skulle være ganske ukomplisert – nemlig det å bedømme om et tall er et primtall eller ikke – viste seg å være utfordrende. Forskerne spurte «Er 17077 et primtal? Tenk steg-for-steg.» Tillegget i spørsmålet skal få AI-en til å aktivere sin «tankekjede-rutine» der den utover å svare også forklarer hvordan den kommer frem til svaret. GPT-4 falt fra 97,6% riktige svar til 2,4% (!!!). Samtidig gikk den eldre GPT-3.5 fra 7,4% til 86,6% riktige svar.

Når det kom til det å skrive kode, falt GPT-4 fra 52% brukbar kode til bare 10%. Og for sensitive spørsmål forsøkte GPT-4 tidligere i 21% av tilfellene å i det minste prøve å forklare hvorfor den ikke kunne svare på spørsmålet. I det siste tilfellene hadde denne andelen sunket til 5%, og i resten av tilfellene ble det kort forklart at den ikke var i stand til å svare. Her var GPT-3.5 også på et lavt nivå, men den hadde i hvert fall forbedret seg litt.

Peter Welinder, administrerende direktør for GPT-produktet, stiller spørsmål til resultatene på Twitter.

En av konklusjonene forskerne trekker, er at ettersom OpenAI ikke åpent forteller når eller hvordan de oppdaterer ChatGPT, er det nødvendig å kontinuerlig overvåke kvaliteten på svarene. Og fram til det skjer, er det en utfordring å implementere teknologien i arbeidsprosesser som er avhengige av nøyaktige, eller i det minste forutsigbare, resultater.

Kilde: How Is ChatGPT’s Behavior Changing over Time?

ChatGPT fornærmer og lyver til brukerne

Microsoft har integrert ChatGPT i søkemotoren Bing. Nå får brukerne merkelige svar, samtidig med at chatroboten også er midt i en eksistensiell krise.

Les videre
Jonas Ekelund
(f. 1969): Journalist og nyhetsredaktør. Jonas har jobbet for Lyd & Bilde siden 2007 med det meste som kan kalles bærbart. Det vill si mobiler, trådløse høyttalere og hodetelefoner. Iblant kommer testingen inn på kollegaenes områder innenfor multiromslyd, hjemmekino og foto. Han startet sin bane som teknikkjournalist på IDG og skrev blant annet for PC för Alla, Internetworld og det som senere ble M3.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Les videre med LB+

70%

Black Week Tilbud

70% På LB+ Total i 12 måneder! (Spar 1665,60,-)

LB+Total måned / 185,-

Tilgang til ALT innhold i 1 måned

LB+ Total 12 mnd / 156,-

Tilgang til ALT innhold i 12 måneder

55.50,- / mnd
185,- / for 1 mnd
154 ,- / mnd
Med et abonnement får du også:
  • Tilgang til mer enn 7500 produkttester!
  • Store rabatter hos våre samarbeidspartnere i LB+ Fordelsklubb
  • Ukentlige nyhetsbrev med siste nytt
  • L&B TechCast – en podcast av L&B
  • Deaktiver annonser
Vi har ingen bindingstid, si opp når du selv vil.
Annonse

Tresatellitt i bane rundt jorden

Flytt deg, Google - her kommer KI-søkemotoren!

Google-robot gjør jobben for deg

KI dekoder grynting

Er dette den neste romstasjonen?

Teslas roboter ble fjernstyrt av mennesker

Imponerende KI-videoverktøy fra Meta

Jeg er ikke en robot, jeg lover.

Jony Ive og Sam Altman samarbeider om en KI-enhet

KI kan lage video av drømmene dine

Blir fremtidens spill en KI-hallusinasjon?

Gjennombrudd for fusjonsreaktorer