Standford-forskere overrasket over ChatGPT-svar

Forskere som har sammenlignet svar fra ChatGPT over tid konkluderer - overraskende nok - at de har blitt dårligere.

Jonas Ekelund

25.07.23 - 13:09

Standford-forskere overrasket over ChatGPT-svar 2

En av «sannhetene» om dagens AI-drevne chatboter er at de lærer over tid og dermed kommer med bedre svar jo mer de brukes. Forskere ved Stanford University bestemte seg for å teste denne tesen. De sammenlignet svarene med noen måneders mellomrom, og mellom ulike versjoner av ChatGPT. Overraskende nok tyder resultatene på at dette er langt i fra tilfelle.

I undersøkelsen sammenlignet de Mars 2023 og Juni 2023 versjonene av GPT-3.5 og GPT-4. Det ved å gi dem spørsmål på fire ulike områder. Å løse matematiske problemer, svare på (u)følsomme spørsmål, skrive kode og visuelt resonnement.

Kilde: Lingjiao Chen, Matei Zaharia, och James Zou

Et problem, som i teorien skulle være ganske ukomplisert – nemlig det å bedømme om et tall er et primtall eller ikke – viste seg å være utfordrende. Forskerne spurte «Er 17077 et primtal? Tenk steg-for-steg.» Tillegget i spørsmålet skal få AI-en til å aktivere sin «tankekjede-rutine» der den utover å svare også forklarer hvordan den kommer frem til svaret. GPT-4 falt fra 97,6% riktige svar til 2,4% (!!!). Samtidig gikk den eldre GPT-3.5 fra 7,4% til 86,6% riktige svar.

Når det kom til det å skrive kode, falt GPT-4 fra 52% brukbar kode til bare 10%. Og for sensitive spørsmål forsøkte GPT-4 tidligere i 21% av tilfellene å i det minste prøve å forklare hvorfor den ikke kunne svare på spørsmålet. I det siste tilfellene hadde denne andelen sunket til 5%, og i resten av tilfellene ble det kort forklart at den ikke var i stand til å svare. Her var GPT-3.5 også på et lavt nivå, men den hadde i hvert fall forbedret seg litt.

No, we haven’t made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.

Current hypothesis: When you use it more heavily, you start noticing issues you didn’t see before.

— Peter Welinder (@npew) July 13, 2023

Peter Welinder, administrerende direktør for GPT-produktet, stiller spørsmål til resultatene på Twitter.

En av konklusjonene forskerne trekker, er at ettersom OpenAI ikke åpent forteller når eller hvordan de oppdaterer ChatGPT, er det nødvendig å kontinuerlig overvåke kvaliteten på svarene. Og fram til det skjer, er det en utfordring å implementere teknologien i arbeidsprosesser som er avhengige av nøyaktige, eller i det minste forutsigbare, resultater.

Kilde: How Is ChatGPT’s Behavior Changing over Time?

Les videre ⇩