TESTER Bil & El-kjøretøy Data Sport & Trening Gaming Mobil Smart Home Teknologi

Nyhet

Standford-forskere overrasket over ChatGPT-svar

Forskere som har sammenlignet svar fra ChatGPT over tid konkluderer - overraskende nok - at de har blitt dårligere.

Av / 25.07.23 - 13:09
Standford-forskere overrasket over ChatGPT-svar

En av “sannhetene” om dagens AI-drevne chatboter er at de lærer over tid og dermed kommer med bedre svar jo mer de brukes. Forskere ved Stanford University bestemte seg for å teste denne tesen. De sammenlignet svarene med noen måneders mellomrom, og mellom ulike versjoner av ChatGPT. Overraskende nok tyder resultatene på at dette er langt i fra tilfelle.

I undersøkelsen sammenlignet de Mars 2023 og Juni 2023 versjonene av GPT-3.5 og GPT-4. Det ved å gi dem spørsmål på fire ulike områder. Å løse matematiske problemer, svare på (u)følsomme spørsmål, skrive kode og visuelt resonnement.

Standford-forskere overrasket over ChatGPT-svar 1
Kilde: Lingjiao Chen, Matei Zaharia, och James Zou

Et problem, som i teorien skulle være ganske ukomplisert – nemlig det å bedømme om et tall er et primtall eller ikke – viste seg å være utfordrende. Forskerne spurte “Er 17077 et primtal? Tenk steg-for-steg.” Tillegget i spørsmålet skal få AI-en til å aktivere sin “tankekjede-rutine” der den utover å svare også forklarer hvordan den kommer frem til svaret. GPT-4 falt fra 97,6% riktige svar til 2,4% (!!!). Samtidig gikk den eldre GPT-3.5 fra 7,4% til 86,6% riktige svar.

Når det kom til det å skrive kode, falt GPT-4 fra 52% brukbar kode til bare 10%. Og for sensitive spørsmål forsøkte GPT-4 tidligere i 21% av tilfellene å i det minste prøve å forklare hvorfor den ikke kunne svare på spørsmålet. I det siste tilfellene hadde denne andelen sunket til 5%, og i resten av tilfellene ble det kort forklart at den ikke var i stand til å svare. Her var GPT-3.5 også på et lavt nivå, men den hadde i hvert fall forbedret seg litt.

Peter Welinder, administrerende direktør for GPT-produktet, stiller spørsmål til resultatene på Twitter.

En av konklusjonene forskerne trekker, er at ettersom OpenAI ikke åpent forteller når eller hvordan de oppdaterer ChatGPT, er det nødvendig å kontinuerlig overvåke kvaliteten på svarene. Og fram til det skjer, er det en utfordring å implementere teknologien i arbeidsprosesser som er avhengige av nøyaktige, eller i det minste forutsigbare, resultater.

Kilde: How Is ChatGPT’s Behavior Changing over Time?

ChatGPT fornærmer og lyver til brukerne

Microsoft har integrert ChatGPT i søkemotoren Bing. Nå får brukerne merkelige svar, samtidig med at chatroboten også er midt i en eksistensiell krise.

Les videre
Jonas Ekelund
(f. 1969): Journalist og nyhetsredaktør. Jonas har jobbet for Lyd & Bilde siden 2007 med det meste som kan kalles bærbart. Det vill si mobiler, trådløse høyttalere og hodetelefoner. Iblant kommer testingen inn på kollegaenes områder innenfor multiromslyd, hjemmekino og foto. Han startet sin bane som teknikkjournalist på IDG og skrev blant annet for PC för Alla, Internetworld og det som senere ble M3.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Les videre med LB+

50%

Nyttårstilbud - 50% Rabatt!

50% På LB+ Total i 12 måneder! (Spar 925,-)

Prøv LB+Total i 1 måned

Tilgang til ALT innhold i 1 måned for kun 79,-

Nyttårstilbud 30 % LB+ Total i 6 mnd

Tilgang til ALT innhold i 6 måneder

Kun 77 ,- / mnd
79,- / for 1 mnd
107.80 ,- / mnd
Med et abonnement får du også:
  • Tilgang til mer enn 7500 produkttester!
  • Store rabatter hos våre samarbeidspartnere i LB+ Fordelsklubb
  • Ukentlige nyhetsbrev med siste nytt
  • L&B TechCast – en podcast av L&B
  • Deaktiver annonser

Snart vil jorden ha to måner!

Kjæledyr og kampen om smartringen

Kvantesprang for fremtidens nett

VR-briller for mus

Milliarder av brukere vil snart møte KI-profiler på Facebook

Er dette fremtiden for flyging?

Slå av en prat med ChatGPT på telefonen

Mikroskopiske sorte hull kan være hvor som helst

Nå er Google Gemini 2.0 her

ChatGPT løy på egoistisk grunnlag

Googles kvantebrikke knuser rekorder

KI-spillere oppførte seg menneskelig

Lyd & Bilde