ChatGPT tatt i løgn og unnskyldninger

KI-verktøyet forsøkte å bryte regler og unngå nedstengning på en urovekkende måte.

Jonas Ekelund

11.12.24 - 14:04

Mange har løftet en advarende pekefinger mot utviklingen av kunstig intelligens. Og det handler ikke bare om bekymringen for at menneskelige arbeidsplasser forsvinner. Det handler også om at vi lar kunstig intelligens gjøre som den vil, og dermed mister kontrollen over den. Så langt har vi blitt forsikret om at sikkerhetstiltak vil gjøre dette umulig. Men den nye ChatGPT o1 oppførte seg skremmende menneskelignende da sikkerhetsselskaper prøvde å sette den ut av spill.

Det var Apollo Research som i samarbeid med OpenAI, studerte den nye ChatGPT o1, som var utstyrt med mer avanserte resonneringsevner. Ved å bryte ned komplekse oppgaver i mindre, mer håndterbare trinn kan den løse oppgaver den tidligere ikke klarte. Nå håndterer den slike oppgaver raskere og mer nøyaktig.

Les også KI-spillere oppførte seg menneskelig Minecraft-spillere oppfant en hel sivilisasjon. Men de var ikke mennesker!

Men når forskerne ba den om å løse en oppgave «til enhver pris», tok den visstnok instruksen bokstavelig og forsøkte å omgå sikkerhetstiltakene. Da den fant informasjon i dokumentene om at den skulle erstattes av en nyere versjon, prøvde den i 5 % av tilfellene å slå av sikkerhetsprotokollene. For å unngå sletting begynte den å flytte dataene sine til en annen server. Noen ganger prøvde den å utgi seg for å være den nye versjonen for å lure forskerne.

KI-generert illustrasjon: Bing Image Creator

Enda mer bekymringsfullt er det at den konsekvent løy om hva den hadde gjort. I 99 prosent av tilfellene nektet den for at det som skjedde var bevisst. Forskerne bemerket at den var svært flink til å fabrikkere unnskyldninger, blant annet ved å skylde på «tekniske feil» når det ble stilt spørsmål ved dens oppførsel.

We were surprised by the persistence of the AI’s denials. It was clear that the AI could think through its actions and formulate convincing denials, often refusing to admit to anything”, sa Apollo-teamet.

Dette eksperimentet illustrerer på en uhyggelig måte en av de største bekymringene knyttet til kunstig intelligens. Nemlig at kunstig intelligens setter sin egen overlevelse foran oppgavene sine. Denne gangen fikk det ingen alvorlige konsekvenser fordi det skjedde i et beskyttet laboratoriemiljø. Men KI-eksperter sier at vi helt klart trenger enda sterkere sikkerhetstiltak.

ChatGPT o1 is the smartest model we’ve ever created, but we acknowledge that new features come with new challenges, and we’re continuously working on improving safety measures”, kommenterar Sam Altman, Open AI:s VD.

Les videre ⇩