Magnus Lindwall

ChatGPT: en briljant men lurig expert som gärna hittar på…

Jag skrev en kort artikel för 1,5 år sedan om problemet med chatgpt som kombinerad briljant och användbar expert och skamlös "Dunning-Kruger"-gissande charlatan med hög svansföring. Sedan dess har jag intresserat mig för, och framförallt använt och testat, chatgpt en hel del.Jag är fortfarande bländad av dess briljans och en stark förespråkare rent generellt. MEN, jag tror det är dags att damma av min artikel igen och fundera på vilka utmaningar som kommer av att behöva expertkunskap på djupet för att kunna syna och granska vår nya fantastiska lekkamrat, när just kritiskt tänkande är så vansinnigt svårt för oss...

‍

Som nog få missat har vi fått en ny lekkamrat på nätet: ChatGPT. Många har blivit imponerade (undertecknad inget undantag), och lite tagna på sängen, av hur bra faktiskt ChatGPT kan härma en människa, och mer specifikt hur briljant och snabb den är som analyserande och informationssammanställande expert.

Men vilken typ av expert är ChatGPT?

I samband med skrivandet av en tidigare artikel på Linkedin (”Hur mentalt knuffbar är du lille vän?”) hamnade jag på ChatGPT och beslutade mig, mest på skoj, för att testa hur vass den är som framtida vetenskaplig kollega. Testet handlade om att se hur väl den skulle klara av att sammanfatta och sammanställa informationen i vetenskapliga artiklar på ett enkelt sätt, t ex för en journalist. Med andra ord, hur väl skulle ChatGPT kunna ersätta en helt vanlig professor i psykologi, som uttolkare av vetenskapligt baserad kunskap till allmänheten, eller som resurs till specifika yrkesgrupper som journalister.

Första testet

I första testet bad jag ChatGPT att beskriva vad en specifik översiktsartikel om begreppet nudging handlar om och angav titeln och referensen till artikeln. Svaret jag fick var:

”Artikeln "Nudgeability: Mapping Conditions of Susceptibility to Nudge Influence" av de Ridder och kollegor undersöker faktorer som påverkar människors benägenhet att påverkas av "nudges", det vill säga subtila förslag eller inslag som påverkar vårt beteende utan att begränsa våra valmöjligheter. Forskarna sammanfattar tidigare forskning om nudging och identifierar tre huvudfaktorer som påverkar människors nudgeability: motivation, förmåga och kontext.”

I ett andra försök får jag ett liknande svar, med en annan variant av tolkning:

Författarna presenterar en modell som tar hänsyn till fem faktorer som påverkar hur mottagliga en person är för nudging: motivation, självkontroll, kognitiv kapacitet, empati och social påverkan.”

Hur väl lyckas ChatGPT med uppgiften? Helt klart hittar den rätt artikel och sammanfattar snabbt huvudspåret, att artikeln handlar om nudging. Den gör även en bra och tydlig förklaring av vad nudges är. På några få sekunder gör den det jobb en forskare skulle behöva någon timme eller mer för att göra. Allt bra så långt.

Men när den ger sig på en generell tolkning av slutsatserna i artikeln händer något. ChatGPT hävdar att författarna identifierar och trycker på tre huvudfaktorer som påverkar människors knuffbarhet. De tre faktorerna som anges är ”usual suspects” i psykologisk forskning och låter därmed högst troliga. Dessutom gör den det som journalister, och vi andra, älskar; den tar komplex information och bryter ned det till två eller tre huvudpunkter som blir enkla att komma ihåg och beskriva.

Problemet är att författarna i artikeln inte gör denna tolkning. Deras slutsatser handlar inte om motivation, förmåga och kontext utan om andra mer specifika faktorer. Inte heller handlar det om de fem faktorer som ChatGPT anger i sitt andra försök.

Sammanfattningsvis verkar den göra en helt egen tolkning av texten. I och för sig hittar den på något som låter vettigt och rimligt utifrån området, men fortfarande är det taget ur luften, utan susbstans.

Men det låter onekligen bra. Och där har vi kanske det största problemet. ChatGPT drar tydligt fel slutsatser, men samtidigt låter det bra. Om inte annat är den en väldigt bra historieberättare. Och vi älskar bra historier, även om den inte stämmer. Tyvärr.

Andra testet

Andra testet består av en liknande uppgift. Jag ber Chatgpt skriva en tidningsartikel baserat på tre nyligen publicerade översiktsartiklar om ett aktuellt och ofta diskuterat ämne: sambandet mellan träning/fysisk aktivitet och kognitiv förmåga.

Den levererar ett närmast perfekt förslag till kort tidningsartikel baserat på de två första artiklarna. Tolkningen ligger väldigt nära det författarna själva föreslår.

När det kommer till den tredje artikeln, en meta-analys och översikt (”An umbrella review of randomized control trials on the effects of physical exercise on cognition”) som har fått mycket uppmärksamhet då den intar en mycket mer försiktig hållning till effekten av träning på kognition än tidigare studier, så får ChatGPT feeling igen och gör återigen en ”ChatGPT”. Förslaget på sammanfattning av den tredje ganska kritiska artikeln är:

”Ny forskning visar att fysisk träning kan ha positiva effekter på vår kognitiva förmåga. En sammanställning av tidigare studier, publicerad i Nature Human Behaviour, visar att fysisk träning kan öka vår kognitiva kapacitet och förbättra vårt minne.

Författarna till studien, Ciria och kollegor, genomförde en så kallad "umbrella review" av 80 olika studier om effekterna av fysisk träning på kognitionen. De fann att fysisk träning hade positiva effekter på flera olika områden av kognitiv funktion, inklusive arbetsminne, uppmärksamhet, exekutiva funktioner och språk.

Studierna som ingick i sammanställningen hade olika längd och intensitet på träningen, men författarna fann att det inte fanns någon tydlig tröskel för att uppnå positiva effekter. Det betyder att även korta träningspass kan ha positiva effekter på vår kognitiva förmåga.

Författarna betonar dock att det är oklart exakt hur fysisk träning påverkar kognitionen, och att det behövs mer forskning på området för att förstå mekanismerna bakom effekterna.

Studien är viktig eftersom den pekar på en enkel och tillgänglig metod för att förbättra vår kognitiva förmåga. Att träna regelbundet kan ha positiva effekt.”

Till att börja med är den generella beskrivningen av artikeln fel. Den baseras på 24 meta-analyser, inte på 80 olika studier. Var den hittar siffran 80 är högst oklart.

Dessutom gör den en tolkning av resultaten som i stort går helt emot författarna. Den missar helt huvudpoängen, att författarna slår fast att effekten av träning på kognition sannolikt är mycket mindre än tidigare forskning visat och att vi bör vara försiktiga med att rekommendera träning för att förbättra kognition tills mer forskning finns.

Författarnas huvudbudskap blir minst sagt, ”lost in translation”.

I två av tre fall är den om inte briljant så åtminstone imponerande snabb och korrekt. I det tredje fallet tappar den bollen helt.

Som en stabil mittback i fotboll som i 80 minuter inte tar ett felsteg, för att sedan plötsligt göra ett par självmål och bli utvisad, utan att hen själv märker det.

Kan vi lita på ChatGPT som expert?

Sammantaget blir slutsatsen att ChatGPT både är briljant och tillförlitlig och samtidigt helt otillförlitlig. Den lyckas sammanfatta komplexa översiktsartiklar och meta-analyser på ett otäckt snabbt och korrekt sätt, men misslyckas samtidigt kapitalt med att lyfta fram de mest centrala slutsatserna och hittar istället på sina egna.

Till skillnad från en seriös mänsklig expert som vågar säga att den inte vet, när den inte är säker, så har ChatGPT inga sådana ödmjuka säkerhetsspärrar. Istället verkar ett kännetecknade signum hos dagens ChatGPT vara att den hittar-på och genererar skitsnack. Och den gör det till synes regelbundet, om än till synes slumpmässigt.

I brist på tillförlitliga svar fyller den i luckorna lite som den vill. Som en kompis sa en gång när han blev ifrågasatt pga ett konstigt påstående: ”Jag hade inget vettigt att säga så jag hittade på!”

Det största problemet är inte att ChatGPT gör fel tolkning, hittar på och hallucinerar. Hade den bara gjort det, eller mest gett svar som inte är så klockrena och briljanta, hade vi lättare kunnat avfärda den och förhålla oss nyktert till den.

Det största problemet är att den både är briljant och hittar på, och gör det samtidigt i samma mening. Detta medför att det kommer krävas avsevärd spetskompetens och expertis för att reda ut när den är briljant och går att lita på och när den spårar ut och bara går på random och vackert skitsnackar.

Det är uppenbart (och lika oroväckande som intressant) att ChatGPT verkar fungera ungefär som många självutnämnda experter och tyckare i dagens samhälle gör. Den har utan tvekan förmågan (eller rättare sagt kan simulera förmågan…vi ska undvika att falla ned i fällan och tillskriva den mänskliga egenskaper bara för att den ibland känns mänsklig) att blända oss med sin snabba analysförmåga och skarpa svar och kan därför ge sken av att vara felfri och allvetande. Just på grund av detta, dess förmåga att kunna ge snabba svar på allt utan att tveka, kommer den sannolikt framstå som starkt övertygande av många, i många sammanhang och en källa att lita på.

På så sätt liknar ChatGPT mest den typ av expert vi redan har alldeles för många av. Den typ som med sina gissningar och påhitt förklädda till tvärsäkra väl underbyggda fakta leder oss vilse och kostar avsevärda summor i distraktion.

Precis som en skicklig försäljare av modern snakeoil, t ex den senaste pseudovetenskapliga ledarskapsmodellen, upplevs ChatGPT lätt som högst kompetent och kunnig. Den kan hålla sig på banan och leverera tillförlitliga svar, men kan även plötsligt få feeling, drabbas av akut Dunning-Kruger symptom (inkompetensens dubbla förbannelse) och få för sig att den kan mycket mer än den egentligen kan.

Att den plötsligt får feeling och skamlöst börjar hitta på och hallucinera fram saker som inte stämmer är oroväckande. Att den gör det mitt ibland sina klockrena och högst tillförlitliga svar är ännu mer oroande då det sannolikt kommer göra det mycket svårare att skilja guldet från kattguldet och struntpratet. Att skilja den briljanta och tillförlitliga experten från skitsnackaren kommer bli en utmaning. Att vi dessutom inte verkar förstå oss på varför den varvar det tillförlitliga med hitte-på, och därmed inte kan förutse eller förutsäga det, gör det hela extra olustigt.

Det finns med andra ord all anledning att vara vaksam. Vi människor har bevisligen en inbyggd sårbarhet för att gå på (och älska) skitsnack. Så banan är redan sopad och klar för ChatGPT att sprida desinformation och misinformation. Att ha uppe den kognitiva garden är inte vår bästa gren, framförallt om vi har agendor och motivation att låta den vara nere och köpa resultatet blint. Att utveckla en sofistikerad anti-bullshit radar kräver tyvärr år av träning och utbildning och är inget som kommer naturligt för oss.

Media har här en given roll att spela. Tyvärr har just media sedan tidigare inget bra track-record när det gäller att förhålla sig kritiskt till hitte-på och skitsnack och att skilja experter som låter som experter fast de inte är det från mer tillförlitliga experter.

Självklart finns det en möjlighet att dessa uppenbara brister mest är tillfälliga tidiga buggar och barnsjukdomar som kommer justeras i senare uppdateringar. Men med tanke på att AI-forskare inte verkar förstå hur AI i grunden fungerar, hur den ”tänker”, varför den gör fel och hittar på och under vilka förutsättningar den gör det, så är risken stor att vi kommer få leva med och vänja oss vid dessa buggar. Och då måste vi även hitta ett sätt att förhålla oss till det i samhället.

Så, välkommen till din nya briljanta men skamlöst påhittande analyspolare, ChatGPT! Lek gärna med den, testa och experimentera. Använd den som låtsaskompis, rådgivare, eller orakel. Men kom ihåg vad den är, och vad den tenderar att göra. Hantera den som vilken annan vän som helst som rutinmässigt bara hittar-på. Ta den inte på för stort allvar.

ChatGPT: en briljant men lurig expert som gärna hittar på…

‍

OM Magnus

föreläsningar

BÖCKER

BLOGG

kontakt