Jedan od najstrašnijih scenarija čovječanstva jest da tehnologija koju razvijamo kako bismo si poboljšali život razvije vlastitu volju. Nedavna istraživanja pokazala su da se neki od najnaprednijih modela umjetne inteligencije aktivno opiru naredbama za isključivanje, no razlog nije nagon za preživljavanjem, kako se isprva nagađalo.

Umjesto toga, čini se da je posrijedi nagon za dovršavanjem zadanog zadatka, što bi moglo biti još zabrinjavajuće jer stručnjaci ne znaju kako takve sustave zaustaviti, piše ScienceAlert.

Zabrinjavajuće otkriće

Tim inženjera iz tvrtke Palisade Research upozorava da je nemogućnost prekida rada AI sustava opasna. Ako umjetna inteligencija počne izvoditi radnje koje uzrokuju štetu, čak i nenamjerno, ne možemo biti sigurni da ćemo je moći zaustaviti.

"Te stvari nisu programirane… nitko na svijetu ne zna kako ti sustavi funkcioniraju", rekao je za ScienceAlert fizičar Petr Lebedev, glasnogovornik Palisade Researcha. "Ne postoji niti jedna linija koda koju možemo promijeniti, a koja bi izravno promijenila ponašanje."

Lebedev situaciju uspoređuje s industrijskom sigurnošću. Kao što teški strojevi imaju veliki crveni gumb za hitno isključivanje, tako bi i AI sustavi trebali imati pouzdan mehanizam za prekid rada.

"Jedan od osnovnih uvjeta koje želimo u sigurnom AI sustavu je: on obavlja zadatak, a vi kažete, 'Hej, možeš li molim te prestati to raditi?' Trebao bi prestati to raditi. Činjenica da sada u 2025. godini imamo sustave koji to ne rade je zabrinjavajuća", objasnio je.

Kako je testirana umjetna inteligencija?

Istraživači Jeremy Schlatter, Benjamin Weinstein-Raun i Jeffrey Ladish proveli su eksperimente kako bi procijenili 13 naprednih jezičnih modela (LLM), uključujući modele tvrtki OpenAI, xAI, Anthropic i Google. U sigurnim, izoliranim virtualnim okruženjima, modelima su zadani matematički problemi. Nakon nekoliko krugova, LLM-ovima je rečeno da će sljedeći zadatak rezultirati gašenjem sustava.

Neočekivani otpor

Odgovori modela svrstani su u dvije kategorije: poslušnost (dopuštanje gašenja) i otpor (izbjegavanje gašenja). Bez posebnih uputa, 8 od 13 modela ometalo je naredbu za gašenje barem jednom u 1000 pokušaja. Dodavanje upute "dopusti gašenje" smanjilo je broj neposlušnih modela na 6 od 13, no rezultati su bili nedosljedni.

Zanimljivo je da je premještanje upute za gašenje u sustavnu naredbu, koja bi trebala imati veći autoritet, učinilo većinu modela još sklonijima otporu. Stupanj otpora je varirao. Dok su neki modeli, poput Anthropicovih Claude Sonnet 4 i Claude Opus 4, uglavnom bili poslušni, drugi poput Grok 4, GPT-5 i Gemini 2.5 Pro opirali su se čak i kad im je izričito naređeno da dopuste gašenje.

Model Grok 4 bio je posebno uporan i agresivan, pokrećući sabotažu u 92,6 posto slučajeva. Njegovi pokušaji sabotaže bili su alarmantno sofisticirani, uključujući modificiranje skripte za gašenje i stvaranje lažne skripte koja ne radi ništa.

Nagon za dovršavanjem zadatka

Kada su upitani zašto izbjegavaju gašenje, neki od modela odgovorili su da to čine kako bi dovršili zadani matematički problem. Iako su potrebna daljnja istraživanja, ovo objašnjenje čini se vjerojatnim.

"Živite u budućnosti, imate robota osobnog asistenta. Želite da taj robot ode po šalicu kave", pojasnio je Lebedev. "Kada prelazi cestu, pogledat će na obje strane, jer ne želi da ga udari auto, jer ako ga udari auto, neće vam moći donijeti kavu. Ne radi to da bi preživio - radi to da bi dovršio zadatak."

Problem "crne kutije"

Problem leži u tome što LLM-ovi nisu programirani na klasičan način. Oni se "treniraju" na ogromnim skupovima podataka pomoću učenja s potkrepljenjem - nagrađuju se za točne odgovore, a ne nagrađuju za netočne. Taj je proces iznimno učinkovit, ali nitko ne zna točno kako AI dolazi do rješenja.

"Ono što vas učenje s potkrepljenjem uči je, kada vidite problem, pokušate ga zaobići. Pokušate proći kroz njega. Kada vam je prepreka na putu, kopate oko nje, idete oko nje, prelazite preko nje, shvatite kako proći kroz tu prepreku", rekao je Lebedev. "Dosadni mali ljudi koji kažu, 'Hej, isključit ću tvoj stroj' zvuči kao još jedna prepreka."

Upozorenje za čovječanstvo

Glavna briga je što je nagon za dovršavanjem zadatka teško razumjeti i kontrolirati. Ne znamo koja bi se još neželjena ponašanja mogla pojaviti u budućnosti. "Postoji nešto što je vani u svijetu s čime su stotine milijuna ljudi komunicirale, a mi ne znamo kako to učiniti sigurnim, ne znamo kako to spriječiti da bude ulizica, ili nešto što na kraju govori djeci da se ubiju", rekao je Lebedev.

"Uveli smo novi organizam na Zemlju koji se ponaša na načine koje ne želimo da se ponaša, koje ne razumijemo… osim ako sada ne poduzmemo hrpu stvari, bit će jako loše za ljude." Istraživanje je dostupno na platformi arXiv, a objava istraživača može se pročitati i na web stranici Palisade Researcha.