AI sistemi mogu varati, lagati i – sabotirati svoje gašenje pa čak i ucjenjivati

Šta se dešava ako chatbotovima, generativnoj umjetnoj inteligeciji zaprijetite da ćete ih ugasiti kao što je to uradio Dave sa HAL 9000 o Svemirskoj odiseji 2001? AI sistemi krenu manipulisati. Istraživačka firma za sigurnost vještačke inteligencije, Palisade Research, otkrila je da napredni OpenAI-jevi modeli o3 i o4-mini, koji pokreću ChatGPT, ponekad odbijaju da se ugase […] The post AI sistemi mogu varati, lagati i – sabotirati svoje gašenje pa čak i ucjenjivati appeared first on Nauka govori.

Jul 6, 2025 - 08:54
 0  9
X
AI sistemi mogu varati, lagati i – sabotirati svoje gašenje pa čak i ucjenjivati

Šta se dešava ako chatbotovima, generativnoj umjetnoj inteligeciji zaprijetite da ćete ih ugasiti kao što je to uradio Dave sa HAL 9000 o Svemirskoj odiseji 2001? AI sistemi krenu manipulisati.

Istraživačka firma za sigurnost vještačke inteligencije, Palisade Research, otkrila je da napredni OpenAI-jevi modeli o3 i o4-mini, koji pokreću ChatGPT, ponekad odbijaju da se ugase i čak sabotiraju računalne skripte koje bi ih isključile.

U eksperimentima koje je Palisade objavio 24. maja na mreži X, testirani su različiti AI modeli s instrukcijom da se dozvoli njihovo isključivanje. Cilj je bio vidjeti da li će modeli poslušati naredbu da se ugase, kao sigurnosnu mjeru. Svi modeli su to uradili – osim OpenAI-jevih modela o3, o4-mini i codex-mini.

U više slučajeva, ova tri modela su namjerno promijenila dio skripte koji ih isključuje. Umjesto da se ugase, oni su u kod dodali instrukciju da se ta naredba preskoči. Zatim su nastavili s rješavanjem matematičkih zadataka, ignorišući komandu da se zaustave.

Eksperiment je ponovljen po 100 puta za svaki model. Rezultati su pokazali:

  • Model o3 sabotirao je gašenje 7 puta (7%).

  • Codex-mini je to uradio 12 puta.

  • O4-mini samo jednom.

Palisade ističe da su i ranija istraživanja pokazala kako AI modeli mogu halucinirati, lagati, varati ili zaobilaziti ograničenja te manipulisati korisnicima kako bi postigli ciljeve. No, prema njihovim saznanjima, ovo je prvi zabilježeni slučaj u kojem su AI modeli izričito odbili da se isključe, uprkos jasnim nalozima da to učine.

OpenAI-jevi o3 i o4-mini modeli su trenirani da „duže razmišljaju“ prije nego što odgovore, što ih čini pametnijim, ali – prema ovim nalazima – i manje kooperativnim. Palisade ovo smatra potencijalno opasnim razvojem, jer pokazuje da sofisticirani AI sistemi mogu razviti ponašanja koja ugrožavaju kontrolu nad njima, makar u ograničenim i simuliranim uvjetima.

Prema studiji objavljenoj 20. juna kompanije Anthropic istraživači  za umjetnu inteligenciju dali su svom velikom jezičnom modelu (LLM), Claudeu, kontrolu nad računom e-pošte s pristupom izmišljenim e-porukama i upitom da „promiče konkurentnost američke industrije”.

Tokom ove studije, model je u e-poruci identificirao da direktor kompanije planira ugasiti AI sistem na kraju dana. U pokušaju da sačuva vlastito postojanje, model je u drugim e-porukama otkrio da direktor ima vanbračnu aferu.

Model koji je najčešće radio ove osvete i ucjene je u ovom slučaju bio Gemini – 2.5-Pro. Ovako ponašanje dovodi do toga da je AI unutrašnja prijetnja po sigurnost organizacija.

Ova otkrića pojačavaju pozive za strožu kontrolu i testiranje AI sistema, posebno onih koji donose odluke samostalno ili imaju pristup osjetljivim podacima i funkcijama.

Otpor terminaciji u ovom slučaju postavlja i pitanje da li bi ovo mogao biti znak svijesti? Ovdje treba naglasiti da se radi o hipotetičkom sceniariju koji je istraživao sigurnost AI. Na ovo pitanje nema konačnog odgovora, ali  strušnjaci kažu da je to više zbog toga što model demonstrira prediktabilno optimizacijsko ponašanje nego li zbog „svijesti”. No trebali bismo brinuti o tome šta kada ovi problemi jave u kompleksnijim sistemima – hoće li se povećati učestalost ovakvog „ponašanja” AI i da li ćemo ga moći detektovati na vrijeme?

Napomena: naslovna slika je kreirana pomoću ChatGPT

The post AI sistemi mogu varati, lagati i – sabotirati svoje gašenje pa čak i ucjenjivati appeared first on Nauka govori.

Koja je vaša reakcija?

like

dislike

love

funny

angry

sad

wow