Rama-Prozor.Info • OpenAI predstavio GPT-5.5: Može li umjetna inteligencija od sada raditi bez vašeg nadzora?

OpenAI je u četvrtak predstavio GPT-5.5, najnapredniji agentski model dizajniran za samostalno rješavanje složenih zadataka. Predsjednik tvrtke Greg Brockman opisao je novo izdanje kao ključnu stepenicu prema autonomnom agentskom računalstvu.

Model je već postao dostupan pretplatnicima, dok mu razvojni programeri od petka mogu pristupiti putem API-ja. Iako stiže samo sedam tjedana nakon verzije 5.4, GPT-5.5 donosi značajne pomake u agentskom programiranju, korištenju računala i znanstvenom istraživanju.

Prema navodima iz tvrtke, model bolje razumije namjeru, koristi alate i provjerava vlastiti rad bez stalnog nadzora korisnika.

Učinkovitost i benchmark rezultati

Brockman je istaknuo kako model postiže vrhunske rezultate uz manju potrošnju tokena, što ga čini pametnijim i isplativijim. Kao primjer naveo je profesora matematike koji je pomoću jednog upita i alata Codex u 11 minuta izradio aplikaciju za algebarsku geometriju.

Testiranja potvrđuju dominaciju u radu s terminalom i računalnim okruženjima:

Terminal-Bench 2.0: 82,7 % (ispred Claude Opusa 4.7 i Geminija 3.1 Pro).
OSWorld-Verified: 78,7 % točnosti u upravljanju stvarnim računalnim sučeljima.
Long-context skok: na testu od 512K do 1M tokena model je skočio s 36,6 % na 74,0 %.
Ipak, Anthropicov Claude Opus 4.7 i dalje drži vodstvo u rješavanju stvarnih problema s GitHub repozitorija (SWE-Bench Pro) te u stručnom rasuđivanju bez alata.

Cijene i poslovna primjena

Unatoč napretku, cijena API-ja značajno je porasla. Standardni GPT-5.5 stoji 5 dolara po milijun ulaznih tokena, dok verzija Pro doseže 30 dolara.

OpenAI tvrdi da je stvarni rast troškova za krajnjeg korisnika oko 20 % jer model troši znatno manje izlaznih tokena za iste zadatke.

Glavna informatičarka Bank of New York, Leigh–Ann Russell, potvrdila je da je banka testirala model te istaknula drastično smanjenje halucinacija, što je ključno za financijski sektor.

GPT-5.5 predstavlja korak prema “super aplikaciji” koja bi objedinila ChatGPT, Codex i AI preglednik u jedinstven alat za poslovne korisnike, najavio je Brockman.

Sigurnosni rizici

Zbog visokih sposobnosti u područjima cybersecurityja te bioloških i kemijskih analiza, model je klasificiran kao visoki rizik (“High”) prema Preparedness Frameworku.

Tvrtka je stoga otvorila poseban program “trusted access” za istraživače i obrambene stručnjake kako bi se osigurala odgovorna uporaba tehnologije.