GPT-5.5, „Anthropic" klaidos ir „SpaceX" apetitas: AI lenktynės įžengė į naują fazę

Data: 2026 m. balandžio 24 d.

Per vieną savaitę „OpenAI" išleido GPT-5.5, „Anthropic" prisipažino tris mėnesius taisęs savo klaidas, o „SpaceX" rezervavo teisę įsigyti Cursor. Kartu šie...

Trumpai (TL;DR):

„OpenAI" balandžio 23 d. išleido GPT-5.5 – pirmą kartą nuo GPT-4.5 visiškai perdirbtą modelį su milijono tokenų konteksto langu ir 82,7% rezultatu Terminal-Bench 2.0 testuose.
„Anthropic" paskelbė išsamų klaidų analizės dokumentą: trys klaidos nuo kovo iki balandžio 20 d. pablogino „Claude Code" veikimą, o kompensacijai bendrovė atstatė visų prenumeratorių naudojimo limitus.
„SpaceX" (po susijungimo su xAI) užsitikrino opciją vėliau šiais metais įsigyti Cursor už 60 mlrd. USD – tai didžiausias potencialus sandoris AI kodavimo įrankių srityje.

Balandžio 23-ioji gali tapti tam tikra riba AI istorijoje. Tą pačią dieną „OpenAI" paskelbė naują modelį, „Anthropic" viešai pripažino savo klaidas, o foną jau kelias dienas buvo užėmęs „SpaceX"-Cursor derybų triukšmas. Visi trys įvykiai sukasi aplink tą patį klausimą: kas valdys programavimo AI rinką po metų.

GPT-5.5: grįžimas prie pagrindų

GPT-5.5 yra pirmasis visiškai perdarytas bazinis modelis nuo GPT-4.5. Visi tarpiniai leidimai – GPT-5.1, 5.2, 5.3, 5.4 – buvo tik papildomas apmokymas ant tos pačios bazės. GPT-5.5 yra kitoks. Naujasis modelis yra natūraliai omnimodal (tekstą, vaizdus, garsą ir vaizdo įrašus apdoroja viena sistema), žymiai efektyvesnis tokenų atžvilgiu ir sukurtas darbui su keliais įrankiais vienu metu.

GPT-5.5 pristatomas kaip stipriausias savarankiško kodavimo modelis. Terminal-Bench 2.0 teste, tikrinančiame sudėtingus komandinės eilutės darbus, kuriems reikia planavimo ir įrankių koordinacijos, jis pasiekia 82,7%. Palyginimui: „Anthropic" Opus 4.7 gauna 69,4%, o „Google" Gemini 3.1 Pro – 68,5%. Tai ne statistinis skirtumas. 13 procentinių punktų pranašumą jaučia kiekvienas kūrėjas, kuris pasikliauja savarankiškais agentais.

Tačiau ne visur GPT-5.5 laimi. SWE-Bench Pro teste, geriausiai atitinkančiame tikrą darbą su „GitHub" problemomis, Opus 4.7 aplenkia GPT-5.5: 64,3% prieš 58,6%. SWE-Bench Verified teste Opus 4.7 pasiekia 87,6%, o GPT-5.5 šioje kategorijoje apskritai nedalyvavo. Kitaip tariant, GPT-5.5 pirmauja planavimo ir vykdymo srityje, Opus 4.7 – tikslaus kodo rašymo srityje. Jie konkuruoja skirtingose ašyse.

Yra vienas niuansas, kurį verta žinoti prieš keičiant API raktus. „Artificial Analysis" platformos AA-Omniscience teste GPT-5.5 pasiekia aukščiausią tikslumą – 57%, bet kartu ir aukščiausią haliucinacijų rodiklį: 86%. Opus 4.7 haliucinuoja 36% atvejų. GPT-5.5 geba teisingai atsakyti, kai žino atsakymą, bet taip pat labiau linkęs spėlioti, kai nežino. Savarankiškuose darbo procesuose klaidingas, tačiau užtikrintas atsakymas yra pavojingesnis nei sustojimas ir klausimas.

GPT-5.5 šiandien pasiekiamas „ChatGPT" Plus, Pro, Business ir Enterprise prenumeratoriams bei per Codex. API kaina: 5 USD už milijoną įvesties tokenų ir 30 USD už milijoną išvesties. „Claude" Opus 4.7 kainuoja tiek pat įvestyje, bet 25 USD išvestyje.

„Anthropic" prisipažinimas: trys klaidos, šešios savaitės, vienas postmortem

GPT-5.5, „Anthropic" klaidos ir „SpaceX" apetitas: AI lenktynės įžengė į naują fazę – iliustracija 1

Kol vyko GPT-5.5 paleidimo triukšmas, „Anthropic" padarė kažką reto AI rinkoje: viešai ir išsamiai apibūdino savo klaidas. Kelias savaites kūrėjai ir aktyvi vartotojų bendruomenė tvirtino, kad „Anthropic" pagrindiniai modeliai prarado pranašumą. „GitHub", X ir Reddit platformose vartotojai pranešė apie tai, ką vadino „AI susitraukimu": Claude atrodė mažiau pajėgus sudėtingam samprotavimui, labiau linkęs haliucinuoti ir neefektyviai naudojo tokenus.

Dabar žinome, kodėl. Kovo 4 d. „Anthropic" sumažino numatytąjį mąstymo lygį nuo aukšto iki vidutinio „Claude Code" įrankyje, norėdami sumažinti sąsajos delsą. Tai turėjo neleisti programai atrodyti „užšaldytai", kol modelis mąsto, bet sudėtingoms užduotims sukėlė pastebimą intelekto kritimą.

Kovo 26 d. buvo įdiegta talpyklos optimizacija, skirta išvalyti senus mąstymo įrašus iš neaktyvių sesijų. Ji turėjo veikti vieną kartą, bet klaida lėmė, kad atminties valymas vyko kiekvieną kartą, kai vartotojas rašė naują žinutę. Modelis prarasdavo kontekstą ir tapdavo kartojantis arba nesąmoningai „užmaršus".

Balandžio 16 d. į sistemos nustatymus buvo įtraukta instrukcija riboti tekstą tarp įrankių iškvietimų iki 25 žodžių, o galutinius atsakymus – iki 100 žodžių. Šis bandymas sutramdyti Opus 4.7 plepumą sukėlė 3% kokybės kritimą kodavimo vertinimuose.

Pačiame klaidų analizės dokumente „Anthropic" rašo, kad ateityje užtikrins, jog darbuotojai naudos viešus produktų leidimus. Tai reiškia, kad iki šiol to nebuvo privaloma. Tie, kurie kūrė įrankį, neprivalėjo naudoti tos pačios versijos, kurią mokėjo jų klientai.

Kaip kompensaciją „Anthropic" atstatė naudojimo limitus visiems prenumeratoriams balandžio 23 d. Oficiali pozicija: modelio kokybė niekada nesumažinama dėl paklausos, paros laiko ar serverio apkrovos, o vartotojų pastebėtos problemos buvo susijusios išimtinai su infrastruktūros klaidomis.

„SpaceX" ir Cursor: 60 mlrd. USD klausimas

Trečias savaitės įvykis yra pats dramatiškiausias finansiniu požiūriu. Likus kelioms valandoms iki „SpaceX" paskelbimo, Cursor buvo beveik užbaigęs 2 mlrd. USD finansavimo raundą. Vietoje to bendrovė sustabdė derybas, kai „SpaceX" pasiūlė 10 mlrd. USD bendradarbiavimo mokestį ir kelią į 60 mlrd. USD įsigijimą.

„SpaceX" įgijo teisę įsigyti Cursor už 60 mlrd. USD vėliau šiais metais. Planuojama sujungti Cursor produktus ir prieigą prie profesionalių programuotojų su „SpaceX" „Colossus" superkompiuteriu, atitinkančiu milijoną H100 lustų, ir taip sukurti pasaulyje naudingiausius modelius.

Galimas įsigijimas atidedamas iki po „SpaceX" biržos debiuto šią vasarą: bendrovė nori išvengti konfidencialių finansinių dokumentų atnaujinimo prieš IPO, o 60 mlrd. USD pirkimą bus paprasčiau finansuoti naujomis, viešai prekiaujamomis akcijomis.

Tačiau šiame sandoryje slypi prieštaravimas. Nei Cursor, nei xAI neturi nuosavų modelių, galinčių konkuruoti su „Anthropic" ir „OpenAI" pasiūlymais – tų pačių kompanijų, kurios dabar tiesiogiai konkuruoja su Cursor kūrėjų rinkoje. Cursor vis dar naudoja ir parduoda prieigą prie Claude ir GPT modelių, kol abi įmonės plečia savo kodavimo įrankius. Naujoji „SpaceX" partnerystė galbūt ir siekia šią nepatogią padėtį ateityje išspręsti.

Du vyresnieji Cursor inžinieriai, Andrew Milich ir Jason Ginsberg, jau perėjo dirbti į xAI ir tiesiogiai atsiskaito Elonui Muskui. Cursor metinės pajamos iki 2026 m. pabaigos prognozuojamos viršysiančios 6 mlrd. USD – penkis kartus daugiau nei tikėtasi 2025 m. pabaigoje.

Viena savaitė, trys signalai

Sujungus visus tris įvykius, ryškėja vienas vaizdas: AI kodavimo rinka keičia struktūrą. „OpenAI" išleido modelį, kuris pirmauja savarankiškuose darbuose, bet atsilieka tiksliu kodavimu. „Anthropic" parodė, kad net geriausi modeliai gali tapti žymiai prastesni dėl trijų konfigūracijos eilučių. „SpaceX" bandys per vieną įsigijimą kompensuoti metus atsilikimo.

Lietuvos kūrėjams praktinė žinia yra dvejopa. Jei pastarąjį mėnesį naudojote „Claude Code" ir kažkas neveikė taip, kaip tikėjotės: dabar žinote, kodėl. Jei svarstote, kurį modelį naudoti savarankiškiems projektams, GPT-5.5 ir Opus 4.7 yra optimizuoti skirtingoms užduotims – verčiau rinktis pagal konkretų poreikį, o ne pagal rinkodaros pareiškimus.

Ponas Obuolys sako:
„Anthropic" klaidų analizė yra retas atvejis, kai technologijų kompanija sako kažką artimo tiesai. Ir tas atvejis nėra toks geras, kaip atrodo: paaiškėjo, kad kompanijos darbuotojai neprivalėjo naudoti tos pačios versijos, kurią mokėjo klientai. Kitaip tariant, jei testuoji produkciją vidiniais kanalais, klientų problemos tiesiog lieka nematomos. Tai nėra piktybiška. Tai stebėtinai dažna inžinerinė yda.
GPT-5.5 atveju skaičiai gražūs, bet jų interpretacija sudėtingesnė. 86% haliucinacijų rodiklis specialiame teste nereiškia, kad modelis meluoja 86% laiko. Tačiau reiškia, kad savarankiškam naudojimui be papildomo tikrinimo sluoksnio jis yra rizikingas. Tai ypač svarbu tiems, kurie svajoja apie visiškai automatizuotą kodavimą, kai modelis pats rašo, tikrina ir diegia kodą be žmogaus priežiūros.
O „SpaceX"-Cursor sandoris kol kas yra tik opcija, ne pirkimas. Muskas turi įprotį skelbti didingus planus ir vėliau derėtis iš kitos padėties. Bet net jei sandoris neįvyktų, Cursor jau gavo 10 mlrd. USD įsipareigojimą ir sustabdė finansavimo raundą, kuris ją būtų privertęs ir toliau priklausyti nuo „Anthropic" bei „OpenAI" modelių. Strategiškai – neblogas ėjimas.

Šaltiniai: „OpenAI" oficialus pranešimas, „Anthropic Engineering" postmortem, „TechCrunch", „VentureBeat", „Fast Company", „CNBC", „Bloomberg", „Interesting Engineering".

GPT-5.5, „Anthropic" klaidos ir „SpaceX" apetitas: AI lenktynės įžengė į naują fazę

GPT-5.5: grįžimas prie pagrindų

„Anthropic" prisipažinimas: trys klaidos, šešios savaitės, vienas postmortem

„SpaceX" ir Cursor: 60 mlrd. USD klausimas

Viena savaitė, trys signalai

Temos

Susijusios naujienos

Susiję kursai ir seminarai