Testai praeina. Peržiūra atmesta. Kuris AI kodas išgyvena abu?

Data: 2026 m. gegužės 4 d.

Nepriklausomas tyrėjas palygino „OpenAI" GPT-5.5, GPT-5.4 ir „Anthropic" Opus 4.7 su 56 realiomis užduotimis iš atvirojo kodo projektų. Išėjo ne vienas nugalėtojas, o du skirtingi atsakymai į du skirtingus klausimus.

Trumpai (TL;DR):

GPT-5.5 laimėjo pagal beveik visus rodiklius: 28 iš 56 užduočių praėjo tiek automatinius testus, tiek kodo peržiūrą. Opus 4.7 – tik 10.
Opus 4.7 rašo mažesnius, mažiau rizikingus pakeitimus, tačiau mažas pakeitimas, kuriame trūksta pusės reikiamų failų, nėra tikras minimalizmas.
Rezultatai priklauso nuo projekto tipo: integraciškai sudėtinguose repozitorijuose Opus atsilieka drastiškai, paprastesniuose – kova lygi.

Visuomeninis benchmark (lyginamasis testas) paprastai veikia paprastai: modelis gauna užduotį, testai sako „praeita" arba „nepraėjo", ir pasaulis sužino, kuris dirbtinis intelektas „protingesnis". Vienas tyrėjas nusprendė, kad tai per lengvas klausimas. Jis paklausė kitaip: kuris modelis parašys kodą, kurį tikras žmogus sutiks įtraukti į projektą?

Testavimas ir realybė – du skirtingi dalykai

Tyrėjas paleido tris modelius ant 56 tikrų užduočių iš dviejų atvirojo kodo projektų: Zod (JavaScript schemos tikrinimo biblioteka) ir graphql-go-tools (GraphQL įrankiai Go kalbai). Modeliai buvo „OpenAI" GPT-5.5, GPT-5.4 ir „Anthropic" Opus 4.7.

Kiekviena užduotis buvo paimta iš jau sujungtų kodo pakeitimų, kuriuos žmonės iš anksto priėmė ir patvirtino. Modeliai turėjo atkartoti tą patį darbą nežinodami teisingų atsakymų.

Vertinimas vyko keliais sluoksniais. Pirma: ar automatiniai testai praeina. Antra: ar modelio pakeitimas atitinka žmogiško kūrėjo sprendimą. Trečia: ar pakeitimas praeitų kodo peržiūrą pagal kokybės kriterijus – teisingumą, palaikomumą ir potencialių klaidų riziką.

Trečiasis sluoksnis yra esminis. Tyrėjas tai suformulavo taip: „Testai sako – šis pakeitimas veikiausiai veikia. Peržiūrėtojas klausia – ar tai pakeitimas, kurį mes norime palaikyti?"

GPT-5.5 dominuoja ten, kur skaičiuoja

Bendras rezultatas nedviprasmiškai palankus GPT-5.5. Iš 56 užduočių šis modelis išlaikė ir testus, ir peržiūrą 28 kartus. GPT-5.4 – 11 kartų. Opus 4.7 – tik 10.

GPT-5.5 taip pat buvo greičiausias: vidutiniškai 6 minutės 56 sekundės vienai užduočiai, kai Opus 4.7 užtruko 11 minučių 18 sekundžių. Be to, GPT-5.5 naudojo mažiausiai įvesties simbolių iš visų trijų modelių.

Tačiau rezultatai skiriasi pagal projektą. Zod repozitorijoje GPT-5.5 ir Opus 4.7 automatinius testus praėjo vienodai – po 12 iš 27 užduočių. Peržiūrą GPT-5.5 praėjo 14 kartų, Opus – 6. Skirtumas matomas, bet ne lemiamas.

Graphql-go-tools – visai kita istorija. Ten GPT-5.5 testus praėjo 26 kartus iš 29, peržiūrą – 19, abu kartu – 18. Opus 4.7 atitinkamai: 21, 5 ir 5. Opus šiame projekte praktiškai nepraeina peržiūros.

Mažas pakeitimas nėra tas pats, kas minimalus

Kodėl Opus taip atsilieka graphql-go-tools projekte? Tyrėjas mato aiškų dėsningumą: Opus rašo mažesnius pakeitimus ir tai laiko pranašumu. Vidutinis Opus pakeitimas šiame projekte siekia apie 19 KB, GPT-5.5 – 33 KB.

Graphql-go-tools yra integraciškai sudėtingas projektas. Vienas pakeitimas paprastai paliečia kelis susijusius komponentus. Jei modelis pataisė tik vieną failą ir testai praeina, tai dar nereiškia, kad darbas baigtas. Gali būti, kad testai nepadengia kitų vietų, kurias žmogus taip pat būtų parengęs.

Tyrėjas tai suformulavo taip: „5 KB pakeitimas, kuriame trūksta reikiamų komponentų, nėra minimalesnis už 20 KB pakeitimą, kuris baigia darbą."

Opus planavo darbo eigą žingsniais, vidutiniškai darydamas 3,17 aiškių planavimo žingsnių vienai užduočiai. GPT-5.5 – beveik nulį. Tačiau GPT-5.5 atliko maždaug dvigubai daugiau komandinės eilutės operacijų ir daugiau paieškų projekto failuose. Kitaip sakant: Opus galvojo garsiai, GPT-5.5 tyrinėjo plačiau.

Modelis ir įrankis yra neatsiejami

Čia svarbus metodologinis niuansas. Visi trys modeliai veikė skirtingose aplinkose: Opus 4.7 – Claude Code įrankyje, GPT-5.4 ir GPT-5.5 – „OpenAI Codex CLI" įrankyje. Tai ne vien modelių palyginimas, tai modelių su skirtingomis darbo aplinkomis, instrukcijomis ir įrankių rinkiniais palyginimas.

Tyrėjas tai pripažįsta atvirai: paleidus Opus 4.7 per Codex CLI, rezultatai galėtų būti kitokie. Lietuvos įmonėms, renkančioms AI coding agent (dirbtinio intelekto kodavimo agentą), tai svarbu: renkamasi ne tik modelis, bet ir visa ekosistema.

Dar viena išlyga: peržiūros kokybę vertino pats GPT-5.4 kaip teisėjas. Tai gali reikšti šališkumą „OpenAI" modelių naudai. Tačiau tyrėjas atkreipia dėmesį: net su tokiu teisėju GPT-5.5 ryškiai lenkia GPT-5.4, o daugelis Opus pralaimėjimų yra konkrečiai patikrinami – trūksta failų, trūksta pakeitimų susietuose komponentuose.

Ką tai reiškia praktiškai

Tyrėjo pagrindinė tezė yra tokia: visuomeniniai testai, kaip SWE-bench, susumuoja elgesį į vieną skaičių iš tūkstančių užduočių. Tačiau jūsų projektas nėra tūkstančio atsitiktinių projektų vidurkis. Jis turi savo architektūrą, savo kodo peržiūros kultūrą, savo standartus.

Jei projektas sudėtingas ir glaudžiai susietų komponentų, GPT-5.5 šiame teste pasirodė kur kas geriau. Jei projektas paprastesnės struktūros ir svarbu, kad pakeitimai nepaliestų per daug failų, Opus 4.7 mažesnis „pėdsakas" gali būti privalumas.

Tyrėjas siūlo ir praktinį sprendimą: gegužę penkiems projektams nemokamai paleisti savo vertinimo įrankį Stet ant jų pačių repozitorijų. Geriausias testas – tai testas ant jūsų kodo.

Ponas Obuolys sako:
Myliu tokius tyrimus. Ne todėl, kad duoda galutinį atsakymą, o todėl, kad teisingai suformuluoja klausimą. Visi nori žinoti, kuris AI geriausias kodavimui. Bet tai tas pats, kas klausti, kuris peilis geriausias virtuvėje – priklauso, ar pjausti duoną, ar filė.
Opus 4.7 rašo mažiau kodo. Kai kuriems tai – minimalizmas. Kai kuriems – nebaigtas darbas. GPT-5.5 baigia darbą plačiau, greičiau ir dažniau išlaiko peržiūrą. Tačiau jei komanda vertina minimalistinius pakeitimus ir turi griežtą peržiūros kultūrą, Opus mažesni pakeitimai gali būti lengviau peržiūrimi nei didelis GPT-5.5 blokas.
Šiame tyrime man labiausiai patinka vienas dalykas: jis primena, kad testų praėjimas yra tik pradžia. Lietuvos IT komandos, šiandien ieškančios tinkamo agento, turėtų sau užduoti tyrėjo klausimą: „Koks pakeitimas atitinka tai, kaip mano komanda priima kodą?" Jei nežinote atsakymo – pradėkite nuo to, o ne nuo to, kuris modelis laimėjo kitų žmonių atliktą testą.

Šaltiniai: r/LocalLLaMA originalus tyrimo įrašas (autorius viešai nenurodytas), „SWE-bench" metodologijos aprašymas (swebench.com).

Testai praeina. Peržiūra atmesta. Kuris AI kodas išgyvena abu?

Testavimas ir realybė – du skirtingi dalykai

GPT-5.5 dominuoja ten, kur skaičiuoja

Mažas pakeitimas nėra tas pats, kas minimalus

Modelis ir įrankis yra neatsiejami

Ką tai reiškia praktiškai

Temos

Susijusios naujienos

AI Kursai