Veľké porovnanie najznámejších modelov AI odhalilo všetko: Vieme, či je lepší ChatGPT alebo Gemini

Google Gemini síce ukázal, že jeho odpovede sú aktuálne a ľahko zrozumiteľné, chýbali však zdroje na podporu svojich tvrdení, ktoré uviedol iba v 2 z 11 odpovedí (18 %). Bol to jediný nástroj, ktorý v štúdii nedokázal odpovedať na 2 z otázok.

SearchGPT zvyčajne uvádzal spoľahlivé zdroje, všetky s odkazmi na ďalšie čítanie. Dosiahol najnižšie skóre v jasnosti (2,9 zo 4), hoci je väčšina jeho odpovedí stále dobre štruktúrovaná a ľahko zrozumiteľná.

Gemini Deep Research ponúkol relevantné informácie s viacerými dôveryhodnými zdrojmi. Na rozdiel od väčšiny ostatných nástrojov AI poskytol v 80 % svojich odpovedí rôzne perspektívy a protichodné názory, čo z neho vytvorilo celkovo najlepší nástroj AI na vykonávanie výskumu, pokiaľ nie je politický.

DeepSeek a Qwen 2.5 Max poskytli dôkladné a jasné odpovede, ale ani jeden z nich neposkytol žiadne zdroje ani referencie. V analýze boli zhodnotené ako nespoľahlivý nástroj pre vykonávanie výskumu.

Mohla sa situácia zmeniť?

Svet umelej inteligencie napreduje šialeným tempom, a preto je nutné zvážiť, že developeri mohli predbehnúť dokonca aj novembrový výskum.

Od novembra predstavila spoločnosť OpenAI novú generáciu svojich modelov, označenú GPT-5.2, pričom sa zamerala na elimináciu chýb, vyššiu spoľahlivosť pri komplexných firemných úlohách a lepšiu integráciu nástrojov. Nové verzie predstavili aj ďalší hráči – Google vydal Gemini 3 a Anthropic prišiel s Claude Opus 4.5.

Portál RD World Online zverejnil porovnanie aktualizovaných modelov AI na základe tzv. benchmarkov – teda štandardizovaných testov, ktoré hodnotia výkon, schopnosti a spoľahlivosť jednotlivých modelov v porovnaní s konkurenciou. Skončilo to takto.

GPT-5.2 vynikol najmä v teste ARC-AGI-2, ktorý hodnotí skutočnú schopnosť uvažovania a odolnosť modelov voči memorovaniu. Dosiahol výsledky 52,9 % (Thinking) a 54,2 % (Pro), čo výrazne prekonalo Claude Opus 4.5 (37,6 %) aj Gemini 3 Deep Think (45,1 %).

Obdivuhodné boli aj jeho výsledky v skúške AIME 2025, zameranej na pokročilé matematické uvažovanie. GPT-5.2 dosiahol takmer dokonalé skóre 100 %, zatiaľ čo Gemini 3 Pro dokázal rovnaký výkon len s povoleným vykonávaním kódu. V teste GPQA Diamond, ktorý meria vedecké znalosti na úrovni postgraduálneho štúdia, dosiahol GPT-5.2 Pro 93,2 %, takmer rovnaké skóre ako 93,8 % Gemini Deep Think.

Spoločnosť OpenAI zvážila aj nový benchmark s názvom GDPval.

GDPval meria výkonnosť modelu v „dobre špecifikovaných úlohách v oblasti vedomostí“ v 44 profesiách. Benchmark vytvára samotná spoločnosť, pričom neprechádza nezávislým overovaním.

Podľa OpenAI model GPT-5.2 Thinking v 70,9 % prípadov prekonáva alebo sa vyrovnáva profesionálom v danom odvetví, a to pri 11-násobnej rýchlosti oproti ľudskému riešeniu.

Claude Opus 4.5 znovu vynikol v SWE-bench Verified, štandardizovanom teste hodnotiacom, ako dobre si AI poradí s reálnymi úlohami softvérového inžinierstva. Dosiahol 80,8 %, pričom portál upozorňuje, že prvé výsledky môžu byť ešte trochu nestabilné. Pre porovnanie, GPT-5.2 získal 80,0 %.

Claude Opus 4.5 viedol aj v teste Terminal-bench 2.0, ktorý skúma, či AI dokáže samostatne pracovať v kódovaní z príkazového riadku. V ňom dosiahol skóre 59,3 %.

Gemini 3 Deep Think si udržal najvyššie skóre v teste Humanity’s Last Exam, náročnej skúške hodnotiacej schopnosť modelu naozaj uvažovať. Dosiahol 41,0 %.

Navyše model spoločnosti Google získal zlatú medailu na Medzinárodnej matematickej olympiáde a vo svetovom finále vysokoškolskej programovacej súťaže, čo potvrdzuje jeho silu v matematickom uvažovaní na súťažnej úrovni. Najbližším ekvivalentom Deep Think-u bol režim Pro od OpenAI, ktorý často vyžaduje až polhodinu na premýšľanie pred odpoveďou.

Čo si z toho máme odniesť?

Rozdiely medzi modelmi umelej inteligencie dnes už hodnotíme najmä na základe ich povahy.

Namiesto otázky, ktorý z nich je najmúdrejší či najspoľahlivejší, je dôležité vedieť, ktorý model je najvhodnejší pre vašu profesiu a ktorý dokáže zvládať reálnu prácu v prostredí, v ktorom sa pohybujete.

Claude Opus 4.5 vyniká v softvérovom inžinierstve a kódovaní, Gemini 3 Deep Think v hlbinnom uvažovaní a GPT-5.2 boduje výkonom, rýchlosťou a šírkou využitia.

Profesor Roman Barták, český renomovaný expert na AI, prezrádza: „Systém nemyslí a nerozumie tomu, čo píše. Jednoducho povedané, tieto systémy generujú najpravdepodobnejšie možné slovo na základe predchádzajúcich slov (vrátane otázok). Nerobia žiadne odvodzovanie, nemajú konkrétny cieľ. To, čo hovoria, nie je nutne pravda, je to jednoducho pravdepodobnostné opakovanie toho, čo už ‘niekde videli’. Áno, môže to vyzerať rozumne, ale ako píšete, je nutné odpoveď kriticky zhodnotiť a nedá sa ju automaticky prijať, pretože systém nemá žiadnu garanciu správnosti či vhodnosti odpovede.“

Pre ľudí tak zostávajú naďalej predovšetkým nástrojmi. Dnes dokážu veci, ktoré by boli ešte pred pár rokmi nemysliteľné, no stále si vyžadujú ľudskú kontrolu a úsudok. Nemôžu a nemajú byť autoritou.

V tomto porovnaní sme preto zhrnuli, v čom jednotlivé modely napredujú najviac, ktoré sa ukázali ako najspoľahlivejšie a na ktoré z nich sa môžete obrátiť vo vlastnej oblasti záujmu.

Pozri aj:

Nechala som umelú inteligenciu, nech o mne vie všetko. Prezradila mi najtajnejšie túžby, obavy a…

Najnovšie články

pred 12 minútami

Mohla sa situácia zmeniť?

Čo si z toho máme odniesť?

Najnovšie články

Slovenské mesto príde o vyše milióna eur: Stojí za tým banálna chyba magistrátu

Diváci a filmoví kritici chvália scenár, humor a herecké výkony. Seriálu udelili vysoké hodnotenie

Babička jej dala facku, vnučka ju dobodala: S vraždou starých rodičov pomáhal 16-ročnej priateľ

Ide proti prúdu. Jasmina Alagič búra mýtus o žiarlivosti názorom, ktorý sa mnohým nebude páčiť

Situácia na fronte je najlepšia za posledných 10 mesiacov. Zelenskyj preto očakáva tvrdšie útoky Ruska

Hitler ňou bol posadnutý, nájdete ju hneď za hranicami Slovenska. Kopija osudu, ktorou bodli Ježiša, má mať obrovskú moc

Spíte na zlate: Ceny bytov sa za 10 rokov zdvojnásobili, podľa expertky rozhoduje stav

Firma Putinovej dcéry zarobila takmer 2,5 milióna eur. Uniknuté údaje ukazujú zákulisie jej podnikania

Vedci urobili prelomový objav: Po 225 rokoch našli vrak lode Dannebroge z čias napoleonských vojen

Hneď hoďte fľašu pod posteľ: Keď prídete do hotela, mali by ste vyskúšať trik od skúsenej letušky

Do Európy mieri leto: Veľká noc prekvapí aj Slovákov, všetko sa však rýchlo zmení

Mladí ľudia majú na Slovensku problém. Prácu si hľadajú čoraz ťažšie, podmienky sú opäť tvrdšie

Astronauti už mieria k mesiacu. Loď Orion vykonala úspešne kľúčový manéver, vymanila sa z obežnej dráhy Zeme

Klincami preťali zápästia, odrezali jazyk, lámali nohy: Ukrižovanie je najbolestivejšia smrť, zabilo aj Ježiša Krista

Najnešťastnejšia „výherkyňa“: Žena vyhrala 43 miliónov, peniaze jej odmietli vyplatiť, ponúkli jej večeru zadarmo

Odomknúť článok

kamošovi

Odomknúť článok

kamošovi

Mohla sa situácia zmeniť?

Čo si z toho máme odniesť?

Najnovšie články

Slovenské mesto príde o vyše milióna eur: Stojí za tým banálna chyba magistrátu

Diváci a filmoví kritici chvália scenár, humor a herecké výkony. Seriálu udelili vysoké hodnotenie

Babička jej dala facku, vnučka ju dobodala: S vraždou starých rodičov pomáhal 16-ročnej priateľ

Ide proti prúdu. Jasmina Alagič búra mýtus o žiarlivosti názorom, ktorý sa mnohým nebude páčiť

Situácia na fronte je najlepšia za posledných 10 mesiacov. Zelenskyj preto očakáva tvrdšie útoky Ruska

Hitler ňou bol posadnutý, nájdete ju hneď za hranicami Slovenska. Kopija osudu, ktorou bodli Ježiša, má mať obrovskú moc

Spíte na zlate: Ceny bytov sa za 10 rokov zdvojnásobili, podľa expertky rozhoduje stav

Firma Putinovej dcéry zarobila takmer 2,5 milióna eur. Uniknuté údaje ukazujú zákulisie jej podnikania

Vedci urobili prelomový objav: Po 225 rokoch našli vrak lode Dannebroge z čias napoleonských vojen

Hneď hoďte fľašu pod posteľ: Keď prídete do hotela, mali by ste vyskúšať trik od skúsenej letušky

Do Európy mieri leto: Veľká noc prekvapí aj Slovákov, všetko sa však rýchlo zmení

Mladí ľudia majú na Slovensku problém. Prácu si hľadajú čoraz ťažšie, podmienky sú opäť tvrdšie

Astronauti už mieria k mesiacu. Loď Orion vykonala úspešne kľúčový manéver, vymanila sa z obežnej dráhy Zeme

Klincami preťali zápästia, odrezali jazyk, lámali nohy: Ukrižovanie je najbolestivejšia smrť, zabilo aj Ježiša Krista

Najnešťastnejšia „výherkyňa“: Žena vyhrala 43 miliónov, peniaze jej odmietli vyplatiť, ponúkli jej večeru zadarmo

Odomknúť článok

kamošovi

Odomknúť článok

kamošovi

Blahoželáme, máš prémiových kamošov!

Zakúpené články