Google Gemini síce ukázal, že jeho odpovede sú aktuálne a ľahko zrozumiteľné, chýbali však zdroje na podporu svojich tvrdení, ktoré uviedol iba v 2 z 11 odpovedí (18 %). Bol to jediný nástroj, ktorý v štúdii nedokázal odpovedať na 2 z otázok.
SearchGPT zvyčajne uvádzal spoľahlivé zdroje, všetky s odkazmi na ďalšie čítanie. Dosiahol najnižšie skóre v jasnosti (2,9 zo 4), hoci je väčšina jeho odpovedí stále dobre štruktúrovaná a ľahko zrozumiteľná.
Gemini Deep Research ponúkol relevantné informácie s viacerými dôveryhodnými zdrojmi. Na rozdiel od väčšiny ostatných nástrojov AI poskytol v 80 % svojich odpovedí rôzne perspektívy a protichodné názory, čo z neho vytvorilo celkovo najlepší nástroj AI na vykonávanie výskumu, pokiaľ nie je politický.
DeepSeek a Qwen 2.5 Max poskytli dôkladné a jasné odpovede, ale ani jeden z nich neposkytol žiadne zdroje ani referencie. V analýze boli zhodnotené ako nespoľahlivý nástroj pre vykonávanie výskumu.
Mohla sa situácia zmeniť?
Svet umelej inteligencie napreduje šialeným tempom, a preto je nutné zvážiť, že developeri mohli predbehnúť dokonca aj novembrový výskum.
Od novembra predstavila spoločnosť OpenAI novú generáciu svojich modelov, označenú GPT-5.2, pričom sa zamerala na elimináciu chýb, vyššiu spoľahlivosť pri komplexných firemných úlohách a lepšiu integráciu nástrojov. Nové verzie predstavili aj ďalší hráči – Google vydal Gemini 3 a Anthropic prišiel s Claude Opus 4.5.
Portál RD World Online zverejnil porovnanie aktualizovaných modelov AI na základe tzv. benchmarkov – teda štandardizovaných testov, ktoré hodnotia výkon, schopnosti a spoľahlivosť jednotlivých modelov v porovnaní s konkurenciou. Skončilo to takto.

GPT-5.2 vynikol najmä v teste ARC-AGI-2, ktorý hodnotí skutočnú schopnosť uvažovania a odolnosť modelov voči memorovaniu. Dosiahol výsledky 52,9 % (Thinking) a 54,2 % (Pro), čo výrazne prekonalo Claude Opus 4.5 (37,6 %) aj Gemini 3 Deep Think (45,1 %).
Obdivuhodné boli aj jeho výsledky v skúške AIME 2025, zameranej na pokročilé matematické uvažovanie. GPT-5.2 dosiahol takmer dokonalé skóre 100 %, zatiaľ čo Gemini 3 Pro dokázal rovnaký výkon len s povoleným vykonávaním kódu. V teste GPQA Diamond, ktorý meria vedecké znalosti na úrovni postgraduálneho štúdia, dosiahol GPT-5.2 Pro 93,2 %, takmer rovnaké skóre ako 93,8 % Gemini Deep Think.
Spoločnosť OpenAI zvážila aj nový benchmark s názvom GDPval.
Podľa OpenAI model GPT-5.2 Thinking v 70,9 % prípadov prekonáva alebo sa vyrovnáva profesionálom v danom odvetví, a to pri 11-násobnej rýchlosti oproti ľudskému riešeniu.
Claude Opus 4.5 znovu vynikol v SWE-bench Verified, štandardizovanom teste hodnotiacom, ako dobre si AI poradí s reálnymi úlohami softvérového inžinierstva. Dosiahol 80,8 %, pričom portál upozorňuje, že prvé výsledky môžu byť ešte trochu nestabilné. Pre porovnanie, GPT-5.2 získal 80,0 %.
Claude Opus 4.5 viedol aj v teste Terminal-bench 2.0, ktorý skúma, či AI dokáže samostatne pracovať v kódovaní z príkazového riadku. V ňom dosiahol skóre 59,3 %.
Gemini 3 Deep Think si udržal najvyššie skóre v teste Humanity’s Last Exam, náročnej skúške hodnotiacej schopnosť modelu naozaj uvažovať. Dosiahol 41,0 %.
Navyše model spoločnosti Google získal zlatú medailu na Medzinárodnej matematickej olympiáde a vo svetovom finále vysokoškolskej programovacej súťaže, čo potvrdzuje jeho silu v matematickom uvažovaní na súťažnej úrovni. Najbližším ekvivalentom Deep Think-u bol režim Pro od OpenAI, ktorý často vyžaduje až polhodinu na premýšľanie pred odpoveďou.
Čo si z toho máme odniesť?
Rozdiely medzi modelmi umelej inteligencie dnes už hodnotíme najmä na základe ich povahy.
Namiesto otázky, ktorý z nich je najmúdrejší či najspoľahlivejší, je dôležité vedieť, ktorý model je najvhodnejší pre vašu profesiu a ktorý dokáže zvládať reálnu prácu v prostredí, v ktorom sa pohybujete.

Claude Opus 4.5 vyniká v softvérovom inžinierstve a kódovaní, Gemini 3 Deep Think v hlbinnom uvažovaní a GPT-5.2 boduje výkonom, rýchlosťou a šírkou využitia.
Pre ľudí tak zostávajú naďalej predovšetkým nástrojmi. Dnes dokážu veci, ktoré by boli ešte pred pár rokmi nemysliteľné, no stále si vyžadujú ľudskú kontrolu a úsudok. Nemôžu a nemajú byť autoritou.
V tomto porovnaní sme preto zhrnuli, v čom jednotlivé modely napredujú najviac, ktoré sa ukázali ako najspoľahlivejšie a na ktoré z nich sa môžete obrátiť vo vlastnej oblasti záujmu.
Bola som na Hyroxe: Za 88 minút som zaplatila stovky eur. Je to jeden z najlepších zážitkov môjho života
Patrik a Gabriela predali byt na Slovensku a kúpili dom na Madeire: Je tu krásne, v nájme nám ale lezú šváby
Budete mať s nimi dokonalého Valentína: 10 skvelých romantických filmov, ktoré si užijú ženy aj muži
Brutálna mučiaca technika, ktorá fyzicky neublížila: Nahej obeti v plienke odopierali spánok aj 180 hodín
Prezidentský palác zverejňuje informácie o zamestnancoch: Nie je to dobrý nápad, hovorí bezpečnostný analytik
Slovensko je hladné po diskontoch, do apríla pribudnú ďalšie štyri predajne. Šéfa Woolworthu náš trh neprekvapil
Marek cestuje po svete na motorke: V mnohých moslimských krajinách žijú skvelí ľudia. V Iraku sme nemuseli minúť ani cent











Nahlásiť chybu v článku