Google Gemini síce ukázal, že jeho odpovede sú aktuálne a ľahko zrozumiteľné, chýbali však zdroje na podporu svojich tvrdení, ktoré uviedol iba v 2 z 11 odpovedí (18 %). Bol to jediný nástroj, ktorý v štúdii nedokázal odpovedať na 2 z otázok.
SearchGPT zvyčajne uvádzal spoľahlivé zdroje, všetky s odkazmi na ďalšie čítanie. Dosiahol najnižšie skóre v jasnosti (2,9 zo 4), hoci je väčšina jeho odpovedí stále dobre štruktúrovaná a ľahko zrozumiteľná.
Gemini Deep Research ponúkol relevantné informácie s viacerými dôveryhodnými zdrojmi. Na rozdiel od väčšiny ostatných nástrojov AI poskytol v 80 % svojich odpovedí rôzne perspektívy a protichodné názory, čo z neho vytvorilo celkovo najlepší nástroj AI na vykonávanie výskumu, pokiaľ nie je politický.
DeepSeek a Qwen 2.5 Max poskytli dôkladné a jasné odpovede, ale ani jeden z nich neposkytol žiadne zdroje ani referencie. V analýze boli zhodnotené ako nespoľahlivý nástroj pre vykonávanie výskumu.
Mohla sa situácia zmeniť?
Svet umelej inteligencie napreduje šialeným tempom, a preto je nutné zvážiť, že developeri mohli predbehnúť dokonca aj novembrový výskum.
Od novembra predstavila spoločnosť OpenAI novú generáciu svojich modelov, označenú GPT-5.2, pričom sa zamerala na elimináciu chýb, vyššiu spoľahlivosť pri komplexných firemných úlohách a lepšiu integráciu nástrojov. Nové verzie predstavili aj ďalší hráči – Google vydal Gemini 3 a Anthropic prišiel s Claude Opus 4.5.
Portál RD World Online zverejnil porovnanie aktualizovaných modelov AI na základe tzv. benchmarkov – teda štandardizovaných testov, ktoré hodnotia výkon, schopnosti a spoľahlivosť jednotlivých modelov v porovnaní s konkurenciou. Skončilo to takto.

GPT-5.2 vynikol najmä v teste ARC-AGI-2, ktorý hodnotí skutočnú schopnosť uvažovania a odolnosť modelov voči memorovaniu. Dosiahol výsledky 52,9 % (Thinking) a 54,2 % (Pro), čo výrazne prekonalo Claude Opus 4.5 (37,6 %) aj Gemini 3 Deep Think (45,1 %).
Obdivuhodné boli aj jeho výsledky v skúške AIME 2025, zameranej na pokročilé matematické uvažovanie. GPT-5.2 dosiahol takmer dokonalé skóre 100 %, zatiaľ čo Gemini 3 Pro dokázal rovnaký výkon len s povoleným vykonávaním kódu. V teste GPQA Diamond, ktorý meria vedecké znalosti na úrovni postgraduálneho štúdia, dosiahol GPT-5.2 Pro 93,2 %, takmer rovnaké skóre ako 93,8 % Gemini Deep Think.
Spoločnosť OpenAI zvážila aj nový benchmark s názvom GDPval.
Podľa OpenAI model GPT-5.2 Thinking v 70,9 % prípadov prekonáva alebo sa vyrovnáva profesionálom v danom odvetví, a to pri 11-násobnej rýchlosti oproti ľudskému riešeniu.
Claude Opus 4.5 znovu vynikol v SWE-bench Verified, štandardizovanom teste hodnotiacom, ako dobre si AI poradí s reálnymi úlohami softvérového inžinierstva. Dosiahol 80,8 %, pričom portál upozorňuje, že prvé výsledky môžu byť ešte trochu nestabilné. Pre porovnanie, GPT-5.2 získal 80,0 %.
Claude Opus 4.5 viedol aj v teste Terminal-bench 2.0, ktorý skúma, či AI dokáže samostatne pracovať v kódovaní z príkazového riadku. V ňom dosiahol skóre 59,3 %.
Gemini 3 Deep Think si udržal najvyššie skóre v teste Humanity’s Last Exam, náročnej skúške hodnotiacej schopnosť modelu naozaj uvažovať. Dosiahol 41,0 %.
Navyše model spoločnosti Google získal zlatú medailu na Medzinárodnej matematickej olympiáde a vo svetovom finále vysokoškolskej programovacej súťaže, čo potvrdzuje jeho silu v matematickom uvažovaní na súťažnej úrovni. Najbližším ekvivalentom Deep Think-u bol režim Pro od OpenAI, ktorý často vyžaduje až polhodinu na premýšľanie pred odpoveďou.
Čo si z toho máme odniesť?
Rozdiely medzi modelmi umelej inteligencie dnes už hodnotíme najmä na základe ich povahy.
Namiesto otázky, ktorý z nich je najmúdrejší či najspoľahlivejší, je dôležité vedieť, ktorý model je najvhodnejší pre vašu profesiu a ktorý dokáže zvládať reálnu prácu v prostredí, v ktorom sa pohybujete.

Claude Opus 4.5 vyniká v softvérovom inžinierstve a kódovaní, Gemini 3 Deep Think v hlbinnom uvažovaní a GPT-5.2 boduje výkonom, rýchlosťou a šírkou využitia.
Pre ľudí tak zostávajú naďalej predovšetkým nástrojmi. Dnes dokážu veci, ktoré by boli ešte pred pár rokmi nemysliteľné, no stále si vyžadujú ľudskú kontrolu a úsudok. Nemôžu a nemajú byť autoritou.
V tomto porovnaní sme preto zhrnuli, v čom jednotlivé modely napredujú najviac, ktoré sa ukázali ako najspoľahlivejšie a na ktoré z nich sa môžete obrátiť vo vlastnej oblasti záujmu.
Stratili sme 7 dní voľna: Z 20 dní dovolenky môžete byť v roku 2026 doma 131 dní, vieme, ako ich rozplánovať
Zlatá vaňa v Hanoji, Donatellova busta aj Kotlárova analýza vakcín: Najväčšie udalosti roka 2025 zo Slovenska
Nikdy ste o tom nepočuli: Briti chceli „zabiť“ Hitlera. Vojna skončila, odpálili najväčší nejadrový výbuch v dejinách
Ochutnali sme Plačkovej špecialitu v jej novom bare v horách, bloček nám vybrali z odpadkov. Ponúka šampanské za 800 €
Ako prvá porodila osmorčatá, ktoré prežili, stala sa najnenávidenejšou matkou sveta. Fotila akty, živila sa aj pornom
Ricardo sa prisťahoval na Slovensko. Pri tuneli Višňové sa vystriedalo 12 ministrov, stavať ho začali ešte za Mečiara
Cunami z 26. decembra 2004 v číslach: Vlna sa rútila 800 km/h. Akoby spadlo 23-tisíc hirošimských bômb
Nejedol dva mesiace: Muž uviazol v zasneženom aute. Nikto nechápe, ako prežil, lekári hovoria o zázraku










Nahlásiť chybu v článku