Výsledkom je historicky prvé hodnotenie tohto druhu. Dostalo názov GDPval a spoločnosť skúmala 44 pracovných pozícií v deviatich finančne najvýznamnejších odvetviach v USA. Výskum zahŕňal komplexný zoznam 1320 špecializovaných úloh, ktoré boli „starostlivo vytvorené a overené skúsenými odborníkmi s priemerne viac ako 14-ročnou praxou v daných oblastiach“.
Na rozdiel od tradičných, jednoduchých textových úloh, boli tieto zadania omnoho bližšie reálnemu pracovnému prostrediu. Ako informovala spoločnosť OpenAI, ich súčasťou boli referenčné súbory, širší kontext a očakávané výstupy vrátane príloh, ako sú diagramy, tabuľky, multimediálne súbory či snímky.
Najviac boli porazení pracovníci v obchodnom sektore
Testovanie bolo obmedzené na jednorazové hodnotenia, čo znamená, že nezachytáva prípady, keď model potrebuje viac kontextu, alebo by sa zlepšil po viacerých opakovaniach. Výsledné číselné hodnoty vyjadrujú pravdepodobnosť, s akou model prekonal ľudských zamestnancov pri plnení špecifických pracovných úloh.
Použité boli najvýkonnejšie modely súčasnosti a výsledky odrážajú ich konkurencieschopnosť v konkrétnych pracovných situáciách.
Zohľadnili sa pritom modely GPT-4o, o4-mini, OpenAI o3, GPT-5, Claude Opus 4.1, Gemini 2.5 Pro a Grok 4.
Medzi modelmi vynikol Claude Opus 4.1. Výnimočné schopnosti prejavil najmä v oblasti estetiky – exceloval pri formátovaní dokumentov a rozkladaní slajdov. GPT-5 zasa vynikal presnosťou. Výkon sa viac než zdvojnásobil, keď sa porovnávali výsledky GPT-4o (uvedený na jar 2024) a GPT-5 (uvedený v lete 2025), čo naznačuje lineárny trend rastu výkonu.
Takto vyzerá celý zoznam:
- Predavači v požičovniach a pri pultovom predaji: 81 %
- Manažéri predaja: 79 %
- Skladoví a expediční predavači: 76 %
- Editori: 75 %
- Vývojári softvéru: 70 %
- Súkromní detektívi a vyšetrovatelia: 70 %
- Špecialisti pre dodržiavanie predpisov: 69 %
- Vedúci pracovníkov v predaji mimo maloobchodu: 69 %
- Obchodní zástupcovia, veľkoobchod a výroba, okrem technických a vedeckých produktov: 68 %
- Všeobecní prevádzkoví manažéri: 67 %
- Manažéri zdravotníckych a zdravotných služieb: 65 %
- Nákupcovia a obstarávatelia: 64 %
- Osobní finanční poradcovia: 64 %
- Manažéri administratívnych služieb: 62 %
- Pracovníci zákazníckeho servisu: 59 %
- Vedúci pracovníkov v maloobchodnom predaji: 59 %
- Vedúci pracovníkov vo výrobe a v prevádzke: 58 %
- Zdravotné sestry: 56 %
- Realitní makléri (tzv. brokeri): 54 %
- Reportéri, novinári a spravodajskí analytici: 53 %
- Manažéri počítačových a informačných systémov: 52 %
- Velitelia policajných a detektívnych jednotiek prvej línie: 49 %
- Obchodní zástupcovia, veľkoobchod a výroba, technické a vedecké produkty: 47 %
- Právnici: 46 %
- Špecialisti na projektový manažment: 42 %
- Sociálni pracovníci pre deti, rodiny a školy: 42 %
- Zdravotnícki sekretári a administratívni asistenti: 42 %
- Agenti pre predaj cenných papierov, komodít a finančných služieb: 42 %
- Vedúci pracovníkov prvej línie pre kancelárskych a administratívnych pracovníkov: 41 %
- Analytici finančných investícií: 41 %
- Pracovníci v oblasti voľného času a rekreácie: 37 %
- Zdravotné sestry: 37 %
- Správcovia nehnuteľností a komunitných združení: 34 %
- Finanční manažéri: 32 %
- Producenti a režiséri: 31 %
- Audio a video technici: 30 %
- Recepční: 29 %
- Zamestnanci spracovania objednávok: 28 %
- Realitní makléri: 27 %
- Farmaceuti: 26 %
- Účtovníci a audítori: 24 %
- Strojní inžinieri: 23 %
- Priemyselní inžinieri: 17 %
- Filmoví a video strihači: 17 %
OpenAI však pripomína, že ľudia v týchto profesiách vykonávajú omnoho viac než len rutinné úlohy, ktoré test meral. Zmenám na trhu práce sa pravdepodobne nevyhneme, no ak sa na situáciu pozrieme optimisticky, umelá inteligencia by mohla prevziať opakujúce sa a nezáživné úlohy, čím by ľuďom uvoľnila viac času na kreatívnu prácu a rozhodovanie, ktoré si vyžaduje ľudský úsudok. V takom prípade by mohol tento trend dokonca prispieť k významnému hospodárskemu rastu.
Nahlásiť chybu v článku