OpenAI je nezisková výskumná organizácia v oblasti umelej inteligencie, ktorej spin-offy a produkty budú pravdepodobne patriť medzi najziskovejšie subjekty sveta. V marci vydala GPT-4, novú generáciu svojho jazykového modelu, na ktorom stojí napríklad preslávený textový generátor ChatGPT či nová verzia vyhľadávača Bing.
GPT je skratka pre Generative Pre-trained Transformer. A Transformer je názov algoritmu v srdci tohto modelu. Pre-trained odkazuje na vzdelanie modelu pomocou masívneho množstva textu, ktorý ho učí základné vzorce a vzťahy jazyka – skrátka ho učí rozumieť svetu.
Generatívny znamená, že umelá inteligencia môže z tejto bázy znalostí vytvárať nové texty a myšlienky, cez ktoré potom odborná verejnosť (a nielen ona) posudzuje, aký „múdry“ je daný model.
Dosiahol ľudskú výkonnosť
Jeho najnovšiu generáciu vyhodnotila OpenAI na základe simulácií skúšok určených ľuďom: napríklad Uniform Bar Examination a LSAT pre právnikov. GPT-4 môže zložiť advokátsku skúšku v deväťdesiatom percentile, zatiaľ čo predchádzajúci model sa stretával s problémami v desiatom percentile.
V pokročilom teste someliérskej teórie si štvrtá generácia počínala dokonca lepšie než sedemdesiatsedem percent účastníkov. Prešiel skúškami Introductory Sommelier, Certified Sommelier a Advanced Sommelier v príslušných pomeroch deväťdesiatdva, osemdesiatšesť a sedemdesiatsedem percent. To sú ohromujúce výsledky – nielen s ohľadom na výstupy, ale aj na rýchle tempo pokroku.
Vzhľadom na to, že mnoho existujúcich benchmarkov v oblasti strojového učenia je v angličtine, preložila OpenAI benchmark MMLU, sadu 14 000 problémov s výberom z 55 predmetov, do rôznych jazykov. Výsledky boli rovnako pôsobivé: prekonali anglický výkon GPT-3.5 a ďalšie veľké jazykové modely (Large Language Models, LLM) vo väčšine jazykov – vrátane tých s malým množstvom zdrojov typu lotyštiny či svahilčiny.
Skrátka ukázalo sa, že GPT-4 dosiahol ľudskú výkonnosť v rôznych profesionálnych a akademických meradlách. A v sade tradičných odborových benchmarkov prekonáva predchádzajúce LLM a tiež väčšinu najmodernejších systémov.
Klásť tie správne otázky
Aký záver si z toho logicky odvodiť? Jeden vidím hneď: skúšky ako spôsob merania znalostí sú oficiálne zastarané. V žiadnom prípade tým nechcem povedať, že môžeme prestať s výučbou tvrdých zručností na školách, práve naopak – je čas ich obohatiť o otvorené a tvorivé spôsoby nielen výučby, ale aj hodnotenie pokroku.
V mnohých predmetoch vrátane matematiky existuje množstvo úžasných interaktívnych kurikulárnych obohatení, ale ak je konečný výsledok meraný testom s výberom z viacerých možností, nie je to trochu nevyvážené?
Zručnosti našej budúcnosti už nie sú spojené iba s memorovaním faktov, vytváraním obsahu, či dokonca učením jazykov. Zručnosti, ktoré nám zaistia relevanciu a zbavia nás strachu z nástupu nových technológií, sa najnovšie točia okolo schopností klásť správne otázky a kriticky myslieť.
Inšpirovať sa vo vzdelávaní
OpenAI začala iniciatívu OpenAIEvals, referenčný rámec pre hodnotenie veľkých jazykových modelov, a ja si myslím, že by sme sa týmto prístupom mohli inšpirovať aj všeobecne vo vzdelávacom sektore.
Skutočný multidisciplinárny prístup a inšpirácia si však vyžadujú otvorenosť a výmenu myšlienok. To však v prípade umelej inteligencie zaberie čas, pretože OpenAI vo svojej takmer stostránkovej sprievodnej dokumentácii hrdo nezverejnila nič o trénovacej sade pre GPT-4.
Newyorský profesor Gary Marcus fenomén označil za „nový precedens pre predstieranie, že zdieľanie má vedecký základ, pretože nevieme, aký je model veľký, aká je jeho architektúra, ani koľko energie bolo spotrebovanej a na čom bol trénovaný“.
Čo však vieme určite, je skutočnosť, že GPT-4, rovnako ako všetky veľké jazykové modely umelej inteligencie, robí chyby – takzvané halucinácie.
Halucinácie sa nevyhýbajú experimentálnemu chatbotovi Bard od spoločnosti Google, ani Bingu od spoločnosti Microsoft. Ten napríklad po opýtaní na kľúčové poznatky z finančnej správy spoločnosti Gap prišiel s nesprávne označenými alebo úplne vymyslenými číslami.
Uvažovať, nie memorovať
„Potrebujeme vytvoriť motor uvažovania (v origináli reasoning engine, pozn. red.), nie databázu faktov. Veľké jazykové modely môžu tiež fungovať ako databáza, ale čo od nich skutočne chceme, je bližšie k schopnosti uvažovať, nie memorovať,“ pripomína Sam Altman, šéf OpenAI.
Pre databázu je halucinácia úplným zlyhaním, a pokiaľ uvažovanie definujeme ako získavanie platných záverov zo známych faktov, GPT-4 často zlyháva.
Vzniká akási odborná napodobenina, na základe ktorej čelíme riziku dezinformácií vo veľkom meradle. GPT-4 napodobňuje odbornú odpoveď, no môže obsahovať chyby – dosť možno preto, že jazykové modely sú jednoducho zle vybavené na pravdivosť, vecnosť, spoľahlivosť a nezaujatosť.
GPT-4 všeobecne nemá znalosti o udalostiach, ktoré sa stali po ukončení zberu jej dát, a zo svojich skúseností sa nepoučí. Niekedy sa môže dopustiť jednoduchých úvah alebo faktických chýb, inokedy môže byť príliš dôverčivá voči zjavne nepravdivým vstupom používateľa. A rovnako ako ľudia môže zlyhať napríklad v zavedení bezpečnostných zraniteľností do kódu, ktorý na základe vstupov píše.
Limity zostávajú rovnaké
Google už pred dvoma rokmi dospel k záveru, že nasadenie systému podobného ChatGPT na svoje vyhľadávanie by znamenalo vysoké „reputačné riziko“ a vyššie náklady v prípade, že by sa „niečo pokazilo“, pretože ľudia „musia dôverovať odpovediam, ktoré od nás dostanú“.
Poslednú dekádu pokroku v umelej inteligencii je možné z veľkej časti zhrnúť jedným slovom: škálovanie. Éra hlbokého učenia, ktorá sa začala okolo roku 2010, bola svedkom pokračujúceho nárastu veľkosti najmodernejších modelov.
Jeho urýchlenie v posledných rokoch viedlo mnohých k viere v „hypotézu škálovania umelej inteligencie“. Presadila sa myšlienka, že viac výpočtových zdrojov a tréningových dát je najlepšou cestou k dosiahnutiu dlhodobých cieľov odboru.
Lenže akokoľvek je GPT-4 najobdivuhodnejší výsledok tohto smeru vývoja, k víťazstvu hypotézy o škálovaní neprispieva. Limity spoľahlivosti a interpretovateľnosti zostávajú v podstate rovnaké ako predtým. Vďaka úspechu ChatGPT u verejnosti však odštartovala zásadná fúzia, ku ktorej dochádza medzi dátovými a humanitnými vedami.
Veľký skok a budíček pre ľudstvo
Úspešný prompting, teda formulácia požiadaviek či už pre DALL-E, GPT-3, alebo akýkoľvek obrazový a jazykový model riadený algoritmom, bude vyžadovať nielen inžinierske porozumenie strojovému učeniu. Zrazu sú v hre znalosti dejín umenia, literatúry či knihovníctva.
GPT-4 je obrovským skokom pre komerčné aplikácie umelej inteligencie a veľkým budíčkom pre náš prístup k vzdelávaniu a pracovným zručnostiam. V otázkach výskumu však predstavuje, naopak, skôr krôčik – stavia nás do zlej pozície pre pochopenie a predpovedanie úspechov a neúspechov generatívnej umelej inteligencie, a do ešte horšej ohľadom súvisiacich spoločenských rizík jej širokého prijatia.
Ezra Klein vo svojom článku pre The New York Times napísal, že sa musí stať jedna z dvoch vecí. „Ľudstvo potrebuje urýchliť svoje prispôsobenie sa týmto technológiám, alebo musí byť urobené spoločné, vynútiteľné rozhodnutie, ktoré spomalí ich vývoj. A ani robiť oboje naraz nemusí stačiť.“
Článok vyšiel na Forbes.cz.