Spoločnosť OpenEvidence, ktorej hodnota sa odhaduje na 425 miliónov dolárov, sa zaoberá jednou z najväčších inžinierskych výziev v oblasti umelej inteligencie – veľkými jazykovými modelmi, ktoré sa zasekli v minulosti.
Neustály vývoj
Jedným z obmedzení veľkých jazykových modelov je, že ich „tréning“ je zaseknutý v čase. Ak sa virálneho chatbota ChatGPT od spoločnosti OpenAI opýtate, či vakcíny proti covidu fungujú na najbežnejší variant roku 2023, odpovie vám: „Ako jazykový model umelej inteligencie nemám prístup k údajom alebo informáciám v reálnom čase po mojej poslednej aktualizácii v septembri 2021.“
Odvtedy sa toho zmenilo nesmierne veľa. Existujú nové kmene ochorenia, nové vakcíny, lieky a desiatky tisíc nových vedeckých štúdií. Na to, aby boli chatboti užitoční v lekárskom prostredí, budú potrebovať prístup k najnovším výskumom. Daniel Nadler, vyzbrojený kapitálom vo výške 32 miliónov dolárov, takmer desiatkou zamestnancov s doktorátmi (alebo kandidátmi na doktorát) a superpočítačom v nevadskej púšti, sa so svojím novým startupom OpenEvidence snaží tento problém vyriešiť.
Neustále preškoľovanie modelov si vyžaduje obrovské množstvo nákladného výpočtového výkonu. Existuje však aj iná možnosť. Je to technická a inžinierska výzva, ktorá podľa Nadlera zahŕňa „spojenie týchto jazykových modelov s obrovským množstvom klinických dokumentov v reálnom čase“. V podstate ide o poskytnutie prístupu umelej inteligencii k novým údajom tesne predtým, ako odpovie na otázku – proces, ktorý informatici nazývajú „generovanie s rozšíreným vyhľadávaním“. Ak chatbotovi spoločnosti OpenEvidence položíte otázku o vakcínach a novom variante ochorenia covid, jeho odpoveď znie: „Konkrétne štúdie o tomto variante sú obmedzené“. Chatbot však zahrnie informácie zo štúdií uverejnených vo februári a máji 2023 s citáciami. Hlavný rozdiel je v tom, že Nadlerov model „dokáže sprostredkovať priamu odpoveď“.
Od bankovníctva k medicíne
Toto nie je po prvýkrát, čo Nadler zakladá AI startup. V roku 2018 predal svoju predchádzajúcu spoločnosť Kensho Technologies spoločnosti S&P Global za 550 miliónov dolárov (plus 150 miliónov dolárov v akciách). Kensho je nástroj umelej inteligencie pre obchodníkov na Wall Street, ktorý analyzuje milióny trhových údajov s cieľom pomôcť identifikovať arbitrážne príležitosti.
Počas pandémie, keď sa počet vedeckých štúdií o covide v priebehu niekoľkých mesiacov zvýšil z nuly na desaťtisíce, si Nadler všimol, že poskytovatelia zdravotnej starostlivosti čelia podobnému problému ako obchodníci: ako oddeliť použiteľné a dôveryhodné informácie od informačného smogu. Čoskoro zistil, že to neplatí len pre štúdie o covide, ale pre oblasť medicíny všeobecne, keďže každú minútu sú publikované približne dve vedecké práce. „Základ problému bol rovnaký,“ hovorí Nadler. „Preťaženie informáciami, potreba ich triediť a potreba používať na to počítače.“
Podľa údajov spoločnosti PitchBook investori rizikového kapitálu vložili za posledných desať rokov do amerických startupov zameraných na umelú inteligenciu a strojové učenie v oblasti zdravotníctva viac ako 46 miliárd dolárov. Investície dosiahli vrchol v roku 2021 na úrovni 13,4 miliardy dolárov a v roku 2022 klesli na 10,3 miliardy dolárov. V tomto roku startupy zatiaľ získali tri miliardy dolárov v rámci 205 transakcií.
Sľubné začiatky
Nadler založil spoločnosť OpenEvidence v novembri 2021. Po investovaní piatich miliónov dolárov z vlastných zdrojov, v júli 2022 uzavrel kolo financovania Série B od externých investorov vo výške 27 miliónov dolárov, čo hodnotu OpenEvidence vynieslo na 425 miliónov dolárov. Toto kolo otvoril bývalým investorom spoločnosti Kensho, medzi ktorými boli miliardár a investor rizikového kapitálu Jim Breyer, spoluzakladateľ spoločnosti Vista Equity Partners Brian Sheth a investičný bankár Ken Moelis. V marci bola spoločnosť OpenEvidence vybraná do akcelerátora Mayo Clinic Platform. Odvtedy sa podľa Nadlera viac ako 10-tisíc lekárov prihlásilo na skorý prístup, čo ho teraz núti vystúpiť z utajenia.
Nadler hovorí, že OpenEvidence sa snaží prekonať veľkú databázu UpToDate od globálnej dátovej spoločnosti Wolters Kluwer so sídlom v Holandsku. Aktuálne ju používajú dva milióny zdravotníckych pracovníkov na celom svete. Klinické riešenia v zdravotníckej divízii spoločnosti Wolters Kluwer, do ktorej patrí aj UpToDate, dosiahli v roku 2022 tržby vo výške viac ako 900 miliónov dolárov. Podľa Suzanne Moran, hovorkyne spoločnosti Wolters Kluwer, sa UpToDate spolieha na viac ako sedmtisíc expertov, ktorí píšu a upravujú záznamy týkajúce sa lekárskych tém. „Témy v UpToDate sa revidujú, keď sa uverejnia nové dôležité informácie,“ uviedla Moran vo vyhlásení. Redaktori preverujú viac ako 420 recenzovaných časopisov.
Interaktívny nástroj
Nadler vidí výhodu umelej inteligencie oproti záznamom upravených človekom v tom, že OpenEvidence je interaktívny nástroj a nie statická stránka s textom. To znamená, že používatelia môžu prispôsobiť svoje otázky presným scenárom pacienta a pýtať sa na ďalšie kroky namiesto toho, aby museli čítať obrovské množstvo textu. Dokáže taktiež skenovať desiatky tisíc časopisov namiesto stoviek. Súbor dokumentov, z ktorých OpenEvidence získava informácie, obsahuje viac ako 35 miliónov článkov z časopisov. Nadler hovorí, že niekoľkokrát denne prechádza Národnú lekársku knižnicu, ktorá obsahuje viac ako 31-tisíc recenzovaných časopisov. Tvrdí, že spracovanie nových článkov z časopisov a ich zaradenie do súboru vyhľadávaných informácií trvá približne 24 hodín.
Všetky tieto údaje však predstavujú pre Nadlerove ciele jednu potenciálnu prekážku: nie všetky články v časopisoch sú rovnaké, pokiaľ ide o kvalitu toho, čo publikujú. Vedecká komunita má systém hodnotenia známy ako impakt faktor, čo znamená, že častejšie citované časopisy sú relatívne dôležitejšie v porovnaní s časopismi s menším počtom citácií. Modely OpenEvidence túto skutočnosť zohľadňuje pri získavaní informácií z fondu nových článkov v časopisoch. „Dostávate odpovede s dôkladnou váhou,“ hovorí Nadler. Znamená to, že pri vyhľadávaní sa prihliada na „kvalita vstupného zdroja“.
Každý veľký jazykový model sa správa inak. Ale všeobecná myšlienka je, že odpovede zostavuje predpovedaním ďalšieho najpravdepodobnejšieho slova vo vete. Modely sa zvyknú mýliť ak je „veľa rôznych doplnení rovnako pravdepodobných“, hovorí Uri Alon, postdoktorandský výskumník na Inštitúte jazykových technológií na Carnegie Mellon University, ktorý nie je spojený s OpenEvidence.
Fakty verzus halucinácie
Ak vezmete model, ktorý bol vycvičený na internete a opýtate sa ho na slávnu osobnosť, je pravdepodobné, že poskytne správne životopisné informácie. Ak sa ho však opýtate na bežnú osobu, o ktorej nemá tréningové údaje, môže vygenerovať nesprávnu odpoveď – známu ako „halucinácia“. Ak by ste teraz modelu poskytli súbor informácií vrátane biografických údajov tejto osoby, bolo by oveľa pravdepodobnejšie, že by ich získal správne. „Niektoré prístupy umožňujú nielen vygenerovať odpoveď v súlade s dokumentmi, ktoré získate,“ hovorí Alon, „ale aj vytiahnuť presnú vetu alebo presný odsek, ktorý odkazuje na danú informáciu.“
Tento prístup využíva spoločnosť OpenEvidence, ktorá poskytuje citácie článkov z časopisov, z ktorých čerpá. Alon však upozorňuje, že hoci systémy s rozšíreným vyhľadávaním môžu pomôcť znížiť počet halucinácií, nič nie je neomylné. Tieto modely budú vždy robiť chyby, rovnako ako ľudia. „Ak by ste dali človeku niekoľko dokumentov alebo odsekov, nechali ho prečítať si ich, potom odpovedať na otázky a ak by ste ho požiadali, aby vám povedal, odkiaľ z týchto dokumentov pochádza jeho odpoveď – aj ľudia by sa pomýlili,“ objasňuje.
Pomôcka pre lekárov
V súčasnosti je OpenEvidence bezplatný pre prvých používateľov, ktorí sú licencovanými zdravotníckymi pracovníkmi. Čiastočným dôvodom je množstvo výpočtového výkonu a nákladov potrebných na spustenie dotazov. Antonio Forte, profesor plastickej chirurgie na Mayo Clinic a člen lekárskeho poradného výboru OpenEvidence, hovorí, že pravidelne používa UpToDate. Dodáva, že najväčším rozdielom pri používaní OpenEvidence za posledných niekoľko týždňov je úspora času. Namiesto toho, aby musel prečítať ekvivalent kapitoly knihy, môže získať odpoveď „do 30 sekúnd, nie do 10 minút.“
Podobnú reakciu ako Forte budú mať snáď aj ďalší zdravotnícki pracovníci. Nadler hovorí, že sa ešte nerozhodol pre model príjmov. Rozhoduje sa medzi predplatným a reklamou, ale prikláňa sa k hybridnému modelu, teda k modelu založenému na reklame s predplatným. Jedno je však isté. OpenEvidence sa nestane chatbotom pre bežného pacienta. „To nie je technický problém. Je to regulačný a etický problém,“ hovorí Nadler. Chce preto vytvoriť nástroj, ktorý pomôže lekárom a sestrám, no stále sa budú spoliehať na svoj ľudský úsudok. „Existuje veľmi pevná hranica akejkoľvek mysliteľnej škody, ktorá by mohla vzniknúť použitím technológie pre pacienta, pretože ju vždy sprostredkúva profesionál.“
Článok vyšiel na Forbes.com. Jeho autorkou je Katie Jennings.