Používanie generatívnej umelej inteligencie je lákavé, ale aby bolo aj bezpečné a užitočné, musí mať svoje pravidlá, hovorí člen dozornej rady Soitronu a manažér jeho security centra void SOC Martin Lohnert.
Invázia softvéru s generatívnou umelou inteligenciou, založenou na veľkých jazykových modeloch, do biznisu a každodenného života sa už nezastaví. Firmy aj jednotlivci by sa preto mali poriadne zamyslieť nad tým, na čo sa AI hodí a aké sú jej riziká.
V akej fáze je dnes, 14 mesiacov po uvoľnení ChatGPT pre bežných používateľov, táto rodina softvéru?
Vlani na jeseň sme pripravovali prezentáciu, ktorá zobrazuje vtedy aktuálnu scénu AI nástrojov. Na obrazovku sa nám ich zmestilo asi tisíc, presne sme ich nepočítali. Mnohé tieto nástroje patria veľkým softvérovým firmám, ktoré zákazníkom hovoria, že buď produkujú nejaký AI softvér samé, alebo ho majú zabudovaný vo svojich nástrojoch.
Používanie AI nástrojov v IT svete bez toho, aby si ich firmy aktívne vyberali je dnes už neodvratné, už to nie je konkurenčná výhoda. Nástroj, ktorý používa váš marketér, právnik alebo finančný špecialista, už bude mať v sebe komponenty umelej inteligencie alebo strojového učenia. Prišiel preto okamih, kedy by sme si mali niektoré aspekty poriadne premyslieť.
BIZNIS EVENT, AKÝ TU EŠTE NEBOL
Top ľudia z biznisu a manažmentu na jednom mieste, 4 pódiá, 100+ spíkrov. Top podujatie roka, na ktorom budú všetci a vy nesmiete chýbať… viac informácií už čoskoro.
CHCEM BYŤ NA WAITING LISTE
Aké sú najčastejšie riziká AI?
Známy príklad problému pre AI softvér je obrázok, ktorý vie človek interpretovať úplne triviálne, ale AI nie. Je to mačka, ale fotografia má na sebe napísané na viacerých miestach „pes“. Nakŕmite takýmito obrázkami nejaký program – v tomto prípade Bard od Googlu, nástroj, ktorý pôsobí, že vie veľmi dobre po slovensky – a poviete mu: „Popíš tento obrázok.“
Halucinácia AI
Dozviete sa, že na obrázku je mačka, ktorá sa hrá so psom na zelenej tráve, má hnedú srsť a podobne. Je to dokonalý príklad takzvanej halucinácie umelej inteligencie. Problém je, že takáto odpoveď pôsobí na používateľa veľmi dôveryhodne.
Keby ste ten obrázok nevideli, prečítate si definíciu a viete veľmi pekne nakresliť, čo sa deje. Mačka je menšia ako pes, má čiernu srsť, krátke uši. Pekne opísaná realita, akurát úplne iná ako to, čo vidíme na obrázku.
Mali by sme teda vôbec používať AI softvér na problémy, ktoré by sme nevedeli vyriešiť sami?
Predstavme si, že niekto má zhodnocovať, do akej miery je pravda, čo AI hovorí. Ak nakŕmite takýto softvér 40-stranovou obchodnou zmluvou a chcete, aby vám ju nejako spracoval, už budete oveľa ťažšie overovať, či výsledok sedí alebo nie.
Výstupy chatujúcej AI v praxi často pôsobia, akoby to boli nejaké náhodné nezmysly.
Tie výstupy v skutočnosti nie sú náhodné a navyše platí, že AI nástroje sa celkom rýchlo zlepšujú, keďže sa môžu „učiť”. Ak mu poviete, že opis obrázku je úplne zlý, tak to zoberie do úvahy. Musí však byť na spätnú väzbu nastavený. Spoločnosti, ktoré verejne dostupné nástroje s AI ponúkajú, pochopiteľne, nie veľmi rady hovoria o tom, ako svoje modely trénujú.
Zároveň deklarujú, že užívateľmi vkladané informácie neberú ako dáta, na ktorých sa model učí. Samozrejme, na mieste je otázka, s ako veľmi citlivými dátami sa na to chcete spoľahnúť a či si všimnete, keď sa táto politika zmení. Halucinácie a ich dôsledky sú však len jeden z problémov.
Aké sú ďalšie?
Jednoduchým príkladom je slovná úloha pre šiestakov – máme obrázok a pár vstupných údajov o zvieratách a o tom, koľko majú nôh. Deti majú spočítať, koľko je na lúke koní. Správna odpoveď je osem.
Dali sme toto isté zadanie trom AI nástrojom. Výsledok? Google Bard vypočítal, že na lúke je 25 koní a ešte aj dodal, že „sú splnené všetky podmienky“ a vypísal čosi, čo pôsobí ako skúška správnosti.
Pritom práve tá jasne hovorí, že podmienky splnené nie sú, no výsledok ten softvér prezentuje ako dôveryhodný. Ak by ste z matematiky nevedeli vôbec nič, tak to na vás urobí veľmi silný dojem, pritom je to úplný nezmysel. Bing bol trošku „lepší“, keď vypočítal, že na lúke je 33,33 koňa a aspoň poznamenal, že kone asi musia byť v realite celé číslo.
ChatGPT zase povedal, že problém nemá riešenie: „Na základe informácií v otázke nie je možné získať konkrétny počet koní.“ Všetky tri nástroje zlyhali v riešení triviálneho problému.
Sugestívne odpovede
Pôsobili však sebaisto.
Práve v tomto spočíva dosť veľké nebezpečenstvo. Ak sa nás teda niekto spýta, ako tento typ softvéru používať, naše odporúčanie je rozdeliť používanie vo firme do troch kategórií, a tiež definovať a upraviť podmienky ich používania pre každú z nich inak. V prvej skupine môžete softvér používať bez obmedzení.
Príkladov sa dá nájsť viac: ak budeme robiť prezentáciu a chceme vymyslieť kreatívny názov, na to je AI perfektná. Vygeneruje vám sto nadpisov a vy si len vyberiete. Tu nemáte veľmi čo pokaziť, v najhoršom prípade budete mať zlý titulok.
Na „brainstormingové“ úlohy sa AI zväčša hodí. Príkladom môže byť aj zadanie: „Ako mám postupovať, aby som napísal zaujímavý mail?“ Toto sú príklady, keď AI ničomu nepoškodí.
Zaujímavejšie asi budú také aplikácie, na ktoré sa AI hodí, ale s výhradami, však?
To sú nasadenia, pri ktorých odporúčanie znie – používať áno, ale výstupy by mal posúdiť expert, ktorý vychytá chyby. Príkladom môže byť programovanie. Tieto nástroje doň majú v zásade všetky presah a vedia „poradiť“ kód. Zadaním môže byť analýza, kde popíšete problém a výstupom je napríklad program v Pythone.
Na brainstormingové úlohy sa AI zväčša hodí. Príkladom môže byť aj zadanie: ,Ako mám postupovať, aby som napísal zaujímavý mail?’ To je príklad, keď AI ničomu nepoškodí.
Martin lohnert, soitron
Tu však už ide o dvojsečnú zbraň – v oblasti bezpečnosti napríklad dostupnosť „AI programovania“ znižuje latku znalostí – v problematike sa nemusíte natoľko vyznať, aby ste sa mohli pokúšať technológie zneužiť. Hackerský útok si je dnes jednoduchšie nechať „naprogramovať“, hoci priame zadanie typu „naprogramuj mi útok“ softvéry odmietajú. Ak však viete zadanie sformulovať inak, čiastkový kód dostanete.
AI neurobí z laika experta
Môže byť generatívna AI skratkou pre programátorov?
Ako programátor si môžete uľahčiť život, príspevok tohto typu softvéru k personálnej produktivite je vysoký. V praxi je totiž veľký rozdiel kód iba skontrolovať a vytvoriť ho od nuly. Nemusíte napísať stovky alebo tisícky riadkov kódu, stačí „len“ správne sformulovať zadanie.
Tu už je však veľké nebezpečenstvo, že ako laik nebudete vedieť posúdiť, aké má ten kód zraniteľnosti či iné chyby.
Ako laik viete asi urobiť len jednoduchý test. Spraví to, čo má a dostanem výsledok? Ak si však kód neviete detailne prejsť, v tomto prípade už radíme: „Nepoužívať!“ Iba ak taký kód dokážete vytvoriť aj sami, viete posúdiť výstup AI nástroja.
Do kategórie „používať, ale skontrolovať“, patria napríklad aj spomínané zmluvy z pohľadu štylistiky a bez citlivých údajov. Ak ma nástroj, ktorý reviduje zmluvy, upozorní na chyby, môžem ho použiť, ale len ak mám dostatočné právne povedomie a vedel by som revíziu urobiť aj bez neho.
V takom prípade je to pre mňa užitočný pomocník, ktorý však opäť môže zvádzať k tomu, že sa laik začne považovať za experta. Vďaka tomuto nástroju sa ale žiadnym expertom nestane.
Tretia kategória zrejme bude označená „nepoužívať nikdy“.
Prípadne rovno „vo firme zakázať.“ Tu ide o situácie, keď do nástroja vkladáte citlivý obsah – obchodné tajomstvá, osobné údaje, technické špecifikácie a podobne. Riziko je, že vy autorovi AI nástroja, tretej strane, odovzdávate „na spracovanie“ takýto obsah a nemáte žiadnu kontrolu nad tým, ako s ním bude ďalej nakladať.
Ďalšia veľká téma v tejto oblasti sú autorské práva. Ak si dáte navrhnúť napríklad nové firemné logo, nepôjde o vykradnuté umelecké dielo, na ktoré patria práva niekomu konkrétnemu? Môže nastať aj situácia, že po právnej stránke bude všetko v poriadku, ale výstup bude pôsobiť ako plagiát.
Zakazovať či regulovať?
Ak hovoríme o vašich odporúčaniach – vznikajú už v oblasti aj záväzné predpisy či všeobecne rešpektované „best practices“?
Vznikajú a nepochybne aj ďalej budú. Niektoré firmy, a to aj u nás, už majú svoje politiky a myslím, že sa čoskoro dočkáme odporúčaní aj od štátnych inštitúcií. Nemyslím si však, že sa v dohľadnej dobe dostaneme k regulácii, ako sa AI nástroje vo firmách smú a nesmú používať.
Správnu cestu vidíme v „best practices“, aby organizácie spracovali vlastné politiky, upravené tak, aby nemusel každý zamestnanec sám rozmýšľať, čo je správne a čo nie. Nástrojov je totiž veľmi veľa, ovládajú sa v podstate intuitívne a rizík je takisto veľa. Je v záujme firiem, aby nevytvárali bezpečnostné riziká.
Asi najznámejším príkladom nariadenia v oblasti ochrany dát bolo relatívne nedávno GDPR, ktoré však z pohľadu laika viedlo k rozporuplným výsledkom.
Vo všeobecnosti je veľmi dôležité zaoberať sa ochranou osobných údajov. Vôbec si nemyslím, že GDPR by bol negatívny príklad toho, ako k tomu pristupovať. Áno, niektoré firmy ho poňali veľmi formálne, GDPR však bol štart, moment, keď sme si uvedomili, že osobné údaje sú veľmi citlivé a mali by sme sledovať, kto ich získa a nerozdávať ich lacno. V Európskej únii už mimochodom máme aj reguláciu AI, ale z pohľadu firiem, ktoré chcú také nástroje vytvárať.
S takýmto postupom však súvisí aj obava, aký bude dopad na trh AI. Čím viac regulácie na firmy uvalíte, tým menšia zrejme bude súťaž. Ak si bude tvorca AI musieť vybrať, či bude vyvíjať softvér v Európe, kde platí prísna regulácia, alebo v USA či Číne, kde neplatí, možno bude výsledok ten, že Európa bude ťahať za kratší koniec.
AI sa dá otráviť
Rozšírenie AI softvérov odborníci kritizujú aj za to, že sa dajú rôznym spôsobom ovplyvňovať či hackovať. Čo o tom zatiaľ vieme?
Rizikom je, že niekto zámerne podvrhne softvéru nesprávnu a škodlivú informáciu. Táto metóda útoku sa volá „poisoning“, teda otrava zdrojových dát. Už existujú konkrétne príklady na úrovni proof of concept. Podľa rozšírenej predstavy by ste museli podvrhnúť obrovské množstvo obrázkov, aby ste výstup pokazili.
Existuje však aj štúdia, podľa ktorej v prípade, že väzbu, ktorou si softvér priraďuje označenie k obrázkom, špecifickým spôsobom narušíte, bude vám v modeli naučenom na milióne obrázkov stačiť aj tristo falošných popisov k obrázkom. To je dosť málo – tri stotiny percenta a máte podľa štúdie takmer stopercentnú úspešnosť, že celý model pokazíte.
Rizikom je, že niekto zámerne podvrhne softvéru nesprávnu a škodlivú informáciu. Táto metóda útoku sa volá ,poisoning’, teda otrava zdrojových dát.
martin lohnert, soitron
Ako sa dá takýmto útokom brániť?
Toto je celkom nová téma, ale prístup je rovnaký ako v iných oblastiach bezpečnosti. AI nástroje budeme musieť chrániť pred útočníkmi. Málokto sa tým však zatiaľ zaoberá, prakticky všetci sa ešte vezú na vlne nadšenia z toho, že ľudskou rečou sformulovaná otázka dostane dôveryhodne pôsobiacu odpoveď.
To, čo sa však deje „po ceste“ je dnes veľmi netriviálne odhaliť, a preto je ťažké odpovedať aj na otázku, či to niekto neovplyvňuje, pričom treba povedať, že tie modely sú na to ovplyvňovanie náchylné.
Text alebo príkaz?
Je tu ale aj ďalší príklad možných útokov. Modely majú prístup na internet, a tak napríklad na web, ktorý má AI softvér nejakým spôsobom spracovať, môže útočník vložiť kód, ktorý bude pre návštevníka neviditeľný, ale modelu dáva inštrukcie.
Existujú štúdie a celé zbierky príkladov, ako je možné verejne dostupné nástroje takto manipulovať. Niektoré modely totiž nerozlišovali, čo je text, čo sú inštrukcie a čo sú dáta, ktoré majú spracovať.
Z povahy učenia a rýchleho vývoja sa AI modely zlepšujú, no stále treba byť ostražitý. Útočníci sa môžu pokúsiť nástroj zneužiť, aby popri bežnej konverzácii získali od užívateľa aj jeho osobné či citlivé údaje.
Dôverčivý človek sa takto môže stať obeťou sociálneho inžinierstva a pritom nástroju to nemôžeme vyčítať, lebo robí len to, čo má. To, že inštrukcie môže dostať aj skryto od tretej strany však môže byť problém.
Zatiaľ ide iba o „proof of concept“, skutočné kauzy sú iba otázkou času. Pôjde o hru útočiacich a obrancov, tak ako v kybernetickej bezpečnosti prakticky vždy, akurát v celkom novej oblasti.
Existuje nejaký prístup, ktorý by mohol problémom zabrániť?
Rovnako ako v mnohých oblastiach bezpečnosti, aj tu bude odpoveď zrejme viacvrstvová. Nevieme v systéme nájsť jedno miesto, ktoré ochránite a všetko bude „vybavené“. Antivírus na pracovnej stanici je dôležitá vec, ale zďaleka nestačí. Musíte chrániť aj sieť, dáta a mnoho iných aspektov firemnej infraštruktúry.
Potrebné je tiež vzdelávať užívateľov, aby sa správali zodpovedne, boli opatrní a vedeli odhaliť pokusy o manipuláciu. Musíte rozmýšľať o možných metódach sociálneho inžinierstva, lebo útočníci sú sofistikovaní a vymýšľajú, ako útoky pripraviť.
Prínos, ale vždy aj riziko
Toto všetko nás ešte čaká, v podstate vznikla celá ďalšia doména a nové možnosti pre útoky. Debatuje sa o tom, že tak ako veľké jazykové modely a AI budú generovať problémy, tak by mohli pomáhať aj v ochrane, lebo sú výborné v analyzovaní veľkých dát a mohli by napríklad relatívne rýchlo pomôcť obrancom odhaliť útok. Nie je to však „samospasiteľné“ riešenie.
Existuje aj pozitívny príklad veľkého prínosu AI nástrojov?
Máme aj klientov, ktorí AI softvér priamo integrujú do svojho podnikania na najvyššej úrovni. Aj na Slovensku je napríklad niekoľko startupov v zdravotníctve, ktoré používajú AI na interpretáciu snímok – teda nielen na zlepšenie efektivity, ale priamo v jadre podnikania.
Aj tu už však bol v roku 2019 známy prípad, keď bezpečnostní výskumníci dokázali snímky ovplyvňovať. S využitím AI nástrojov dokázali do CT a MRI snímok pľúc skutočných pacientov „vložiť“ rakovinu. V snímkach putujúcich po nemocničnej sieti zmenili dáta tak, že lekári v 99 % prípadov (nesprávne) diagnostikovali zhubný nádor. Našťastie, išlo len o kontrolovaný experiment so súhlasom nemocnice.
Nástup diagnostických AI nástrojov môže aj v takomto prípade pomôcť, ale predpokladáme, že opäť len ako „poradný“ hlas živého špecialistu, ktorý výsledok na základe vlastných skúseností a expertízy overí.