Úgy néz ki, mint én, úgy beszél, mint én, de nem én vagyok, mi az?

Egy felhasználó avatárt hoz létre mesterséges intelligenciával – Fotó: Jaap Arriens / NurPhoto / Getty Images

Telex

„Én optimista vagyok. Sok a pesszimista, és ők hangosak. Az optimisták nem annyira hangosak, ők csak elvégzik a munkát”

– mondta Egor Zakharov, az ETH Zurich kutatója, a neurális hálókon (gépi tanulásos mesterséges intelligencián) alapú képalkotás és realisztikus avatárok szakértője arról, hogy mennyire tart a manipulált képek és videók veszélyeitől.

Az elmúlt napokban jó sokan mondták el erről a véleményüket, ez volt ugyanis az ITBN kiberbiztonsági konferencia idei felvonásának központi témája, amit a rendezvény agysejtpusztító szójátékon alapuló alcíme is tükrözött: „AIthentic”, azaz a mesterséges intelligencia (MI, angolul AI) és az autenticitás, a képek, videók és hangok hitelességének találkozása egy egyre inkább hiteltelen, kedvünkre manipulálható korban.

Az MI-vonaton nincsen deepfake

Zakharov az elsők között hozott létre állóképből valósághű beszélő avatárt, és a 2019-es ITBN-en is nagy sikert aratott azzal, hogy egy videóban „megszólaltatta” többek között a Mona Lisát is. Azóta ez a terület robbanásszerű fejlődésen esett át, de szerinte most átmeneti időszakban vagyunk: még mindig nem értük el az igazi realizmust, de most már akár egy évtizeden belül eljuthatunk oda, hogy valóban a megszólalásig valósághű avatárokat tudjunk MI-alapú modellekkel létrehozni.

Persze már most is akad olyan példa, amellyel simán át lehet verni tömegeket is. Zakharov a pufidzsekis Ferenc pápa képét említette. Ilyesmit természetesen korábban is létre lehetett hozni Photoshoppal, de ahhoz hozzáértés és sok munka kellett; később már a munka nagy részét elvégezte a gép, de kellett még dolgozni a végeredményen; ma viszont már nulla vizuális hozzáadott értékkel, pusztán szöveges parancsok megadásával is bárki létrehozhat megtévesztésre alkalmas képeket – mondta.

Azt ő is elismerte, hogy ezzel az álhírgyárosok munkája is jelentősen könnyebbé vált, de szerinte a folyamat egésze továbbra sem automatizálható. Az igazán jó minőségű deepfake-ek (MI-vel létrehozott, valósághű képek, videók) generálására használt modellek betanításához pedig szerinte olyan sok adatra és pénzre van szükség még mindig, hogy ez lesz a szűk keresztmetszet, amely miatt a legvalósághűbb képi manipuláció bárkinek még továbbra sem lesz elérhető. Szerinte a kockázatok mérséklése úgy érhető el, hogy az MI által generált képekbe bele kell kódolni, hogy MI-gyártmányok, mintha vízjellel különböztetnénk meg őket. Rögtön fel is merül a kérdés, hogy figyelne-e erre bárki, aki a képi manipulációra épülő átverések célpontja lehet. Szerinte igen, de ehhez az oktatás, a tudatosítás terén is erőfeszítéseket kell tenni – mint már írtam, optimista emberről van szó.

Zakharov szerint egyébként legalább ilyen fontos kérdés a méltányosság is: az MI szuper dolgokra lehet képes, és nagyban javíthat az emberek életminőségén, de ehhez biztosítani kell, hogy mindenkinek egyformán elérhető legyen, ne csak a szociokulturálisan kitüntetett helyzetben lévőknek. (Talán már említettem, hogy Zakharov optimistának tartja magát.)

Hallatlan lehetőségek

MI-vel ma már nemcsak képeket és videókat lehet hátborzongató realizmussal manipulálni, hanem a hangot is. Persze amikor azt mondom, „ma már”, akkor úgy értem, hogy az utóbbi jó néhány évben, hiszen már 2019-ben is érkezett hír olyan pénzügyi átverésről, amikor a csaló a saját hangját közel valós időben alakította át egy cégvezetőére, hogy ezzel húzza csőbe és bírja rá egy nagyobb összeg átutalására a gyanútlan beosztottat. (A világszerte nagy figyelmet kapott ügyben az utalás ráadásul magyar számlára érkezett.) Persze ahogy minden MI-alapú manipuláció, mára ez is jóval szélesebb körben elérhető és könnyebben kivitelezhető.

A hangszintetizálásnak alapvetően kétféle iránya van. Az egyiknél írott szövegből hozzuk létre a hangot (text-to-speech). A másiknál klónozzuk: A beszélő mondja ki a szöveget, de B beszélő hangjára ültetik át (speech-to-speech) – magyarázta Gyires-Tóth Bálint, a BME Távközlési és Médiainformatikai Tanszékén működő Beszédkommunikáció és Intelligens Interakciók Laboratórium (Smartlab) kutatója. Hangsúlyozta azonban azt is, hogy ez a technológiai is korlátos, hiszen a beszédünket nemcsak a könnyebben klónozható hangszín határozza meg, hanem például a ritmus, az artikuláció vagy a szóhasználat is.

Egyáltalán mennyi hangalapanyagra van szükség ahhoz, hogy használható minőségű végeredményt kapjunk? Gyires-Tóth szerint a több budapesti pályaudvaron is hallható, szintetizált bemondóhangot 10-12 beszélő fejenként 2-3 órányi hanganyagából rakták össze, összesen 20-25 órányi hangot használtak fel hozzá. De minél több az alapanyag, annál jobb lesz az eredmény. Fél perc könnyen összerakható, hosszabb anyaghoz viszont többre van szükség. A nagy techcégek például több tízezer órányit használnak fel ehhez – tette hozzá.

Kovács Gyula, a Neuron Solutions Kft. ügyvezetője szerint relatív, hogy egyáltalán mit tartunk az MI jó vagy rossz felhasználásának. Az nyilván problémás, ha valakit ezzel az eszközzel akarunk megvezetni, anyagi kárt okozni neki vagy befolyásolni a véleményét. De az is képi manipuláció, ha egy fotóról eltüntetjük a ráncainkat, az vajon belefér? Kovács szerint ez inkább társadalmi megítélés kérdése, mint a technológiáé.

És a szerzői jogé, hiszen ahogy a kép és a szöveg esetében, úgy a hangnál is megoldatlan etikai kérdés, hogy mi az, amit fel lehet használni a modellek betanításához, és mi az, amit nem. Kovács szerint ezt nem is egy-egy területre, hanem általánosságban kell megoldani, de a hangnál különösen tisztázatlan a jogi háttér. Mire formálhatunk jogot a hangunk esetében? A hangszínre, a prozódiára, a stílusra? És milyen jogot, személyiségit, szerzőit?

Egyáltalán mi fogja autentikálni, azonosítani az embereket, ha a hangjukban lassan már nem bízhatunk? Ez sem hangspecifikus kérdés, hiszen már a képmásunk sem úszhatja meg, hogy a generatív MI-modellek alapanyagává váljon. Előállhat majd akár olyan helyzet is, hogy a gép fog azonosítani minket, mert ő fogja tudni eldönteni, hogy a saját hangunk vagy mesterségesen szintetizált hangot hall-e – mondta Kovács.

Abban azonban ő és Gyires-Tóth is egyetértett, hogy a mostani felbolydulás az MI és a deepfake-ek körül lejjebb fog ülni. Mindig ha jön egy új technológia, amelyre felkapjuk a fejünket, hogy mi lesz, de aztán szép lassan beépül a mindennapokba, ahogy a festmények korában megjelent fotóval vagy a fotó dominanciáját megtörő filmmel is történt – idézte fel Gyires-Tóth, aki szerint a hanggal is várhatóan valami ilyesmi fog történni.

Azt se tudjuk, mit akarunk szabályozni

A mesterséges intelligencia felhasználása, lehetőségei, veszélyei, szabályozása elsősorban nem is technológiai kérdés – hívta fel a figyelmet a megnyitójában Keleti Arthur, az ITBN főszervezője. Nincs adatbázis, amelybe bele lehet nézni, hogy megértsük az MI működését, hanem modellek vannak. Nem lehet tudni, pontosan miért az a válasza az MI-nek, ami. Nincs egy jól meghatározható pont, amikortól egy MI-alapú csetprogram válaszai elkezdenek toxikussá válni. A kiberbiztonsági szakértők hiába rakják be a tűzfalat, állítják be a protokollokat, ez önmagában nem fog sokat érni. Nincs megegyezés, nincsenek világos szabályok, bár az EU épp dolgozik egy jogszabályon, de abban is kevés a konkrétum.

„Ilyeneket én is tudok, bármikor el tudom mondani, hogy legyen békés az MI. De hogyan?” – vetette fel Keleti.

Miközben az MI-ben rejlő szédítő lehetőségek láttán sokan kiáltanak a terület mielőbbi szabályozásáért, legalább ennyien szkeptikusak is az ilyen próbálkozásokkal szemben.

Báldy Péter, ELTE ÁJK Jogi Továbbképző Intézetének igazgatóhelyettese például saját bevallása szerint nagy ellenzője az MI-szabályozásnak. Példaként hozta a már javában készülő és gyakran pozitív példaként felmerülő, AI Act nevű uniós tervezetet. Ebből eddig három szövegváltozatot látott, amelyekben háromféle definíció volt arra, hogy mit akar a törvény szabályozni. „Ha már ezt se tudjuk meghatározni, az probléma” – mondta Báldy, aki szerint pozitív ellenpélda az uniós adatvédelmi rendelet, a 2018-tól alkalmazott GDPR, mert az technológiasemleges, azaz úgy védi az adatokat, hogy mindegy neki, azokat mivel és hogyan állítják elő.

Az MI mostanra olyan lett, mint régebben az „okos”, mindenre ráírják. Van egy iszonyatos társadalmi igény, a korszellemben érezhető a lenyomata, az emberek azt akarják, hogy kezdjünk vele valamit, legyen szabályozva, olvassák a cikkeket, hogy veszélyes, elveszi a munkát, kiirtja az emberiséget. De ez elsősorban nem szabályozási kérdés – mondta Eszteri Dániel, a Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) Incidensbejelentési és Forensic Elemzési Osztályának vezetője. Ő is szkeptikus az AI Acttel szemben, de ha már az EU eljutott odáig, hogy szabályozni akarja ezt a területet, nem szerencsés, ha ezek az elvárások határozzák meg ezt a munkát – tette hozzá.

A NAIH általában jóval prózaibb esetekkel találkozik, a sci-fibe illő ügyek egyelőre ritkák Eszteri szerint, de felidézte, hogy találkoztak már a gyakorlatban MI-üggyel ők is: egy bank mesterséges intelligenciával elemezte az ügyfélszolgálatára betelefonáló ügyfelei érzelmi állapotát – kaptak is érte egy 250 millió forintos bírságot.

Na és hogy állunk az örök kérdéssel, hogy akkor most elveszi-e a munkánkat a mesterséges intelligencia? Erre a legfrappánsabb választ az idei ITBN-en talán John Salomon kiberbiztonsági szakértő adta: „Úgy volt, hogy a robotok elvégzik az unalmas munkát, hogy mi verset írhassunk. Erre most a robotok írnak verset, és mi végezzük az unalmas munkát.”