Az általad használt nyelvi modell miben különbözik a ChatGPT-től? Egyáltalán hogyan működnek ezek a rendszerek?
Nagyon leegyszerűsítve: a nyelvi modellek célja, hogy kitalálják, egy mondatban mi lesz a következő, legvalószínűbb szó. A szövegek generálását az előzőleg megtanult adatokból, korpuszból végzik, amelyek jellemzően internetes forrásokból származnak. Hatalmas mennyiségű szöveget képesek feldolgozni, és a technológia folyamatosan fejlődik: a GPT-2-nél – amit még én is használtam három éve – már kétezerszer nagyobb neurális hálóval rendelkezik a ChatGTP. Az, hogy ezek a neurális hálók hogyan fejlesztik magukat, megjósolhatatlan. Feketedobozok, amelyeknél azt, hogy mit tudnak valójában, a kimenetnél tapasztaljuk meg, amikor használjuk őket.
Rendesen megelőzted a most tapasztalható hype-ot, hiszen a nemrég megjelent Újmagyar Gép című kötetet három éve hoztad létre, amelybe GPT-2-vel generáltál verseket. Hogyan zajlott a munkafolyamat?
2020 elején álltam neki komolyabban foglalkozni a projekttel. Technikai okok miatt végül Google felhőben kezdtem el edzeni a GPT-2-t. Nem használtam az angol nyelvű inputokat, mivel magyarul akartam megtanítani, ezért a nulláról indultam. Magyar nyelvű forrásszövegeket tápláltam a modellbe, például az OSZK adatbázisát – többek között Ady-, Pilinszky-, Kosztolányi-, Babits-, Kassák-verseket –, a magyar Wikipediát, dalszövegeket, majd később az Index archívumát, a poet.hu tartalmait. Prefixeket is használtam, azaz megmondtam a modellnek, hogy az adott adatsor líra vagy próza. Azt tudtam, hogy a modell képességei korlátozottak, ezért koherens, értelmes publicisztikát nem tudnék vele létrehozni, annak ellenére, hogy a betáplált szövegek nagy része próza volt. A vers viszont egy sokkal szabadabb, kötetlenebb forma, így azzal kísérleteztem. Olyan költeményeket is írattam a géppel, amelyek egy-egy ismert mű első sorai alapján készültek, például a Szózatot is kiegészíttetettem vele.
Szózat kiegészítés 1. Hazádnak rendületlenűl Légy híve, oh magyar; Bölcsőd az s majdan sírod is, Mely ápol s eltakar. Fázva néz vissza rád A drágán fakadt vagyon, hogy Míg zászlód földbe hajtat, Csak izzad holt gyermeked, Mely azt eltépte, s ezért Sírva szorítod agyon. |
Ahogy növelted a korpusz méretét, úgy javult a versek minősége is?
Az elején óriási volt az ugrás, de egy idő után a fejlődés üteme ellaposodott. Máig vita van abban a mesterséges intelligencia fejlesztői között, hogy a korpusz és a modell méretét milyen arányban érdemes növelni. Ez is egy olyan terület, ahol próbálkozni kell, hogy az ember a legjobb módszert megtalálja a modell betanítására. Az angol szövegek minősége természetesen sokkal jobb, hiszen a nagy fejlesztőcégeknek összehasonlíthatatlanul nagyobb erőforrásaik vannak a tesztelésre, a korpusz minőségének javítására, mint nekem volt.
A ChatGTP egyébként már megdöbbentően jól tud magyarul, de nem azért, mert olyan sok figyelmet fordítottak volna erre, egész egyszerűen akkora mennyiségű szöveget tápláltak már bele – aminek egy része magyar –, hogy kiválóan elsajátította a nyelvtani szabályokat, szavakat, kifejezéseket. Sok esetben jobb magyarsággal kommunikál, mint az én fejlesztésem, amibe csak magyar szövegeket tápláltam.
Sokáig azt csináltam, hogy százával generáltattam vele a verseket, naponta körülbelül ötszázat, majd ezek közül kiszelektáltam azokat, amelyek a legjobbnak tűntek. Akkor jött be a Covid, két munkahely között voltam, így időm és kedvem is volt ezzel foglalkozni.
A tudomásod szerint az Újmagyar Gép az első magyar nyelvű verseskötet, amelyet teljes egészében mesterséges intelligenciával írtak és publikáltak is (a kötet az Amazonon kapható – a szerk.)?
Igen, nincs tudomásom másikról. Érdekes, hogy annak idején nem kapott nagyobb publicitást a dolog, csak most, hogy mindenki felkapta az MI-témát.
Szerinted a nyelvi modellel létrehozott verseid szerzői jogai téged illetnek meg?
Természetesen. Ha egy személy Pilinszky stílusában megír egy verset, akkor az kinek a szellemi terméke? Azé, aki létrehozta, hiába másolta valaki más hangvételét. Ugyanezt a feladatot lehet adni a gépnek is, ami aztán egy új, addig nem létező alkotást ad ki magából. A kezdeti betanításban még gyakran plagizált a modell, viszont ahogy nőtt a korpusz mérete, ez teljesen megszűnt, és már teljesen egyedi költői képeket, metaforákat hozott létre. Szerintem az nem is kérdés, hogy mivel én tanítottam be a modellt, így engem illetnek a szerzői jogok.
Magyar hazám Magyar hon: vesztett, elzárt hazája, Magyar sorsa üvölt, sír, zokog, Vad társak közt kihajtva, lázban, Magyar zászló leng, lobog. |
A Petőfi-emlékév kapcsán újra belevágtál egy MI-os versíró projektbe. Ez miről szól?
Ugyanazt a technológiát használom, mint az Újmagyar Gépnél, viszont új tanítási módokkal kísérletezem. Azt szeretném, hogy a mesterséges intelligencia minél „petőfisebb” verseket generáljon. Ha valaki elolvas néhány verset az Újmagyarból, akkor láthatja, hogy bár valóban magyarul íródtak, egy-egy jobb költői kép is akad bennük, viszont eléggé döcögősek. Új forrásokat használok a betanításnál, és ugyanúgy dokumentálom az eredményeket, mint az előző projektnél. Néhány szakértőt is szeretnék majd bevonni, hogy értékeljék a verseket.
A líra esetében nyilván kevésbé fontos szempont, de az MI hajlamos hazudni, már csak azért is, mert azokból az adatokból dolgozik, amelyeket betáplálnak neki. Azaz ha az input hamis, akkor nyilván az lesz az output is. Ezzel mit lehet kezdeni?
Szükség van felülvizsgálatra, és nem szabad mindent elhinni neki. Ha használja valaki a ChatGPT-t, és gyanúsnak talál egy választ, nyugodtan kérdezzen vissza, és kérjen konkrét forrásokat is. Ezt hívják úgy, hogy prompt engineering. Mindenkinek meg kell tanulnia, fel kell fedeznie a mesterséges intelligenciával való eredményes interakciót. Ez egy aktív kutatási terület is, hiszen a neurális háló, ahogy korábban említettem, egy feketedoboz, maguk az alkotók sem tudják, hogy egy modell mire képes. Ha valaki kiábrándító eredményt kap, lehet, hogy csak nem kérdezett elég ügyesen. Mivel a ChatGPT nyelvi modell, ezért például a matematikához kevésbé ért, így az ilyen témáknál érdemes minél konkrétabban megfogalmazni a kérdéseket, valamint szkeptikusan fogadni a megoldásokat és ellenőrizni őket.
El fogja hülyíteni az embereket az MI? Például ha a fordítóprogramok még tovább javulnak, miért lesz szükségünk nyelvtanulásra, nyelvtudásra?
Amikor megjelentek a zsebszámológépek, mindenki attól tartott, hogy a gyerekek majd elfelejtenek számolni. Nem ez történt, csak gyorsabbá váltak az iskolai feladatok megoldásában. Természetesen azóta már a zsebszámológépeket is jócskán meghaladta a technológia. Ahogy a Wikipedia sem hülyített el minket, csak már nincs szükségünk vaskos, drága enciklopédiákra, vagy hogy évszámok tömegeit tanuljuk meg. Tudjuk, hogyha szükségünk van egy adatra, akkor hová nyúljunk. Ugyanez igaz az okostelefonokra, a navigációs rendszerekre, és még hosszan sorolhatnánk.
A költőknek kell tartaniuk attól, hogy a mesterséges intelligencia hamarosan jobb verseket fog írni, mint ők?
Nemcsak nekik kell tartaniuk ettől, de jó pár fehérgalléros munkásnak el fogja venni a kenyerét az MI pár éven belül. A ChatGPT már most jobb verbális „intelligenciával” rendelkezik, mint a magyarok nagy része, és olyan választékosan, pontos helyesírással megfogalmazott szövegeket ad ki, mint egy egyetemi tanár. A reklámszövegírók, grafikusok nagy része már most kereshetne alternatívát, és az újságírást sem választanám szakmaként.
De ugyanez a helyzet az építészekkel. Ők már harminc éve digitális környezetben, például CAD-ban dolgoznak, így rengeteg adat áll az MI rendelkezésére, amelyekből simán tud egyedi terveket generálni az igényeknek, adottságoknak megfelelően. Hamarosan már csak arra lesz szükség, hogy egy építész átnézze és aláírja az MI által létrehozott terveket. Ugyanakkor a programozók sincsenek biztonságban. Számos alacsonyabb rendű feladatot végző informatikus munkáját ki fogja váltani a mesterséges intelligencia.
A tanároknak is van félnivalójuk. Nagyon szerencsés diák, akinek 12–14 évesen, amikor alakul az érdeklődése, olyan tanára van, aki türelmes, lelkes, szárnyai alá veszi. Ez még az elit gimnáziumokban sem adott. Nekem nagyon jó tanárokhoz volt szerencsém, de bizonyos tudományokban kifogtam olyanokat is, akik nem tudták volna kihozni belőlem a potenciált, ha komolyabban érdekelt volna az adott téma. Ezeknél a tanároknál a ChatGPT már most jobb pedagógus.
A fenti folyamatoknak demokratizáló hatása is lesz, fel fognak értékelődni az olyan kékgalléros szakmák, mint az autószerelőké vagy a nővéreké. Civilizációs szintű változás előtt állunk.
Mesterséges intelligencia témában (de nem csak) további angol nyelvű írásokat olvashatunk Menyhei György substack-jén.
További írásaink a témában:
Újmagyar Gép: az első mesterséges verseskötet magyar nyelven
A mesterséges intelligencia feleslegessé teszi az írókat?
A mesterséges intelligencia a költészetet is bekebelezi?
Mesterséges intelligencia és szerzői jog – a szakértő válaszol
Illusztráció: Moor Studio / Shutterstock