A mesterséges intelligenciának jobb a szókincse, mint az embernek

Tudomány

A mesterséges intelligencia (MI) alapú szoftverek verbális intelligenciáját vizsgálták az ELTE PPK-n. A kutatás nyomán kiderült, hogy szóismeretükben a gépek még a doktori fokozattal rendelkező anyanyelvi beszélőket is maguk mögé utasítják.

mesterséges intelligencia
Fotó: Shutterstock

A nagy nyelvi modellek (large language models) olyan mesterségesintelligencia-típusok, amelyek képesek ember alkotta szövegekhez hasonló tartalmak létrehozására. Ezek a modellek – például a népszerű ChatGPT – forradalmi változást hoztak a MI világában, és mára képesek igen élethűen utánozni az emberi képességeket.

A szakembereket régóta foglalkoztatja, mennyire intelligensek a gépek az emberekhez képest. A klasszikus összehasonlító tesztek – például a Turing-teszt – azonban nem képesek differenciálni az emberi teljesítményben: csak azt lehet mérni velük, hogy a gépek mennyire képesek utánozni az emberi kogníció univerzális aspektusait, például a kommunikációs készséget. Ezzel szemben az emberi intelligencia vizsgálata épp az egyéni különbségekre fókuszál, hiszen maga az IQ is relatív mutató, amely a teljesítményünket másokéhoz viszonyítja.

Egyes kutatók szerint a MI intelligenciáját úgy lehet a legjobban mérni, ha a modellekkel embereknek tervezett pszichometriai teszteket végeztetünk el. Kovács Kristóf, az ELTE PPK tudományos főmunkatársa, a Kognitív Képességek Kutatócsoport vezetője és a tesztelő platformokkal foglalkozó Klein Balázs vizsgálatukban két mesterségesintelligencia-alkalmazás, a ChatGPT és a Bing verbális intelligenciáját hasonlították össze több mint 9000 emberével.

Ehhez egy számítógépes adaptív szókincstesztet használtak, amelyben kilenc felsorolt szó közül mindig azt a kettőt kellett kiválasztani, amelyek jelentésben a legközelebb álltak egymáshoz. Az adaptív tesztelés során egy algoritmus választja ki az elemeket egy kérdésbankból úgy, hogy a nehézségi szint mindig közel legyen az alany képességeihez; ezáltal pontosabb eredményt kaphatunk, mint egy fix kérdésekből álló teszt esetén.

A teszten mindkét nyelvi modell magas teljesítményt nyújtott: 20-ból 19 embernél, azaz az emberek 95%-ánál jobb eredményt értek el, és jobban teljesítettek a doktori fokozattal rendelkező anyanyelvi beszélőknél is.

Ha ezek a gépek emberek lennének, kiemelkedő tehetségnek számítanának – hívják fel a figyelmet a szerzők, akik szerint valószínűsíthető, hogy az AI alkalmazásoknak a közeljövőben az emberek 100%-ánál jobb szókincsük lesz.

A gépek kiemelkedő teljesítményük ellenére azonban vétettek néhány hibát is. Az ismétlődő kérdések 42%-ánál eltérő válaszokat adtak az egyes alkalmakkor – ilyen embereknél nem történik. Emellett esetenként „hallucinációik” is voltak: olyan szavakkal válaszoltak, amelyek nem szerepeltek a megadott opciók között. Ez akkor is megtörtént, ha korábban már megválaszolták helyesen az adott kérdést, tehát nem arról volt szó, hogy nem tudták a megoldást. Ám ezek a hibák nem a szoftverek hiányosságaira utalnak, hanem sokkal inkább arra mutatnak rá, hogy az embereknek szánt pszichometriai teszteknek a mesterséges intelligencia esetében vannak korlátai.

Az eredményeket olvasva felmerülhet a kérdés, miként különböztethetjük meg a mesterséges intelligencia által generált tartalmakat és az ember által írt szövegeket, ha már a gépek is ilyen magas verbális teljesítményre képesek. A kutatók azt tanácsolják, ne a túl felszínes, hanem épp a túl szofisztikált kommunikáció esetén fogjunk gyanút, hiszen könnyen előfordulhat, hogy egy MI-szoftver színesebb szókincsből dolgozik, mint mi.