A nagy nyelvi modellek (large language models) olyan mesterségesintelligencia-típusok, amelyek képesek ember alkotta szövegekhez hasonló tartalmak létrehozására. Ezek a modellek – például a népszerű ChatGPT – forradalmi változást hoztak a MI világában, és mára képesek igen élethűen utánozni az emberi képességeket.
A szakembereket régóta foglalkoztatja, mennyire intelligensek a gépek az emberekhez képest. A klasszikus összehasonlító tesztek – például a Turing-teszt – azonban nem képesek differenciálni az emberi teljesítményben: csak azt lehet mérni velük, hogy a gépek mennyire képesek utánozni az emberi kogníció univerzális aspektusait, például a kommunikációs készséget. Ezzel szemben az emberi intelligencia vizsgálata épp az egyéni különbségekre fókuszál, hiszen maga az IQ is relatív mutató, amely a teljesítményünket másokéhoz viszonyítja.
Egyes kutatók szerint a MI intelligenciáját úgy lehet a legjobban mérni, ha a modellekkel embereknek tervezett pszichometriai teszteket végeztetünk el. Kovács Kristóf, az ELTE PPK tudományos főmunkatársa, a Kognitív Képességek Kutatócsoport vezetője és a tesztelő platformokkal foglalkozó Klein Balázs vizsgálatukban két mesterségesintelligencia-alkalmazás, a ChatGPT és a Bing verbális intelligenciáját hasonlították össze több mint 9000 emberével.
Ehhez egy számítógépes adaptív szókincstesztet használtak, amelyben kilenc felsorolt szó közül mindig azt a kettőt kellett kiválasztani, amelyek jelentésben a legközelebb álltak egymáshoz. Az adaptív tesztelés során egy algoritmus választja ki az elemeket egy kérdésbankból úgy, hogy a nehézségi szint mindig közel legyen az alany képességeihez; ezáltal pontosabb eredményt kaphatunk, mint egy fix kérdésekből álló teszt esetén.
Ha ezek a gépek emberek lennének, kiemelkedő tehetségnek számítanának – hívják fel a figyelmet a szerzők, akik szerint valószínűsíthető, hogy az AI alkalmazásoknak a közeljövőben az emberek 100%-ánál jobb szókincsük lesz.
A gépek kiemelkedő teljesítményük ellenére azonban vétettek néhány hibát is. Az ismétlődő kérdések 42%-ánál eltérő válaszokat adtak az egyes alkalmakkor – ilyen embereknél nem történik. Emellett esetenként „hallucinációik” is voltak: olyan szavakkal válaszoltak, amelyek nem szerepeltek a megadott opciók között. Ez akkor is megtörtént, ha korábban már megválaszolták helyesen az adott kérdést, tehát nem arról volt szó, hogy nem tudták a megoldást. Ám ezek a hibák nem a szoftverek hiányosságaira utalnak, hanem sokkal inkább arra mutatnak rá, hogy az embereknek szánt pszichometriai teszteknek a mesterséges intelligencia esetében vannak korlátai.
Az eredményeket olvasva felmerülhet a kérdés, miként különböztethetjük meg a mesterséges intelligencia által generált tartalmakat és az ember által írt szövegeket, ha már a gépek is ilyen magas verbális teljesítményre képesek. A kutatók azt tanácsolják, ne a túl felszínes, hanem épp a túl szofisztikált kommunikáció esetén fogjunk gyanút, hiszen könnyen előfordulhat, hogy egy MI-szoftver színesebb szókincsből dolgozik, mint mi.