Arany János hivatali iratainak AI-alapú feldolgozásáért kapott innovációs díjat egy új fejlesztés

Tudomány

A Digitális Örökség Nemzeti Laboratórium (DH-LAB) munkájának egyik első és legjelentősebb eredménye annak a kézírásfelismerő modellnek a kifejlesztése, amellyel kereshetővé váltak Arany János hivatali iratai. A fejlesztésért Társadalmi Innovációs Díjat kapott a projektcsoport a Kulturális és Innovációs Minisztériumtól.

Barabás Miklós: Arany János portréja (1884, részlet)
Barabás Miklós: Arany János portréja (1884, részlet)

A Magyar Tudományos Akadémia Könyvtárában őrzött Arany János hivatali iratok kereshetővé tételét segíti az a fejlesztés, amelyért Társadalmi Innovációs Díjat kapott a Digitális Örökség Nemzeti Laboratórium. A DH-LAB fejlesztésének köszönhetően rendkívül értékes anyag válik hozzáférhetővé úgy a kutatók, mint a nagyközönség számára. A Kulturális és Innovációs Minisztérium elismerését november 13-án vehették át projektben részt vevők. 

A rendezvényen Zsigó Róbert miniszterhelyettestől a HUN-REN Bölcsészettudományi Kutatóközpont (HUN-REN BTK) részéről Balogh Balázs főigazgató vette át a díjat. A nyertes fejlesztésben a HUN-REN BTK munkatársai közül Palkó Gábor, Fellegi Zsófia és Bobák Barbara, a laboratórium részéről Fekete Norbert és Szekrényes István vett részt. A DH-LAB projektje mellett a másik idei díjazott a Szabadtéri Néprajzi Múzeum demenciaprogramja volt.

A DH-LAB a HUN-REN BTK Irodalomtudományi Intézetének, a Miskolci Egyetemnek, valamint az ELTE BTK TI Digitális Bölcsészet Tanszék szakértőinek közreműködésével, az ELTE IK Mesterséges Intelligencia Tanszék hallgatóival közösen alakítja ki a magyar nyelvre optimalizált AI eszközök alkalmazásának módszertanát a közgyűjteményekben, a nyílt tudományosság elveinek megfelelően, saját hardverkörnyezetben. Közös munkájuk egyik első és legjelentősebb eredménye volt az innovációs díjjal elismert kézírás-felismerő modell kifejlesztése.

A kézírást felismerő projekt eredményei és hatása

A fejlesztés azért egyedi és innovatív, mert hazánkban még nem történt ilyen nagyságrendű, AI-alapú kézírás-felismerés magyar digitális bölcsészek és AI-szakértők közreműködésével, magyar szakemberek és számítástechnikai eszközök használatával. A projekt során egy olyan általános kézírás-felismerő modell jött létre, amelyet a közgyűjtemények szabadon felhasználhatnak. Így a jövőben szinte korlátlan mennyiségű magyar nyelvű 19. századi kéziratoldalt dolgozhatnak fel, amely szövegek eddig nem képezték a kulturális örökség integráns részét.

A kifejlesztett módszertan olyan piaci területen is újabb innovációk kiindulópontja lehet, mint például a céges dokumentumok AI-alapú feldolgozása. A technológiát olyan NKFIH minősítéssel rendelkező kiváló kutatási infrastruktúrák integrálják munkameneteikbe, mint a DH-LAB-QULTO közös kutatási infrastruktúra vagy a HUN-REN BTK EtnoLab projektje.

Palkó Gábor projektvezető, a HUN-REN BTK Irodalomtudományi Intézetének tudományos főmunkatársa az elismerés kapcsán elmondta: „A 21. század első évtizedeiben két egymással szorosan összefüggő és párhuzamos trend figyelhető meg a kultúra és a tudomány területén. Egyrészt a mesterséges intelligencia (angol rövidítésével: AI) olyan mértékben alakítja át és helyettesíti a megszokott kulturális gyakorlatokat, ami korábban elképzelhetetlen volt, másrészt, részben a kulturális örökség digitalizálása, részben pedig a digitálisan keletkező anyagok hatalmas mennyisége miatt, korábban elképzelhetetlen nagyságrendben jönnek létre adatbázisok és adathálózatok.”

Hozzátette, „a digitális örökség diskurzusában a könnyen feldolgozható és közzétehető nyomtatott vagy digitálisan keletkező anyagok mellett az igazi – azaz kézzel írt – kéziratok háttérbe szorulnak, mivel nem tehetők kereshetővé olyan általános modellekkel, amelyek nem veszik figyelembe az adott dokumentumcsoport sajátos jellemzőit. Különösen problémás, hogy az AI eszközök jobban működnek a nagy világnyelvek esetében, amelyeket több százmillióan beszélnek. Ezért a magyar kézzel írt dokumentumok különösen alulreprezentáltak a digitális kulturális örökség egészében”. Kiemelte, „a Digitális Örökség Nemzeti Laboratórium projekt egyik elsődleges feladata ezeknek a problémáknak a megoldása”.

A díjazott projektet a november 21. és 23. között a Szépművészeti Múzeumban megrendezendő Science Expo nevű magyar tudományos tárlaton is bemutatják a nagyközönségnek.

Arany hivatali iratai és azok jelentősége

Kiváló írónk és költőnk, Arany János 1859-től a Magyar Tudományos Akadémia (MTA) rendes tagja volt, ahol főtitkárként is dolgozott. Utóbbi poszton végzett adminisztratív munkája óriási jelentőséggel bírt: meghatározta és kialakította az MTA működési kereteit, ezzel pedig az egyik legfontosabb magyar tudományos intézménnyé tette azt. A hivatali iratok korpuszának teljes mérete jelentősen nagyobb a korábbi ismereteinknél, mintegy 9200 dokumentum, amely nagyjából 30 ezer kéziratfotónak felel meg.

A saját HTR (Handwritten Text Recognition) modell tanításához 200 lapnyi Arany-kézírás mellett Arany titkárának, Ring Adorjánnak a kezétől származó, valamint további, csaknem 30 kéz írását tartalmazó korpuszt készítettek a szakértők. A modellt összesen 874 átírt kéziratlapon tanították, amely után a pontossága nem haladta meg az ötszázalékos betűszintű hibaarányt. A hivatali iratok publikálása jelenleg folyamatban van az MTA Könyvtár repozitóriumában, kereshető pdf-ek formájában.