Új szövegbányászati megoldások az e-könyvek világában

Irodalom

A Book and Walk e-könyv áruháza képes a teljes tartalmat elemezni és értelmezni. Ennek segítségével a könyveket elhelyezhetjük térben, azaz a tartalomból kinyerhetjük a cselekmény helyszínét. Magyarországon például 468 e-könyv játszódik, ebből 398 budapesti. Ugyanígy megállapíthatjuk helyzetét az időtengelyen. Így tehát el tudjuk dönteni, mely olvasmányokat kell áttanulmányoznunk ahhoz, hogy pontos képet kapjunk egy korszakról, vagy követhetjük egy város fejlődését eltérő korokban. Ezen túl természetesen kereshetünk a könyv teljes szövegében, a címben, a szerző nevében, és a kiadók között. Ugyanilyen módon rákereshetünk képekre is, a hozzájuk rendelt leírás kapcsán.

 
Mivel a rendszer látja a teljes szöveget, az egyedi szavak száma és a terjedelem mellett kigyűjti az e-könyvekre legjellemzőbb szavakat, ezáltal képet kaphatunk arról, milyen stílusban íródott az olvasmány. Ami viszont még érdekesebb lehet, hogy így az írók leggyakrabban használt egyedi szavait is ki lehet listázni, vagyis most először láthatjuk összegyűjtve a szerzőkre legjellemzőbb szavakat. Például ami Petőfit megkülönböztetni szóhasználatában a többi írótól, az többek között a ?lyányka, Szalonta, kiálték? szavak.
 
Ugyanezen az elven alapul az is, hogy a bookandwalk.hu weboldala minden író és könyv mondatbonyolultságát és szókincsgazdagságát egy ötös skálán osztályozza, illetve ezeket összevetve ad egy tájékoztató értéket az olvashatóságról is. Így könnyen el tudjuk dönteni, hogy mennyire kötné le figyelmünket a mű. Az Egri csillagok olvashatósági indexe például négyes, tehát könnyen befogadható, viszont 257 A4-es oldal.