Így lehet a Trónok harca karaktereinek halandóságát kiszámolni

Tudomány

Unalmas-e az adattudomány? Janosov Milán Data című könyve az ellenkezőjét bizonyítja: az adatok rejtélyeket oldanak meg, előrevetítik a jövőt, és akár Westeros sorsát is megjósolhatják.

Big data technology and data science illustration. Data flow concept. Querying, analysing, visualizing complex information. Neural network for artificial intelligence. Data mining. Business analytics.
Illusztráció: Nico El Nino / Shutterstock

Sokan úgy gondolják, hogy az adattudomány olyan száraz, mint egy hatodszorra újramelegített csirkemell, mert tele van táblázatokkal, kódsorokkal, és olyan fogalmakkal, mint például a ciklusfüggvény. Pedig az adatok világa tele van izgalommal: itt is akadnak rejtélyek – amelyeket ki kell bogozni, mint egy krimiben –, meglepő felfedezések – amelyek megváltoztathatják a világot –, és még egy kis művészet is: amikor az adatok alapján látványos vizualizációk születnek. Az adattudomány nem unalmas, csak rossz a píárja, pedig egy jó grafikon néha többet mond ezer szónál.

Janosov Milán Data című könyve a legjobb bizonyíték erre, pedig meglehetősen prózaian indult: egy egyetemi beadandóval. A szerző PhD-hallgatóként valószínűleg nem sejtette, hogy vizsgaprojektjéből később könyv fog kinőni. Adatbányászati minikutatást végzett, amelyben a Trónok harca karaktereinek kapcsolati hálója alapján igyekezett megjósolni, kik fognak meghalni a befejező évadban. A gondolatmenet logikus, hiszen ennek a sorozatnak az a sajátossága, hogy bárki bármikor meghalhat – és általában meg is hal.

Míg az első évadok eseményei híven követték George R. R. Martin regényfolyamát, az utolsóra már elfogyott az írott muníció, így a forgatókönyvíróknak saját kútfőből kellett megalkotniuk a történetet. Janosov a hálózattudomány eszközeivel feltérképezte a szereplők kapcsolatrendszerét, és ezek alapján megkísérelte  levonni a következtetéseket a sorozat jövőbeli eseményeire nézve. Projektje tökéletes példája annak, amit a Data felvázol: az adatokat sokféleképpen lehet vizsgálni, és néha egészen váratlan kontextusokban válnak izgalmassá. Mert ugyan ki gondolná, hogy egy sorozat karaktereinek halandóságát is lehet számszerűsíteni?

A módszer nem csupán szórakoztató, hanem arra is rávilágít, hogyan működik a hálózattudomány: a nagy mennyiségű adat nem csupán egy halom értelmezhetetlen szám, hanem térkép, amelynek révén a világ egyes aspektusai – legyen szó akár pénzügyi folyamatokról, akár fantasyszereplők életkilátásairól – feltárhatók.

Ráadásul az adataink – akár tudunk róla, akár nem – folyamatosan gyarapodnak. Erre jó pár példát fel lehet hozni, de már az is elég, ha a telefonunkra ránézünk. Az App Store-ban és a Google Playben is több millió alkalmazás van, és ezek folyamatosan gyűjtik rólunk az információkat. Nemcsak a kereséseinket és a kattintásainkat, hanem azt is, hogy milyen ritmusban pötyögünk a billentyűzeten, vagy milyen szögben tartjuk a telefonunkat. Ezek a láthatatlan, háttérben zajló adatmozgások alkotják a digitális lenyomatunkat, azaz azt a képet, amelyet az online világ rólunk formál; gyakran anélkül, hogy észrevennénk.

Janosov Milán adattudós, hálózatkutató, fizikus. Fotó: Pavel Bogolepov / Open Books
Janosov Milán adattudós, hálózatkutató, fizikus. Fotó: Pavel Bogolepov / Open Books

A hálózatok mindenhol ott vannak, és meglepően sokféle dolgot le lehet írni velük: baráti társaságokat, közlekedési rendszereket, és azt is, hogyan merülünk el egyre inkább a saját nézeteink visszhangkamrájában. A közösségi média nagy paradoxona, hogy noha még sosem voltunk ennyire összekapcsolva, az algoritmusok működéséből következően egyre kevesebb esélyünk van valódi párbeszédre, a mieinktől eltérő véleményekkel való találkozásra.

A közösségi platformok ajánlórendszerei ugyanis először észrevétlenül, majd egyre látványosabban személyre szabott hírfolyamokat építenek fel, amelyekben a számunkra releváns tartalmak kapnak teret. Ennek eredménye a klasszikus véleménybuborék, amelyben az ellentétes nézőpontokat már nem is látjuk, így egyre kevésbé értjük a másik oldalt. Ez nemcsak a közéletet, hanem a hétköznapi döntéseinket is befolyásolja: gondoljunk csak arra, milyen filmeket ajánl nekünk a Netflix, milyen zenéket kínál a Spotify, vagy hogy milyen híreket dob fel a hírfolyamunk.

Az álhírek terjedése is olyan probléma, amely az online világban valóságos járványként söpör végig. Janosov és kutatótársai több millió tweet elemzésével kimutatták, hogy az álhírek akár hetven százalékkal nagyobb valószínűséggel kapnak retweetet, és hatszor gyorsabban érnek el több ezer embert, mint a hitelesek.

A könyv egyik nagy erénye, hogy nemcsak a problémát mutatja be, hanem az adatok tudatos használatának fontosságára is rávilágít.

Janosov szerint a digitális világban való eligazodás egyik kulcsa az adatműveltség, vagyis annak megértése, hogyan alakítják az algoritmusok a döntéseinket, és hogyan vehetjük észre, ha túl szűkre szabott információs térben mozgunk.

A buborékok nem feltétlenül rosszak, hiszen egy budapesti lakost valószínűleg nemigen érdekelnek a berlini buszmenetrend változásai, ám érdemes azokat az információkat keresnünk, amelyek kibillenthetnek bennünket a megszokott gondolkodási sémáinkból.

A Data természetesen kitér a mesterséges intelligencia és a gépi tanulás világára is. Janosov szemléletes példákkal magyarázza el, hogy az algoritmusok hogyan próbálják leképezni az emberi gondolkodást, hogy hogyan működnek a neurális hálók, és hogy milyen módszerekkel lehet előrejelzéseket készíteni. A mélytanulás témakörét is érinti, amely az emberi agyműködés által ihletett modellek segítségével képes bonyolult problémák megoldására.

A hálózatok vizsgálata nemcsak a digitális térben hasznos. A szerző bemutat egy városi közlekedést vizsgáló kutatást, amely a Lánchíd lezárásának hatását elemezte Budapesten. Bár a lezárás az előrejelzések szerint akár hatalmas problémát is jelenthetett volna, valójában alig volt érezhető a változás, mert a városi infrastruktúra sokkal rugalmasabb, mint elsőre gondolnánk.

A hálózatkutatás akár a magánéleti történésekben is érdekes mintázatokat tárhat fel. Janosov Hollywood házassági kapcsolatait is vizsgálta, és ennek alapján egész hálózat rajzolódott ki, az újraházasodások és a szerelmi háromszögek szövevényes rendszere tárult fel. Kiderült, hogy a színésznők egy kudarcos kapcsolat után nagyobb valószínűséggel házasodnak újra szakmán belül, míg a férfi színészek inkább már azon kívül keresik a következő partnerüket. Az így kialakuló kapcsolati hálók néhol zárt, néhol meglepően kiterjedt rendszereket alkotnak: a legnagyobb kapcsolati csoport több mint húsz emberből áll, akik házassági vagy válási szálakon keresztül kötődnek egymáshoz.

Janosov Milán fiatalos, könnyed stílussal ötvözi a tudományos precizitást, ami a komplex összefüggéseket is könnyen emészthetővé teszi. Ez a kettősség teszi igazán élvezetessé a Data olvasását: a tudományos igényesség nem megy a közérthetőség rovására, és a digitális világ rétegei fokozatosan tárulnak fel az olvasó számára.

A Data tehát elsősorban nem azoknak szól, akik professzionális szinten foglalkoznak adatelemzéssel vagy hálózatkutatással, hanem azoknak, akik csupán érteni szeretnék, milyen lenyomatot hagynak maguk után a digitális térben, és ezt hogyan lehet elemezni, értelmezni.

A kötet izgalmas utazás az adatok világában; nemcsak elméleti okoskodás, hanem betekintés is abba, hogyan formálják a számok és az algoritmusok a mindennapi életünket. Egyfajta térkép a digitális dzsungelben, amely segít eligazodni az információk végtelen hálózatában, sőt talán még néhány előrejelzést is képes adni.

Janosov Milán Data című könyve az Open Books gondozásában jelent meg.