A rákkutatástól a fertőző betegségek tanulmányozásáig rengeteg mindennel foglalkozol. Hogyan írnád le a hivatásod dióhéjban egy laikus számára?
Látszólag tényleg nagyon sokféle témával foglalkozom, de ezeket mind szorosan összeköti a háttérben rejlő matematikai gondolkodásmód. Fizikusként talán a leglényegesebb, amit megtanulunk, hogy bonyolult, komplex rendszereket hogyan lehet matematikailag kezelhető formában értelmezni és vizsgálni, majd ennek segítségével következtetéseket levonni, és megérteni a valóságot. Az utóbbi néhány évtized alatt – az egyre korszerűbb technológiáknak hála – hatalmas biológiai adathalmazok gyűltek össze, melyeknek az értelmezése néha nagyon komplikált, könnyű elveszni a részletekben. Nem néhány száz soros Excel-táblázatokról van szó, hanem gyakran több milliárd soros szöveges fájlokról. Az ilyen adatokban keresek mintázatokat, törvényszerűségeket matematikai és számítógépes módszerekkel. Programokat írok, melyek segítenek az ilyen „Big Data”-elemzésekben elválasztani egymástól a tényleges, biológiai jelentőségű motívumokat a zajtól, a műtermékektől. Nagyon motiváló ezzel foglalkozni, mert az általános megközelítéseket különböző, klinikailag nagyon fontos és aktuális kérdésekben tudjuk használni.
Az ELTE fizika szakán végeztél, és a kutatás mellett oktatsz is ott. A katedrán, a számítógép előtt vagy a laborban töltöd a legtöbb időt?
Egyértelműen a számítógép előtt. Laborban utoljára talán még hallgatóként jártam, azóta legfeljebb csak laborlátogatáson. Az adatok, amiket feldolgozok, gyakran publikus, online forrásokból származnak, vagy orvos, biológus partnerektől, akiktől már számítógépes fájlok formájában érkezik hozzánk az információ. „Igazi” biológiai mintákkal (például vér, szövet) mi nem találkozunk. Ez egyébként jól mutatja, hogy mennyire fontos a tudományterületek szoros együttműködése (interdiszciplinaritás) az ilyen kutatásokban. Mindenkinek megvan a saját szakterülete, az, amiben igazán profi, de ismerjük a többiek módszertani megközelítéseit is, hiszen csak így tudjuk hatékonyan segíteni egymást. Az oktatás során is elsősorban számítógépes megközelítéseket tanítok, ezek olyan készségek, amelyeket csak gyakorlással lehet igazán elsajátítani. Ezért az ilyen tárgyaknál projektcentrikus módszert alkalmazunk, kevesebb a hagyományos előadás, inkább konzultációkat tartunk.
Milyen egy átlagos munkanapod vagy heted?
Nem is tudom, lehet-e igazán átlagos munkanapról beszélni. Kívülről nézve az összes ugyanolyan: ülök a gép előtt, néha egy-egy megbeszélés vagy konzultáció erejéig felveszem a fülhallgatót, olvasom a szakcikkeket, kódolok, néha pályázatot írok. Viszont soha nem csinálom egészen ugyanazt, amit már korábban: minden projekt más, minden tudományos kérdéshez újabb és újabb módszereket kell megtanulni, újabb és újabb ötletek kellenek az algoritmusok kifejlesztéséhez. Talán éppen ez az, amit a legjobban szeretek a munkámban: folyamatosan új dolgokat lehet kipróbálni, megtanulni.
Big Data, DNS-szekvenálás... Sok izgalmas fogalom merül fel a munkáddal kapcsolatban. Mit jelentenek ezek pontosan? És van esetleg olyan kifejezés, amit szerinted érdemes megismernünk?
Persze, rengeteg! Olyan vagyok, mint a tipikus tanár, aki azt gondolja, hogy a saját tárgyánál nincs fontosabb a világon. Úgyhogy inkább maradjunk csak az említett kettőnél. A Big Data olyan hatalmas adatmennyiségeket jelent, amelyeket hagyományos módszerekkel már nem lehet kezelni. Például ha egyszerűen rákattintunk egy több terabájt méretű szöveges fájlra, azonnal lefagy a számítógép. Ezek az adatok olyan gyorsan és nagy mennyiségben keletkeznek (például minden Google-keresésnél vagy mobiltelefon-használatnál), hogy speciális számítógépes módszerekre van szükség a feldolgozásukhoz. A biológiában egyetlen beteg DNS-ének elemzése is gigabájtnyi adatot jelent, általában pedig több száz vagy akár több ezer beteget vizsgálunk egyszerre, hogy felfedjük a jellegzetes genomikai mintázatokat.
A DNS-szekvenálás már messzebbre vezet… A DNS (dezoxiribonukleinsav) egy hosszú-hosszú makromolekula, amelynek az építőkövei a nukleotidok. A DNS az örökítőanyagunk: tartalmazza az emberi szervezet fejlődéséhez, működéséhez és szaporodásához szükséges genetikai információk összességét. Na de mik azok a nukleotidok? Három részből állnak, a dezoxiribózból (ami egyféle cukor), a foszforsavból és a nukleobázisból. Ez utóbbi a DNS esetében négyféle lehet: adenin (A), guanin (G), timin (T) és citozin (C). Az információkat e négyféle nukleotid sorrendje adja meg, ezt hívjuk a DNS szekvenciájának. A szekvenálás olyan labortechnológiai folyamat, melynek során a DNS-molekulából meghatározzuk a nukleobázisok sorrendjét, így tulajdonképpen egy olyan szöveges fájlt kapunk, melyben egymást követik az A, G, T és C karakterek. (Ez az emberi DNS esetében körülbelül hárommilliárd karakteres lánc, ami nagyjából ezer közepesen hosszú regény terjedelme.) Ma már speciális gépek ezt automatikusan, néhány óra alatt meg tudják csinálni, de még így is óriási számítási feladat az eredmény feldolgozása, az adatok elemzése gyakran hetekig tarthat.
Ősszel Junior Prima díjjal ismerték el a munkásságod a magyar tudomány kategóriában. Ha jól tudom, egyik büszkeséged az IsoMut nevű szoftver, amely többek között a rákkutatásban nyújthat segítséget.
Az IsoMutot még a doktori munkám során fejlesztettük ki. Nagyon pontosan és gyorsan képes a DNS-ben megjelenő elváltozások (mutációk) azonosítására, különösen akkor, ha sok hasonló genetikai hátterű minta áll rendelkezésre. Az algoritmust az hívta életre, hogy az akkori MTA (ma HUN-REN) TTK Enzimológia Intézet kutatócsoportja éppen olyan kísérleteken dolgozott, melyek során nagyon hasonló sejtpopulációkban vizsgálták különböző gének hibáinak a DNS-mutációkat befolyásoló hatását, és gyors, hatékony módszert kerestek az adataik elemzésére. Ez a rákkutatás szempontjából nagyon fontos kérdés, mivel a rák genetikai betegség. A daganatos sejtek DNS-ében valami elromlik, s ennek következtében megállíthatatlanul szaporodni kezdenek. Az viszont a mai napig nem tisztázott, hogy egy-egy konkrét génnek a meghibásodása pontosan milyen lavinaszerű folyamatokat indít be. Ezek a kísérletek éppen ezt derítették fel.
Ugyanebben a kollaborációban gyakran használt kemoterápiás szerek által okozott mutációk tulajdonságait is elemeztük az IsoMut segítségével, ami a kezelésekkel szemben jelentkező rezisztencia kialakulásáról ad fontos információkat. Azóta sokféle kutatásban használják a szoftvert, ami ugyan nagyon specifikus feladatra lett tervezve, ebben az esetben azonban a hagyományosan leginkább elterjedt módszernél csaknem százszor gyorsabb. Ez a tulajdonsága hosszú genomok vizsgálata esetén nagy előnyt jelent, mert a többórás elemzési lépések néhány percesre rövidülnek.
A Coviddal kapcsolatban is fűződik a nevedhez egy nagyszabású elemzés.
Nem hiszem, hogy a Covidról sokaknak pozitív asszociációi lennének, tudományos szempontból viszont nagyon sok áttörést hozott ez az időszak. A járvány során példa nélkül álló nemzetközi összefogás alakult ki a tudósok között, és ennek köszönhetően a megszekvenált vírusgenomok milliószámra kerültek fel az online elérhető publikus adatbázisokba. Ezt az adathalmazt, azaz több mint kétmillió SARS-CoV-2-szekvenciát vizsgáltam meg, arra a kérdésre keresve a választ, mennyire gyakori, hogy egyetlen ember többféle vírusvariánssal egyszerre fertőződjön meg. Például elképzelhető, hogy a délutáni csúcsban már kicsit kaparó torokkal hazafelé zötyögünk a buszon, amikor egy mellettünk álldogáló, mindkét kezében nehéz bevásárlószatyrot tartó utas véletlenül ránk köhög. Ha ez éppen a 2021-es év vége felé történik, amikor a vírus omikron variánsa leváltotta a deltát, nem lehetetlen, hogy egyszerre mindkét típusú vírust elkapjuk. Az elemzés alapján kiderült, hogy az esetek 0,35 százalékában fordul elő ilyen, a teljes adathalmazban hétezer-hétszáz koinfekciós beteg volt. Külön érdekes kérdés, hogy az ilyen betegek szervezetében a vírusvariánsok kereszteződnek-e, kialakulhat-e egy teljesen új, „rekombináns” variáns. Ennek vizsgálatához többféle trükkös algoritmust fejlesztettem, mert nagyon nehezen detektálható jelenségről van szó. Az eredmények azt mutatták, hogy ritkán ugyan, de előfordul ilyen kereszteződés is, ami nagyon izgalmas a vírus evolúciója szempontjából.
Csabai István kutatócsoportjával a biológiai öregedés folyamatát is vizsgáljátok. Mesélj erről is! Milyen egyéb projekteken dolgozol/dolgoztok most?
Most valóban főként az öregedési folyamat biológiai lenyomatait tanulmányozom, leginkább DNS-metilációs adatokat használva. Ezek a DNS-nek olyan módosulásai, amelyek a szekvencia sorrendjét ugyan nem változtatják meg, mégis hatással vannak a gének működésére. Arra is kíváncsiak vagyunk, hogy az öregedés programozott folyamat-e, vagy egyszerűen az idővel felhalmozódó véletlen genomi és egyéb, szervezeten belüli hibák következménye.
Emellett orvosokkal közösen sok klinikai kutatási adat elemzésében is részt veszek. Ezek nagyon kézzelfogható projektek: azokat a biológiai jeleket (például laborparaméterek, szövettani sajátosságok) keressük, melyek alapján megjósolható, hogy a tüdőrákos pácienseknél milyen lesz a betegség lefolyása, és milyen terápiák lehetnek számukra a leghatékonyabbak.
Mi alapján dől el, hogy milyen témák kerülnek a kutatásaitok fókuszába?
Ezeknél az adatintenzív projekteknél a legfontosabb mindig az, hogy mihez van elég adatunk, mik azok a tudományos kérdések, amelyek a meglévő információk alapján megválaszolhatók. Az adat az első. Utána meg kell keresni benne azt, amit mások még nem látnak.
Gyakran előfordul, hogy orvos, biológus kollégák konkrét kérdésekkel fordulnak hozzánk. Ezek nagyon jó lehetőségek egy-egy új téma megismerésére és az elemzési módszerekben való elmélyülésre. A közös munka során dinamikusan alakul ki a kutatási irány. Mi az algoritmusokkal igazodunk a tudományos kérdésekhez, a partnereink pedig úgy gyűjtik az új adatokat (például kísérletek, mintagyűjtés betegektől), hogy az lehetővé tegye a pontos számítógépes elemzéseket.
Egy előadásodban arról beszéltél, hogy a 21. század a biológia virágkora, és hogy olyan fejlesztések valósulhatnak meg, amilyenekre korábban nem gondoltunk volna. Mit érzel a legnagyobb friss mérföldkőnek, áttörésnek az általad tanulmányozott tudományos területeken?
Egyértelműen a mesterséges intelligencia (MI) rohamos fejlődését. Évtizedek óta a biológia egyik legnagyobb kihívása volt megjósolni, hogy a fehérjéket alkotó aminosavak sorrendje alapján a fehérje milyen háromdimenziós alakzatot vesz fel. Az AlphaFold MI rendszer 2020-ban gyakorlatilag megoldotta ezt az ötvenéves problémát, amiért az alkotói megosztva megkapták a 2024-es kémiai Nobel-díjat. És ez csak egyetlen példa. Persze árnyoldala mindennek van, de az MI és az utóbbi évtizedekben felhalmozódó rengeteg adat gyökeresen átalakíthatja az orvosi gyakorlatot. Bízom benne, hogy ez együtt jár majd azzal, hogy egészségesebb és hosszabb életet élhessünk.
Történelmi alak, akivel leülnél egy kávéra? |
Szívesebben kávéznék a barátaimmal, arra sincs elég időm. |
Olyan hobbi vagy szenvedély, ami nem került szóba? |
Balaton. |
Külföldi ország, ahol élnél? |
Ausztria, hogy gyorsan haza tudjak jönni. A honvágyat rosszul viselem. |
Könyv, amit ajánlanál az olvasóknak? |
John le Carré könyvei (a kémregénykedvelőknek) és a Harry Potterek (mindenkinek). |
Fotók: Hartyányi Norbert / Kultúra.hu