11. fejezet - Bioinformatika - a DNS számítások „komplementere"

Tartalom

11.1. A bioinformatika alapjai
11.2. Biológiai rendszerek modellezése
11.2.1. Tiltó-kötelező rendszerek
11.2.2. Reakciós rendszerek
11.2.3. Membrán rendszerek
11.3. A DNS számítások biológiai alkalmazásai

A könyvünk elején ismertettük a DNS felépítését. A könyv különböző fejezeteiben azt vizsgáltuk, hogyan lehet számításokban felhasználni ezen molekulákat (elvben és/vagy gyakorlatban). A természetben a DNS-ben az adott fajra, és azon belül az adott egyedre egyedileg jellemző genetikai információ/kód tárolódik.

Az előző fejezetben már az élő sejtben levő „számítási folyamatokat'' vettük szemügyre. Ez a témakör a DNS számítások és a bioinformatika határterületén található. Ebben a fejezetben röviden áttekintjük mi is a bioinformatika, illetve hogyan kapcsolódik a DNS számításokhoz.

11.1. A bioinformatika alapjai

A bioinformatika olyan interdiszciplináris tudomány, amiben biológiai problémák megoldását keressük erőteljes számítógépes, informatikai segítséggel. A cél, a feladat tehát pl. biológiai folyamatok megértése, leírása, modellezése, vagy akár befolyásolása is lehet; az eszköz pedig az informatika, ennek eszközeit és módszereit alkalmazzuk. Hasonlóan a DNS számításokhoz a bioinformatika is a biológia és az informatika határterületén fekszik. A bioinformatika a molekuláris biológiához és a biotechnológiához is szorosan kapcsolódik.

Tehát éppen fordított a cél-eszköz viszony, mint a DNS számítások esetén. Bár a biológiai adatok kinyeréséhez ugyanazokat a műveleteket végezzük a DNS molekulákkal, mint a DNS számítások estén, az egyik fontos különbség, hogy itt nem magunk által adott kísérlethez megtervezett és legyártott DNS molekulákkal dolgozunk, hanem a természetben találhatóakkal. Azokat szekvenáljuk, térképezzük fel... A szekvenálás, vagyis a DNS molekula bázissorrendjének meghatározása az első lépés, és már itt szüksége van a biológusoknak az informatikusok és számítástudósok segítségére. A természet nemcsak a DNS molekulák (illetve a sejtek és élőlények) nagy számával „dolgozik", de a természetben található DNS-ek hossza is meghatározó jelentőséggel bír, és általában nagyságrendekkel nagyobb, mint amikkel a DNS számítások során a laborban találkozhatunk.

Ennek megfelelően, sokszor nem(csak) a vizsgált molekulák száma, hanem azok mérete okozhat gondot a biológusoknak. Ma már automata szekvenáló berendezések állnak rendelkezésre, viszont csak az élő sejtekben előforduló DNS szálak töredékének megfelelő hosszú molekulákra működnek. A rövid molekulák nagyon gyorsan, pontosan és nagyon olcsón szekvenálhatók ezekkel a gépekkel. Tehát ha gyorsan akarunk eredményt elérni, akkor a hosszú (akár 1010 nagyságrend körüli) DNS láncot felvágjuk rövid (értsd pár száz nukleotidpár hosszúságú) részekre. Sokszor nem egy, hanem több molekulát, és nem ugyanott elvágva. Ezek az átfedő részek segítenek a megfejtett darabok sorrendjének megállapításában. Itt persze egy algoritmuselméleti probléma is fellép: hogyan lehet ezt gyorsan, hatékonyan megoldani (illetve milyen feltételek kellenek a szétvágásnál, hogy aztán minél gyorsabban és minél biztosabban kaphassuk meg a végeredményt).

A természetben előforduló DNS láncok megfejtése tehát elsődleges fontosságú a (molekuláris) biológia számára. 2000-ben sikerült az ember genetikai kódját „megfejteni", vagyis szekvenálni először egy emberi DNS-t a Human Genom Programjának részeként. Az emberi DNS kb. 3 milliárd bázispárból áll (3 ⋅ 109). Egy ilyen hosszú láncban, egy molekulában, elvben kb. 5.6 Gigabájtnyi adat fér el. A DNS molekulák a természetben előforduló leghosszabb molekulák közé tartoznak. Az emberi DNS lánc megfejtése volt az első mérföldkő, az első nagy horderejű lépés, egy hosszúnak tűnő úton az ember vizsgálatával kapcsolatban. Ez olyan, mintha egy programnyelv szintaktikáját ismernénk, láthatjuk, milyen kódot „írt" a természet. Viszont a szemantika, hogy hol, mi, mit jelent, sokkal nehezebbnek tűnő feladat, amit nem biztos, hogy olyan gépies eszközökkel sikerül megfejteni, mint a szintaktikát... A DNS lánc megértése tehát a nagy kihívás, amiben vannak biztató kisebb, illetve nagyobb részeredmények.

A természetben előforduló DNS molekulák vizsgálata viszont a DNS számítások szempontjából is fontos. A DNS számítások során előállítható mesterséges DNS láncok általában csak pár ezer bázis(pár) hosszig használhatóak. A természetben viszont több nagyságrenddel hosszabb DNS szálak is előfordulnak, sőt túlnyomó többségben ilyenek fordulnak elő. A természet titka a DNS molekulák térbeli struktúrájában van. Egy nagyságrendileg 109-1010 bázispárt tartalmazó molekulát nem egy hosszú spirálrugóként kell elképzelnünk, hiszen a hossza már méter nagyságrendű. Az élő sejtben, aminek mérete azért elég tág határok közt mozog, de legtöbb esetben 1-2 nagyságrenddel a milliméter mérete alatt van, el sem férne egy ilyen hosszú molekula, ha nem lenne megfelelően összehajtva. Ez az összehajtogatás, vagy csomagolás általában több lépcsőben hierarchikusan zajlik. A DNS molekula három dimenziós alakja pedig nagyon fontos az élő sejt szempontjából.

Van tehát egy DNS molekulánk az élő sejtből. Az első kérdés, hogy hogyan működik és hogyan tárolja az élethez nélkülözhetetlen információt?

A molekuláris biológia alaptétele szerint a DNS-ben tárolt információ, a bázissorrend valójában fehérjék aminosavsorrendjét határozza meg. A genetikai információ tehát először RNS-be íródik át, az RNS pedig hírvivőként érvényesül a DNS és a riboszómának nevezett fehérjeszintézis komplexek között. Nukleotidhármasok képesek mind a 20 aminosav kódját meghatározni. Eszerint a 20 aminosavat 64 lehetséges kombináció kódolja, vagyis van amit több kód is leír. A DNS-ben szereplő gének (speciális részszavak) tehát polipeptidek, fehérjék szintézisét irányítják RNS molekulák közreműködésével. A DNS-ben három egymást követő nukleotid együtt kódol egy aminosavat, ezeket a hárombetűs kódokat kodonoknak nevezzük. Ahogy a hagyományos számítógépek a 2-es számrendszer alapján binárisan működnek, ugyanúgy a DNS a négybetűs ábécét használja. Ahogy viszont az ember is általában olyan ábécével dolgozik, amely már elég nagy méretű ahhoz, hogy ne legyenek túl hosszúak a vele leírható kódok, viszont általában nem túl nagy méretű, mert azt meg megjegyezni nem egyszerű, gondoljunk itt a régi kínai írásra, amit sok-sok éven keresztül tanultak még felnőtten is azok, akik megfelelő szintű írástudással akartak rendelkezni. A legtöbb ábécé 25 és 50 közti betűvel dolgozik, (ahogy pl. az angol, a görög, az orosz, a magyar, stb.,) az ember számára ez a méret tűnik legmegfelelőbbnek. A számítógépek esetén is általában hexadecimális (esetleg decimális) alakban is szokás az értékeket írni. Ehhez hasonlóan a DNS-ben, a génekben levő információt is átkódolhatjuk egy „másik számrendszerre": a 4 nukleotidból 64-féle három nukleotidból álló kód, vagyis kodon képezhető. Ezekből a hármasokból 61 darab különböző aminosavakat kódol (nem mind különbözőt, ahogy látni lehet a 11.1. táblázatban), 3 pedig, úgynevezett „stopjel", ami azt jelzi, hogy vége az átkódolandó résznek. Felmerült, hogy lennie kell „startjelnek" is, és valóban kiderült, hogy minden fehérje metioninnal kezdődik, aminek viszont csak egyetlen kodon felel meg. Ez a kodon tehát egyben a startjel is. Mivel az átírásban RNS molekulák vesznek részt (hírvivő RNS), a kodonokat általában ennek megfelelően RNS szakasz hármasokkal szokás megadni. Az aminosav-kódokat, a kodonokat, és jelentésüket a 11.1. táblázat mutatja.

11.1. táblázat - A három betűs genetikai kódok, a kodonok 5'-től 3' irányban olvasva, és jelentésük: a megfelelő aminosavak és szokásos 3 betűs rövidítésük.

kodon röv. aminosav kodon röv. aminosav
UUU Phe Fenil-alanin AUU Ile Izoleucin
UUC Phe Fenil-alanin AUC Ile Izoleucin
UUA Leu Leucin AUAIle Izoleucin
UUG Leu Leucin AUG Met Metionin, START
UCU Ser Szerin ACU Thr Treonin
UCC Ser Szerin ACC Thr Treonin
UCA Ser Szerin ACA Thr Treonin
UCG Ser Szerin ACG Thr Treonin
UAU Tyr Tirozin AAU Asn Aszparagin
UAC Tyr Tirozin AAC Asn Aszparagin
UAA - STOP AAA Lys Lizin
UAG - STOP AAG Lys Lizin
UGU Cys Cisztein AGU Ser Szerin
UGC Cys Cisztein AGC Ser Szerin
UGA - STOP AGA Arg Arginin
UGG Trp Triptofán AGG Arg Arginin
CUU Leu Leucin GUU Val Valin
CUC Leu Leucin GUC Val Valin
CUA Leu Leucin GUA Val Valin
CUG Leu Leucin GUG Val Valin
CCU Pro Prolin GCU Ala Alanin
CCC Pro Prolin GCC Ala Alanin
CCA Pro Prolin GCA Ala Alanin
CCG Pro Prolin GCG Ala Alanin
CAU His Hisztidin GAU Asp Aszparaginsav
CAC His Hisztidin GAC Asp Aszparaginsav
CAA Gln Glutamin GAA Glu Glutaminsav
CAG Gln Glutamin GAG Glu Glutaminsav
CGU Arg Arginin GGU Gly Glicin
CGC Arg Arginin GGC Gly Glicin
CGA Arg Arginin GGA Gly Glicin
CGG Arg Arginin GGG Gly Glicin

Ez a kód általában univerzálisnak nevezhető (bár vannak apró eltérések egyes esetekben, pl. az emlősök mitokondriumaiban az AGA és AGG is stopjelek, pedig egyébként ezek arginint kódolnak). Egy átlagos méretű gén hossza 1200 bázispár.

A DNS tehát tartalmazza az élő organizmus fejlődésért és működésért felelős genetikai utasításokat, leginkább úgy, mint egy tervrajz. A DNS stabil és hosszú távon tárolja az információt. Képes másolni önagát: információ változtatás nélkül másolódik, hiszen osztódáskor a genetikai információ nem változik. Ezt a genetikai információt hordozó részeket nevezzük géneknek. Léteznek egyéb DNS szakaszok, amelyek strukturális célokat szolgálnak, a háromdimenziós alak létrehozásában van jelentős szerepük, illetve a gének használatba vételét szabályozzák.

Az, hogy mindezek pontosan hogyan zajlanak nem könnyen megfejthető, hiszen egy élő organizmus nagyon összetett és egyszerre nagyon sokféle folyamat játszódik le benne. Egyelőre még nagyon távolinak tűnik, hogy megfejtsük az „élet nagy titkát".