10.2. A génképzési feladat

A szokásos jelölést használva az egyszálú DNS-t az {A, C, G, T} ábécé feletti sztringek, a kétszálú DNS láncokat pedig dupla szavak fogják jelölni. A teljes dupla láncokban a felső és az alsó sztringhossz ugyanannyi, és minden egyes betű az egyik sztringből a komplementere a másik sztring megfelelő betűjének. Egy ilyen láncot pl. a jelöl, ahol a egyszálú DNS láncot a pi inverzének nevezzük. Hasonlóan a kétszálú DNS-láncokra is értelmezhetjük az inverz elnevezést, amikor ugyanazt a molekulát, de a másik végéről tekintjük. Ezenkívül ragadós végű molekulákat is fogunk használni a folyamat során.

A mikronukleuszban a genetikailag fontos részeket (MDS: Macronuclear Destined Sequence) egymástól genetikai információt nem hordozó (IES: Internally Eliminated Sequence) részek választják el.

Az MDS-ek {M1, ..., Mk} halmazának (k > 1) minden eleme pontosan egyszer fordul elő a mikronukleuszban. Ezeknek az Mi értékeknek a felépítése a következő:

ahol 2 ≤ ik - 1 az első és az utolsó MDS pedig:

A μi részek az Mi gén „testének'' tekinthetőek, ezek teljes dupla szálrészek. Ezzel szemben a pi egyszeres szál Watson-Crick komplementere a a kettő együtt pedig mutatóként funkcionál. A DNS láncrészt az Mi MDS bemeneti, és az Mi-1 MDS kimeneti mutatójának nevezzük (mindkét MDS-ben előfordul). A mikronukleuszban minden mutató kétszer fordul elő, egyszer bemeneti-, egyszer pedig kimeneti mutatóként. A b és e kétszálú láncok pedig a kezdő- és a végjelzők, ezek olyan láncszakaszok, amik pontosan egyszer fordulnak elő a mikronukleuszban. Fontos, hogy ezek a jelzők és mutatók mindig az MDS és az IES határán helyezkednek el, azokat elválasztva egymástól.

Az Mi részek inverzei a következőképpen írhatóak fel:

az első és az utolsó MDS esetén pedig:

Ezek ugyanazt a dupla láncszakaszt jelentik fordított irányban elhelyezkedve (pl. a mikronukleuszban). Pl. a mikronukleusz lehet ahol az M5 inverze, az I0, I1, I2, I3, I4, I5 és I6 láncszakaszok pedig az IES-ek, beleértve a mikronukleusz elején és végén levő nem genetikai kódot tároló szakaszokat is (lásd 10.1. ábra).

10.1. ábra - Az MDS-ek egy lehetséges elhelyezkedése a mikronukleuszban.

Az MDS-ek egy lehetséges elhelyezkedése a mikronukleuszban.

A mikronukleusz és a makronukleusz közti kapcsolat az, hogy a makronukleuszt megkaphatjuk a mikronukleuszból "átfedő ragasztásokkal'', úgy, hogy az eredetileg nem sorrendben levő MDS-ek a helyes sorrendben és az IES-ek nélkül alkotják a makronukleuszt (10.2. ábra).

10.2. ábra - A makronukleusz felépítése, az összerakott génsorozat.

A makronukleusz felépítése, az összerakott génsorozat.

A génképzés (angolul: gene assembly) művelete alatt, a mikronukleuszt transzformáljuk makronukleusz formába, az IES-ek a sorozatban fokozatosan kivágódnak, és az MDS-ek összeillesztődnek a szükséges sorrendben.

Ahogy látni fogjuk, a természet évmilliók óta használja a láncolt-lista adatszerkezetet. A mikronukleuszban a mutatók jelzik az MDS-ek sorrendjét, méghozzá oly módon, hogy a makronukleuszban maguk a mutatók is a gének részei és genetikai információt hordoznak.

Ha a mutató kétszer ugyanabban a formában fordul elő, akkor direkt ismétlésnek, ha az egyik előfordulás a másik inverze, akkor inverz ismétlésnek hívjuk.

10.2.1. A mutatók szerepe a modellben

A génképzés tehát az a folyamat, amiben a mikronukleuszból a makronukleusz elkészül.

Az IES-ek a fokozatosan kivágódnak a láncból miközben az MDS-ek a megfelelő sorrendben egymás mellé kerülnek. Ebben a feladatban a mutatók játsszák a döntő szerepet. A jelölés egyszerűsítéseként a mutatókra pozitív számokkal fogunk hivatkozni 2,3,...k, a mutatók inverzeit pedig a fogják jelölni. Ezen kívül megtartjuk a b, e (mint első és k + 1. mutató helyetti szakaszokat) és jelölést ezek inverzére.

A génképzési folyamat modellezésében tehát a fő ötlet az, hogy csak a mutatókat és a (vég)jelzőket tartjuk meg. A mutatók megfelelő sorrendbe transzformálása a cél... A génképzés akkor ér véget, ha az MDS-ek egy folytonos szakaszt alkotnak, amit a b és e jelzők határolnak. Ha ily módon létrejött a makronukleusz, akkor azt mondjuk a génképzés stratégiája sikeres volt.

Számítási szempontból tehát maguk az MDS-es és IES-ek nem érdekelnek minket, a műveletek a mutatók helyétől és egymáshoz viszonyított elhelyezkedésétől függnek, és azokon dolgoznak. Használjuk tehát az (i, i + 1) jelölést az i. MDS-re. Így az inverze: (Ahol i = 1 a b, i = k + 1 pedig az e; a többi i érték a pi mutatót jelöli.)