Strukturní bioinformatika
Strukturní bioinformatika, někdy též strukturální bioinformatika (z anglického structural bioinformatics), je jednou z mnoha oblastí výzkumu bioinformatiky. Zabývá se tvorbou obecně platných metod pro manipulaci s informacemi o biologických makromolekulách a aplikací těchto metod k řešení biologických problémů.[1]
Struktura biomolekul
Mezi biomolekuly řadíme proteiny, nukleové kyseliny (RNA, DNA), lipidy, polysacharidy a malé molekuly jako hormony, léčiva či polutanty.
Popis struktury
Základním způsobem, jak popsat strukturu biomolekul, je popis prostřednictvím délky vazeb, velikosti vazebných a torzních úhlů. Tyto parametry pak můžeme vyjádřit v různých systémech souřadnic – kartézské souřadnice xyz, vnitřní souřadnice či objektové souřadnice. Nejběžnějším systémem souřadným při popisu struktur je systém kartézských souřadnic, který je ortogonální. Pro konstantní délky vazeb a velikosti vazebných úhlů je však možné počet souřadnic redukovat a popisovat struktury pouze pomocí torzních úhlů v systému vnitřních souřadnic. V objektovém souřadném systému využíváme reprezentace popisující pozici sekundárních struktur. Tuto formu reprezentace volíme, je-li určitá část proteinu ve standardní konformaci, přesně definované pomocí sekundární struktury, a tak na ni můžeme pohlížet jako na pevné těleso.[2]
Výhodou systému vnitřních souřadnic oproti systémů kartézských souřadnic je redukce počtu souřadnic. Nicméně v důsledku této redukce se stává obtížnějším určit základní charakteristiky jako vzdálenost mezi dvěma body či porovnání nezávislých objektů.
Délka vazby je funkcí pozice dvou atomů. Jde o vzdálenost mezi vazebnými atomy a je konstantní. Je závislá na typu vazby a typickými rozměry je 1 Å pro jednoduchou vazbu C-H a až 1,5 Å pro jednoduchou vazbu C-C. V kartézských souřadnicích platí pro vzdálenost dvou bodů o souřadnicích a vztah .
Vazebný úhel je dán uspořádáním tří sousedních atomů a jsou pro daný typ konstantní. Tento úhel je závislý na typu atomu a množství elektronů, které jsou ve vazbě zahrnuty. Vazebný úhel zpravidla nabývá hodnot mezi 100 a 180.
Torzní úhel je obvykle velmi variabilní, může zaujímat hodnoty od 0 až do 360.
Porovnání struktur
Pro porovnání dvou struktur A a B potřebujeme znát několik základních údajů, a to:[2]
- který atom ze struktury A koresponduje se kterým atomem ze struktury B,
- kde v prostoru jsou atomy lokalizovány
- a potřebujeme znát kritéria pro srovnání.
Ke srovnání struktur slouží charakteristika označovaná jako RMSD (root mean square distance, česky střední kvadratická vzdálenost). Při využití RMSD uvažujeme všechny atomy struktury jako rovnocenné a hledáme informaci, jak lze struktury vzájemně superponovat. Jsou-li struktury identické, pak je jejich RMSD rovno 0. S rostoucí odlišností molekul roste i RMSD. Platí, že
,
kde je počet atomů a je vzdálenost dvou atomů s indexem struktur A a B.
Výhodou RMSD je přiměřené chování, tedy že shodné struktury mají RMSD rovno 0. Dalším kladem je jednoduchost výpočtu, výsledek v přirozených jednotkách Å a zkušenost, která nám říká, že podobné struktury mají RMSD v rozmezí 1–3 Å.
Nevýhodou je, že všechny atomy jsou uvažovány se stejnou vahou, přičemž ale různě těžké atomy mají reálně různý vliv.
Hierarchie struktur
Z hlediska hierarchie struktur hovoříme o tom, že biomolekuly mají primární, sekundární, terciární a kvartérní strukturu. Primární struktura je reprezentována sekvencí základních stavebných prvků struktury. Sekundární struktura je definována jako uspořádání těchto základních stavebních prvků v prostoru. Terciární struktura je tvarem domény a kvartérní struktura představuje tvar celého uskupení.[1][2][3]
Struktura proteinů
Základním stavebním prvkem proteinů jsou aminokyseliny. Primární strukturou zde rozumíme sekvenci aminokyselin (kolik jich je a jak jsou za sebou seřazeny), sekundární strukturou poskládání lokálních částí do polypeptidického řetězce (tj. určuje prostorové vztahy sousedních nebo blízkých AK). Z hlediska sekundární struktury rozlišujeme α-helix, β-skládaný list a β-ohyb. V rámci sekundární struktury se vyskytují důležité torzní úhly – ω, φ a ψ. Terciární struktura udává tvar molekuly v prostoru. Podle terciární struktury dělíme proteiny na globulární ve tvaru koule, fibrilární ve tvaru vláken a membránové, které jsou součástí biologických membrán. Kvartérní struktura popisuje strukturu proteinu na nadmolekulové úrovni, tedy jak jsou uspořádány asociované polypeptidové řetězce. Asociace má význam z hlediska kooperativity, kdy asociace zesílí vazebné vlastnosti molekul; kolokalizace funkcí, pokud každá podjednotka má jinou funkci; kombinace podjednotek, kdy dochází k přizpůsobování; a skládání větších struktur.
Torzní úhly zmíněné u sekundární struktury mají své charakteristiky. Úhel ω je úhel mezi α-uhlíky a je v proteinech konstantní. Úhel ψ je úhel mezi dusíkem a α-uhlíkem a úhel φ je úhel mezi α-uhlíkem a karbonylem. Úhly ψ a φ nabývají různých hodnot v rámci intervalu, který jim umožňuje prostorové rozložení molekuly. Navíc tyto dva úhly nabývají specifických hodnot u konkrétních struktur, například v α-šroubovici ψ = -57° a φ = -47°, v paralelní β-struktuře ψ = -119° a φ = 113° a v antiparalelní β-struktuře ψ = -139° a φ = 135°.[4] Kombinace velikosti úhlů (φ, ψ) je pravděpodobně nejvýznamnější konformační vlastností reziduí proteinu. Tzv. Ramachandranův diagram, který tyto hodnoty vykresluje pomocí dvourozměrného grafu s φ na jedné a ψ na druhé ose, je užitečným nástrojem k předpovězení, jak pravděpodobná je predikovaná struktura proteinu. V tomto diagramu jsou znázorněny
- oblasti, kde se nachází většina aminokyselin (preferované oblasti),
- oblasti, kde se aminokyseliny běžně vyskytují (povolené oblasti),
- oblasti, kde se aminokyseliny vyskytují pouze zřídka (nepreferované oblasti)
- a oblasti, kde se aminokyseliny téměř nevyskytují (zakázané oblasti).
Struktura nukleových kyselin
Základním stavebním prvkem nukleových kyselin jsou báze nukleových kyselin, primární strukturu tedy představuje sekvence bází nukleových kyselin ve vláknech. Sekundární struktura je dána interakcemi mezi jednotlivými bázemi. Nejobvyklejší formou, ve které se z hlediska sekundární struktury nukleové kyseliny nachází, jde obvykle o uspořádání ve tvaru dvoušroubovice. Terciární struktura je určena uspořádáním atomů v prostoru a kvartérní struktura popisuje vyšší úrovně organizace (DNA v chromatinu, RNA v ribozomu či spliceozomu).
Získávání struktury
Strukturu můžeme experimentálně získávat mnoha způsoby, přičemž mezi nejběžnější patří rentgenová krystalografie, nukleární magnetická rezonance (NMR), elektronová mikroskopie (EM) , Mössbauerova spektroskopie (MS) a Försterův rezonanční přenos energie (FRET).
Rentgenová krystalografie
Rentgenová krystalografie je experimentální metoda, která je ve strukturní bioinformatice využívána k získávání statických 3D struktur. Pomocí této metody dostáváme informace o souřadnicích atomů v kartézských souřadnicích. Je také vhodná pro interpretaci mezimolekulové interakce.[1][2]
Samotný proces získávání struktury je velmi náročný. Nejprve probíhá fáze klonování, exprese proteinu, následná purifikace proteinu a jeho krystalizace. Tato fáze může být také označena jako růst proteinových krystalů. Teprve po této komplikované přípravné fázi dochází k difrakčnímu experimentu za pomoci RTG záření, jehož výsledkem je mapa elektronové hustoty získaná prostřednictvím matematických výpočtů. Z této mapy je na závěr fitována výsledná struktura.
Protože elektromagnetické záření interaguje s objekty, jejichž velikost je srovnatelná s jeho vlnovou délkou a vzdálenosti mezi atomy v biomolekulách jsou v intervalu do 1 do 3 Å, využívá se k zobrazování těchto struktur právě RTG záření o laboratorní vlnové délce 1,54 Å.
Při ozařování krystalické struktury dochází k rozptylu RTG paprsků na elektronech. Důvodem využití krystalů tvořených triliony molekul v identické orientaci je skutečnost, že při rozptylu na jedné molekule dostáváme signál, který je pro detekci příliš slabý. Složením rozptýlených vln z krystalu však vzniká měřitelný difrakční signál.
Výpočet mapy elektronové hustoty pomocí amplitud a fází tisíců vlnových funkcí nicméně není triviální. Zatímco amplitudy získáme jako druhé odmocniny intenzity záření rozptýleného během difrakčního experimentu, fáze rozptýlených vln nejsme schopni měřit přímo. Tato skutečnost bývá označována jako fázový problém. Fázový problém však lze řešit, a to několika různými metodami. Přímé metody jsou založeny na systematických souvislostech mezi určitými reflexemi. K využití těchto metod je třeba mít data s vysokým rozlišením a relativně malý systém. Metoda molekulárního nahrazení využívá již existujících podobných, vyřešených struktur k odhadnutí fází. Význam této metody narůstá s množstvím vyřešených struktur. Metody těžkých atomů vnáší do struktury těžký atom (např. Hg, Fe, Pb), který silně rozptyluje RTG záření.
Známe-li fáze , aplikujeme Fourierovu transformaci a predikujeme řetězec α-uhlíkových atomů. Následně dochází k sestavení sekundární struktury a na závěr tvorbě postranních řetězců.
Ve srovnání s NMR je přesnější a umí se vypořádat s rozsáhlejšími strukturami. Získané rozlišení je v jednotkách Å, pro proteiny běžně pod 2,5 Å. Toto rozlišení je dostačující k snadnému rozpoznání hlavního řetězce a elektronové hustoty postranních řetězců. Podaří-li se dosáhnout vysokého rozlišení, jsou v mapě elektronové hustoty jasně rozlišeny i pozice jednotlivých atomů. Publikovatelné struktury musí mít rozlišení do 3,0 Å.
Důležitou poslední částí experimentu je validace struktury.
Nukleární magnetická rezonance
NMR patří mezi rezonanční spektroskopické techniky, které měří přechody mezi dvěma energeticky odlišnými hladinami vzniklými vložením pozorované molekuly do vnějšího magnetického pole. Při vložení molekuly do vnějšího magnetického pole totiž dochází k interakci mezi magnetickým polem a magnetickým momentem jádra, a v důsledku Zeemanova jevu dochází k rozštěpení energetických hladin.
NMR spektroskopie využívá absorpce elektromagnetického záření v oblasti rádiových vln (90–700 MHz), vnější magnetické pole o magnetické indukci 2–14 T a jde o metodu s vysokým rozlišením, ale nižší citlivostí.
Vzhledem ke skutečnosti, že NMR spektroskopie zkoumá interakci mezi magnetickým polem a magnetickým momentem jádra, můžeme pomocí této techniky zkoumat pouze jádra, která mají nenulový magnetický moment, tedy jádra s lichým počtem protonů či neutronů – tato jádra označujeme jako NMR aktivní. Takovými jádry jsou v proteinech přirozeně se vyskytující H či P.
Při zkoumání struktury proteinů dochází k přiřazení pozorovaných H rezonancí jednotlivým aminokyselinám. Tyto protonové rezonance bývají rozlišeny na základě rozdílů chemického posunu ve spektru. Intra-aminokyselinové a inter-aminokyselinové proton-protonové vzdálenosti jsou určovány prostřednictvím dipolární interakce magnetických momentů jader (přímá spin-spinová interakce) probíhající skrze prostor a torzní úhly pomocí vzájemného působení magnetických momentů prostřednictvím vazebných elektronů (nepřímá spin-spinová interakce) prostřednictvím vazeb. Tyto údaje slouží k určení sekundární a terciární struktury protonu.[2]
Využijeme-li nejen H, ale také značené atomy C či N, může dojít k přenosu magnetizace. To lze využít k určení jednotlivých vazeb mezi atomy.
Konkrétními technikami, které jsou v rámci NMR spektroskopie struktur využívány, jsou Correlated Spectroscopy (COSY) a Nuclear Overhauser Enhancement Spectroscopy (NOESY). COSY je metoda využívající homonukleární nepřímé korelace, tedy vzájemné korelace chemických posunů ekvivalentních jader realizované prostřednictvím vazeb. NOESY je metoda, která využívá přechodný nukleární Overhauserův efekt. Rozdílem oproti COSY je, že využívá korelace chemického posunu a interakční konstanty ekvivalentních jader, která je v tomto případě realizována přímou interakcí, tedy prostorem, nikoli prostřednictvím vazeb.
Elektronová mikroskopie
NMR a RTG krystalografie jsou metody vhodné pro získávání atomárních struktur biologických makromolekul, nicméně znalost jednotlivých komponent struktury je zjevně teprve prvním krokem k pochopení biologických jevů jako celků, neboť biologické jevy jsou obvykle více, než jen součet jejich částí.[1]
Mezi výhody EM patří to, že nevyžaduje krystalizaci, nemá žádný horní limit pro velikost studované struktury, vyžadované množství vzorku je relativně malé a s využitím kryogenních technik umožňuje pozorování molekul v jejich přirozeném prostředí. Na rozdíl od předchozích zmíněných metod však neposkytuje atomární rozlišení, rozlišení dosažené pomocí EM je vyšší než 5 Å, proto se využívá pro zkoumání struktury komplexů jako obálek.
Výsledkem EM jsou 3D mapy elektronové hustoty makromolekul, velmi podobné těm získaným pomocí RTG krystalografie. Během zobrazovacího procesu v EM, dopadající elektronový svazek prochází skrze vzorek a jednotlivé elektrony jsou jím rozptýleny či nerozptýleny. K rozptylu může docházet buď elasticky beze ztráty energie, či neelasticky, kdy dochází k přenosu energie z rozptýleného elektronu na elektrony ve vzorku, což vede k radiačnímu poškození. Elektrony vylétající ze vzorku jsou soustředěny pomocí zobrazovací optiky mikroskopu. Výsledné difrakční vzory jsou následně v zobrazovací oblasti buď pozorovány okem, detekovány pomocí CCD kamery, či zaznamenávány na fotografický film či zobrazovací desku.
FRET
Fluorescence (též optická fluorescence) je jev, jenž nastává v případě absorpce fotonu s velkou energií molekulou, která je schopna tento foton ihned vyzářit v oblasti viditelného světla (tj. s větší vlnovou délkou, resp. nižší energií).
Försterův rezonanční přenos energie (FRET) je mechanismus nezářivého přenosu energie mezi dvěma molekulami prostřednictvím dipól-dipólové interakce. Je využíván pro měření vzdálenosti mezi jednotlivými proteiny, a tak poskytuje informace o jejich konformaci. Vzdálenost mezi jednotlivými proteiny je dána vztahem , kde je vzdálenost mezi donorem a akceptorem, při které přenos energie odpovídá 50 % (typicky 20–90 Å)[2]. Pomocí FRET lze také detekovat interakce mezi proteiny.
Databáze
Formáty, ve kterých jsou struktury ukládány do databází, jsou zpravidla formáty PDB a mmCIF. Tyto formáty v sobě obsahují informace o kartézských souřadnicích jednotlivých atomů v rámci struktury, atomové typy aj. Zatímco formát PDB je strukturovaný jako výčet jednotlivých prvků struktury, formát mmCIF je popisnější a využívá kategorie.
Hlavní databází z hlediska struktury proteinů je Protein Databank (PDB), která byla založena roku 1971 v Brookhaven National Laboratory (BNL). Jedná se o historicky první volně přístupný digitální zdroj dat v biologii a medicíně. Dnes spadá PDB pod Research Collaboratory for Structural Bioinformatics (RCSB). V současnosti databáze obsahuje přes 159 tisíc makromolekulárních struktur.[5]
PDB však není zdaleka jedinou databází proteinových struktur. Z databází primárních struktur uveďme například PDBe (Protein Data Bank in Europe) či PDBwiki představující strukturní ekvivalent k Wikipedii. Mezi sekundární databáze pak patří SCOP (Structural Classification of Proteins) či CATH, obě využívané pro hledání strukturních rodin proteinů.[2]
SCOP je ruční klasifikace strukturních domén proteinů založená na podobnostech jejich struktur a sekvencí aminokyselin. Motivací pro tento způsob klasifikace je budování evolučních vztahů mezi proteiny. Jde o volně dostupnou databázi, která byla vytvořena roku 1994 v Centru pro proteinové inženýrství a Laboratoři molekulární biologie v Cambridge.
CATH je veřejnosti volně přístupná online databáze poskytující informace o evolučních vztazích proteinových domén. Databáze vznikla v 90. letech a v současné době spravována skupinou z University College London. Experimentálně objevené 3D struktury jsou získávány z PDB a rozděleny na polypeptidové řetězce. Pomocí kombinace různých výpočetních metod dochází ke stanovení strukturních domén. Domény jsou stanoveny v rámci CATH strukturní hierarchie následovně. Na úrovni Class (C) jsou domény rozřazeny podle sekundární struktury, tj. α, β či jejich kombinace. Na úrovni Architecture (A) jsou využity informace o uspořádání sekundární struktury v 3D prostoru. Informace o propojení a uspořádání prvků sekundární struktury jsou využity na úrovni Topology (T). Na úrovni Homologous superfamily (H) dochází k přiřazení, existuje-li dobrý důkaz toho, že domény jsou vývojově spjaty.
Hlavní databází pro struktury nukleových kyselin je Nucleic Acid Database (NDB). Tato databáze vznikla roku 1992 ve spolupráci Rutgers University a Wesleyan University. Tato databáze poskytuje přístup k informacím o 3D strukturách nukleových kyselin a jejich komplexů. V databázi je v současné době zaznamenáno více než 10 tisíc struktur.[6]
Odkazy
Reference
- BOURNE, Philip E.; WEISSIG, Helge. Structural bioinformatics. [s.l.]: Wiley-Liss, 2003. ISBN 9780471201991.
- BERKA, Karel. Strukturní bioinformatika - KFC/STBI. fch.upol.cz [online]. [cit. 2020-01-23]. Dostupné v archivu pořízeném dne 2014-11-12.
- MURRAY, Robert K.; GRANNER, Darryl K. Harper's illustrated biochemistry. [s.l.]: McGraw-Hill Medical, 2003. ISBN 9780071389013.
- ZVEIBIL, Marketa; BAUM, Jeremy O. Understanding Bioinformatics. [s.l.]: Garland Science, 2007. ISBN 9780815340249.
- Protein Databank. RCSB PDB [online]. www.rcsb.org [cit. 2020-01-23]. Dostupné online. (anglicky)
- Nucleic Acid Database (NDB). ndbserver.rutgers.edu [online]. [cit. 2020-01-23]. Dostupné online.