Alignment (biologie)
Alignment (někdy ekvivalentně sekvenční alignment) je základní bioinformatický nástroj, spočívající v seřazení dvou i více sekvencí DNA, RNA nebo proteinu pod sebe tak, aby odpovídající si nukleotidové báze či aminokyselinové zbytky ležely pod sebou. Pro krátké a/nebo velmi podobné sekvence je možné vytvořit alignment ručně, alignment delších a méně podobných sekvencí je obvykle vytvářen počítačem za použití specializovaných algoritmů. Cílem alignmentu je nalézt ve srovnávaných sekvencích podobné úseky, které mohou poukazovat na jejich sekvenční, strukturní či funkční příbuznost.
Příklad alignmentu
Alignment pro dvě sekvence DNA (např. actcgaatc, aatcgtggatc) by mohl vypadat takto:
-actcg--aatc aa-tcgtggatc
Sekvence jsou seřazeny tak, aby co nejvíce shodných bází leželo ve stejném sloupci, a to za použití co nejmenšího počtu mezer. Mezery, zde reprezentované znakem (-) představují inzerce či delece nukleotidů, ke kterým došlo v průběhu evoluce. Oproti tomu neshody jsou pozůstatkem bodových mutací, tedy jednonukleotidových záměn.
Metody tvorby alignmentu
Globální a lokální alignment
Metoda globálního alignmentu pracuje se srovnávanými sekvencemi jako s celky a snaží se nalézt co nejlepší shodu napříč celou délkou sekvencí. Z tohoto důvodu je vhodnější globální alignment použít pro srovnávání podobně dlouhých sekvencí s vysokou mírou podobnosti. Typickým algoritmem globálního alignmentu je Algoritmus Needleman-Wunsch.
Lokální alignment je naopak vhodnější použít v tom případě, že se porovnávané sekvence liší délkou a nejsou si sekvenčně příliš podobné. Tato metoda hledá oblasti nejvyšší podobnosti v obou sekvencích a zarovnává je bez ohledu na sekvence jako celky. Pomocí lokálního alignmentu je tudíž možné i v málo podobných sekvencích nalézt úseky s vysokou mírou shody, což může poukazovat na jejich funkční důležitost. Vysoce biologicky významné sekvence (např. sekvence kódující aktivní místo enzymu) se totiž v průběhu evoluce mění méně často než jiné části nukleových kyselin či proteinů. Jedním z nejznámějších algoritmů lokálního alignmentu je Algoritmus Smith-Waterman.
Dot plot
Metoda Dot plot je nejjednodušším a nejzákladnějším způsobem, jak alignment provést, přičemž pro krátké sekvence je možné si vystačit s tužkou a čtverečkovaným papírem. Jde o grafické srovnání dvou sekvencí v podobě tabulky, kde jedna sekvence leží na horizontální a druhá na vertikální ose. Srovnání sekvencí je provedeno tak, že postupně pro každý prvek obou sekvencí postupujeme řádkem (sloupcem) ve kterém leží a zaznamenáváme (kolečkem, křížkem...) shody s druhou sekvencí. Tedy například takto:
P | R | A | L | E | S | N | I | Č | K | A | |
K | X | ||||||||||
O | |||||||||||
L | X | ||||||||||
E | X | ||||||||||
S | X | ||||||||||
O |
Analýzou Dot plotu je možné získat informace o místech největší shody obou sekvencí. Nevýhodou této metody je značný podíl šumu, který je nejvýznamnější při srovnávání nukleotidových sekvencí, které mají pouze čtyři možné znaky a tak je pravděpodobnost náhodné shody 1/4.
Dynamické programování
Dynamické programování je matematické odvětví, které nachází použití i v bioinformatice. Tato metoda tvorby alignmentu je podobná Dot plotu, využívá ale skórovacích tabulek (např. PAM, BLOSUM) a zavádí srážku za mezeru (gap penalty). Mezi algoritmy dynamického programování patří rovněž oba výše zmíněné algoritmy, tedy Needleman-Wunsch a Smith-Waterman.
Literatura
- Jin Xiong, Essential Bioinformatics, Cambridge University Press, 2006