Protein Data Bank
Protein Data Bank (zkráceně PDB) je primární databáze 3-D struktur makromolekul jako např. proteinů, nukleových kyselin. PDB je důležitý zdroj bioinformatických dat pro molekulární biologii, medicínu a farmacii. Všechny uložené struktury a data jsou volně dostupné. Může je vkládat kdokoliv, není tedy zajištěna bezchybnost uveřejněných záznamů. Zdrojem dat bývá experimentální měření metodami NMR a X-ray krystalografie. V roce 2003 byla založena organizace wwPDB (Worldwide Protein Data Bank), která zajišťuje chod celé online databáze, její anotaci a sleduje její vývoj.[1] Financování databáze je umožněno díky vládním příspěvkům a uživatelským poplatkům.
Historie
PDB byla založena v roce 1971 doktorem Walterem Hamiltonem na podnět Americké krystalografické společnosti (ACA).[2] Na začátku obsahovala databáze pouhých 7 struktur, které byly distribuovány na magnetických páscích. V této době záznamy přibývaly s rychlostí zhruba 25 struktur za rok. Až teprve po zdokonalení technik krystalografie začaly data přibývat exponencionálně, od roku 1987 je to až 50 struktur týdně.
Po vzniku wwPDB v roce 2003 se stala PDB databáze mezinárodním projektem. Sdružuje PDBe[3] (Evropa), PDBj[4] (Japonsko), RCSB[5] (USA) a od roku 2005 také BMRB (Biological magnetic resonance bank). Za management PDB je zodpovědná RCSB, a to od roku 1998 až do současnosti.
Počet struktur
Každá struktura má přiřazené své PDB ID. Je to individuální 4 místný kód. Na prvním místě je vždy číslice od 1-9, na druhém až čtvrtém místě je libovolné číslo od 0-9 nebo písmeno z anglické abecedy A-Z. Možných ID je tedy 419 904.
Počet struktur lze vypočítat dle:
- n = exp(0,19y)
- n – počet struktur za rok
- y – počet roků od roku 1960
Tento vzorec byl odvozen v roce 1978 Richardem E. Dickersonem, který předpovídal exponenciální růst počtu vložených struktur.[6] Na konci roku 2012 mělo být dle tohoto vzorce 112 891 struktur v databázi, ve skutečnosti jich ale v PDB bylo méně- 87 030. Dickersonův předpoklad exponencionálního růstu dnes již neplatí. Graf počtu struktur je k dispozici na stránce PDB.
Vyhledávání v PDB
V databázi PDB lze struktury vyhledávat podle ID, názvu molekuly, autora, který strukturu nahrál nebo dle sekvence. V pokročilém vyhledávání lze blíže specifikovat i např. datum nahrání, experimentální metodu nebo biologický původ molekuly. Zajímavostí PDB je, že je pravidelně vybírána molekula měsíce Archivováno 24. 9. 2011 na Wayback Machine. Její struktura, funkce a význam pro lidské zdraví je presentováno srozumitelným způsobem, vhodným pro kohokoliv.
Formát PDB
Výsledek hledání je textový soubor ve formátu PDB, který popisuje 3D strukturu pomocí interpretace elektronové hustoty atomů molekuly. Formát obsahuje základní údaje o molekule a autorovi. Experimentální údaje jsou zapsány do sloupců, které udávají číslo atomu, jeho druh, typ aminokyselinového zbytku a jeho pořadí. Také jsou uvedeny X, Y a Z souřadnice, které udávají polohu daného atomu v molekule. Poslední dva sloupce udávají počet možných konformací a teplotní flexibilitu. Výsledný zápis vypadá takto:
HEADER EXTRACELLULAR MATRIX 22-JAN-98 1A3I TITLE X-RAY CRYSTALLOGRAPHIC DETERMINATION OF A COLLAGEN-LIKE TITLE 2 PEPTIDE WITH THE REPEATING SEQUENCE (PRO-PRO-GLY) ... EXPDTA X-RAY DIFFRACTION AUTHOR R.Z.KRAMER,L.VITAGLIANO,J.BELLA,R.BERISIO,L.MAZZARELLA, AUTHOR 2 B.BRODSKY,A.ZAGARI,H.M.BERMAN ... REMARK 350 BIOMOLECULE: 1 REMARK 350 APPLY THE FOLLOWING TO CHAINS: A, B, C REMARK 350 BIOMT1 1 1.000000 0.000000 0.000000 0.00000 REMARK 350 BIOMT2 1 0.000000 1.000000 0.000000 0.00000 ... SEQRES 1 A 9 PRO PRO GLY PRO PRO GLY PRO PRO GLY SEQRES 1 B 6 PRO PRO GLY PRO PRO GLY SEQRES 1 C 6 PRO PRO GLY PRO PRO GLY ... ATOM 1 N PRO A 1 8.316 21.206 21.530 1.00 17.44 N ATOM 2 CA PRO A 1 7.608 20.729 20.336 1.00 17.44 C ATOM 3 C PRO A 1 8.487 20.707 19.092 1.00 17.44 C ATOM 4 O PRO A 1 9.466 21.457 19.005 1.00 17.44 O ATOM 5 CB PRO A 1 6.460 21.723 20.211 1.00 22.26 C ... HETATM 130 C ACY 401 3.682 22.541 11.236 1.00 21.19 C HETATM 131 O ACY 401 2.807 23.097 10.553 1.00 21.19 O HETATM 132 OXT ACY 401 4.306 23.101 12.291 1.00 21.19 O ...
PDB formát má koncovku .pdb. Lze ho otevřít v mnoha programech, např. Discovery Studio, PyMol, Jmol, UCSF, Cn3D. Některé z těchto programů lze zdarma stáhnout z internetu.
Reference
V tomto článku byl použit překlad textu z článku Protein Data Bank na anglické Wikipedii.
- Berman, H. M., Henrick, K. & Nakamura, H. Announcing the worldwide Protein Data Bank. Nat Struct Biol. 10(12), 980 (2003)
- http://link.springer.com/chapter/10.1007%2F978-94-011-4631-9_16#
- PDBe Protein Data Bank in Europe
- Welcome to PDBj – Home
- http://www.rcsb.org/
- Archivovaná kopie. www.sdsc.edu [online]. [cit. 2013-05-16]. Dostupné v archivu pořízeném z originálu dne 2020-07-16.