Tezaurus
Tezaurus je riadený slovník termínov a v informačnom prieskume má za úlohu riešiť problémy sémantiky. Riadený slovník je súbor pojmov usporiadaných do určitej štruktúry s určenými vzťahmi medzi nimi.
Definuje najmä vzťahy hierarchie, ekvivalencie a asociácie. Základom tezauru je deskriptorový odsek, ktorý najčastejšie určuje pre pojem širší pojem (Broader term, BT), užší pojem (Narrower term, NT) alebo príbuzný pojem (related term, RT). Asociatívne vzťahy určujú aj také vzťahy ako časť-celok, antonymia (protiklady), definícia.
Tezaurus sa v informačnom prieskume používa od 60. rokov na rozširovanie dotazu. Pôvodné termíny z dotazu sa vyhľadajú v tezaure a dotaz sa rozšíri o pojmy obsiahnuté v deskriptore tezauru (nadradené, podradené, synonymá, asociatívne pojmy). Napríklad ak je v dotaze termín pes, prostredníctvom tezauru sa dotaz rozšíri na všetky druhy psov (psovité šelmy).
Tezaury sa vytvárajú buď intelektuálne alebo automatizovane. Vytvárajú sa matice podobnosti termínov (termín-termín) a matica termín-dokument. Tezaury dobre fungujú v tematicky ohraničených doménach (disciplínach) s ustálenou terminológiou, ako napríklad fyzika (INSPEC Thesaurus), medicína (systém Medline, tezaurus MeSH), poľnohospodárstvo (EUROVOC), letectvo (NASA Thesaurus for Aeronautics).
Typy tezaurov
- jednojazyčný tezaurus
- viacjazyčný tezaurus
- zdrojový tezaurus
- makrotezaurus
- mikrotezaurus
- špecializovaný
- tematický
- fazetový
- s preferovanými termínmi
- bez preferovaných termínov
Význam tezauru možno vidieť v dvoch pohľadoch:
1. Štruktúrny pohľad zdôrazňuje dynamiku sémanticky prepojených termínov a vzťahy reprezentujúce špecifickú doménu.
2. Funkčný pohľad zdôrazňuje funkciu kontroly terminológie a použitia tezauru na preklad z prirodzeného jazyka dokumentov, indexátorov a používateľov do informačného jazyka.
Tezaurus tak možno definovať ako špecializovaný normalizovaný postkoordinovaný jazyk používaný na dokumentačné účely, v ktorom sú lingvistické jednotky syntakticky a sémanticky prepojené.
Norma ANSI/NISO Z 39.19-1993 definuje tezaurus ako riadený slovník usporiadaný v poradí a štruktúre tak, aby boli jasne zobrazené a identifikované vzťahy ekvivalencie, homonymie, hierarchie a asociácie.
Najnovší vývoj naznačuje zdokonaľovanie tezaurov v tzv. inteligentných a pojmových tezauroch, ktoré zlepšujú reprezentáciu obsahu dokumentov prostredníctvom inteligentných technológií. Umožňujú spracovanie a využívanie vzťahov medzi pojmami v hypertextových prepojeniach alebo iných reprezentáciách poznania. Známe medzinárodné tezaury sú napr. tezaurus ERIC pre oblasť vzdelávania alebo tezaurus v umení a architektúre Art and Architecture Thesaurus (AAT). Nevýhodou tezaurov je ekonomická náročnosť na ich vypracovanie a údržbu.
Fazetový tezaurus Tezaurus založený na spojení princípu fazetových klasifikačných systémov a deskriptorových selekčných jazykov. Fazety sa uplatňujú pri tvorbe i využití tezauru, keď sú jednotlivé lexikálne jednotky rozdelené do jednotlivých faziet, v rámci ktorých sú prezentované vzťahy medzi lexikálnymi jednotkami.