WordNet
WordNet je lexikální databáze pro anglický jazyk vyvíjená od roku 1985 týmem okolo profesora psychologie George Armitage Millera v laboratoři kognitivních věd na Princetonské univerzitě.[1] Obecněji se jako WordNet, případně přesněji lexikální databáze typu WordNet či také sémantická síť typu WordNet, označují i příbuzné projekty týkající se jiných jazyků (např. Český WordNet). Původní anglická databáze pak v takovém kontextu bývá někdy pro rozlišení nazývána princetonský WordNet.
Vývojář | Christiane Fellbaum |
---|---|
Aktuální verze | 3.1 (červen 2011) |
Typ softwaru | svobodný software, word net, knowledge graph, synonymický slovník, conceptual dictionary a lexicographic database |
Licence | BSD licence |
Web | wordnet |
Některá data mohou pocházet z datové položky. |
WordNet seskupuje slova do synonymických řad zvaných synsety (anglicky synsets), poskytuje krátké obecné definice jejich významu a zachycuje různé sémantické vztahy, které mezi synsety existují. To činí WordNet jakýmsi intuitivněji použitelným křížencem slovníku a tezauru a současně jazykovým zdrojem využitelným v aplikacích v oblastech zpracování přirozeného jazyka a umělé inteligence. Data princetonského WordNetu a související programové vybavení byly uvolněny licencí typu BSD a jsou poskytovány k bezplatnému stažení a použití. Databázi je také možno konzultovat on-line prostřednictvím internetu.
Obsah databáze
Rozsah
Nejnovější verze WordNetu je 3.1. Ve verzi 3.0 obsahuje databáze 155.287 slov uspořádaných do 117.659 synsetů, čímž je pokryto 206.941 slovních významů (dvojic slovo-smysl). V komprimované formě mají data velikost okolo 12 megabytů.[2]
Synsety
WordNet zahrnuje podstatná jména, slovesa, přídavná jména a příslovce, ale vzhledem k jejich odlišným gramatickým vlastnostem uchovává data pro každý z těchto slovních druhů odděleně. Jiné slovní druhy jako jsou zájmena či předložky nejsou součástí databáze. Každý synset se skládá z jednoho či více slov nebo slovních spojení stejného slovního druhu (slovním spojením je skupina slov nesoucí specifický ustálený význam, např. "babí léto"). Následuje ukázka několika synsetů různých typů z Českého WordNetu:[3]
- substantivní synset: louže:1, kaluž:1, tratoliště:1
- slovesný synset: chvátat:1, kvapit:2, spěchat:1
- adjektivní synset: jednoduchý:1, prostý:1
- adverbiální synset: postupně:1, pozvolna:1
Polysémie
U homonym a obecně slov s více významy (polysémických) náleží každý význam do jiného synsetu a jednotlivé významy téhož slova jsou v takovém případě v rámci téhož slovního druhu od sebe odlišovány tzv. číslem smyslu uváděným za znakem dvojtečka. Význam synsetu bývá také často popsán prostřednictvím glosy (tj. definice a/nebo příkladu použití). Identifikaci významu synsetu napomáhají také sémantické vztahy, např. u podstatných jmen příslušný nadřazený pojem. Příkladem víceznačného slova je "koruna":
- koruna:1 = "ozdoba hlavy kruhového tvaru, odznak panovnické hodnosti"
- koruna:2 – nadřazeným pojmem je synset "mince:1, peníze:1, penízek:1"
- koruna:3 – nadřazeným pojmem je synset "hořejšek:1, vrch:1"
Sémantické vztahy
Sémantickými vztahy je s jinými synsety propojena velká část synsetů ve WordNetu. Typy těchto vztahů se liší v závislosti na slovním druhu. Jedná se mj. o sémantické vztahy těchto typů:
- Mezi podstatnými jmény:
- nadřazený pojem: Y je nadřazeným pojmem k X, jestliže každé X je (druhem) Y (psovitá šelma je nadřazeným pojmem k pes, protože každý pes je členem obecnější kategorie psovitých šelem)
- podřazený pojem: Y je podřazeným pojmem k X, jestliže každé Y je (druhem) X (pes je podřazeným pojmem k psovitá šelma)
- souřadné pojmy: Y je souřadným pojmem k X, jestliže X a Y sdílejí společný nadřazený pojem (vlk je souřadným pojmem k pes; obdobně pes je souřadným pojmem k vlk)
- holonymum (vztah celek-část): Y je holonymem k X, jestliže X je (sou)částí Y (budova je holonymem k okno)
- meronymum (vztah část-celek): Y je meronymem k X, jestliže Y je (sou)částí X (okno je meronymem k budova)
- Mezi slovesy:
- nadřazený pojem: sloveso Y je nadřazeným pojmem ke slovesu X, jestliže činnost X je (druhem) Y (vnímat je nadřazeným pojmem k poslouchat)
- troponymum: sloveso Y je troponymem ke slovesu X, jestliže Y znamená dělat X nějakým způsobem (šeptat je troponymem k mluvit)
- vyplývání (entailment): sloveso Y vyplývá ze slovesa X, jestliže pro dělání X je nutné současně dělat Y (spát vyplývá z chrápat)
- souřadné pojmy: Y je souřadným pojmem k X, jestliže X a Y sdílejí společný nadřazený pojem (šeptat je souřadným pojmem k křičet; obdobně křičet je souřadným pojmem k šeptat)
- Mezi přídavnými jmény:
- příbuzné podstatné jméno
- podobnost
- sloveso k příčestí
- Mezi příslovci:
- příbuzné přídavné jméno
Zatímco sémantický vztah platí pro všechna slova ze synsetu, kterého se týká, protože tato slova jsou si navzájem synonymická a sdílejí společný význam, lexikálními vztahy je možné propojovat mezi sebou jednotlivá slova a zachytit tak např. vztah antonymie (opaku).
Český WordNet
Lexikální databáze typu WordNet pro český jazyk pod názvem Český WordNet (anglicky Czech WordNet) je od roku 1998 vyvíjena v Centru zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity v Brně. Vývoj započal v rámci druhé fáze projektu EuroWordNet a pokračoval dále v rámci projektu BalkaNet, společně s vývojem podobných databází pro některé další evropské jazyky. Za účelem propojení lexikálních databází pro různé jazyky byl zaveden tzv. Inter-Lingual Index (zkratka ILI), který každému anglickému synsetu v princetonském WordNetu přiřazuje unikátní identifikátor (odvozený z jeho pozice v dané verzi databáze); synsety v neanglických databázích jsou pak doplněny o ILI-identifikátor ekvivalentního synsetu anglického.
Základních 1016 konceptů Českého WordNetu bylo nalezeno počítačovou analýzou definic ve Slovníku spisovné češtiny, další slova byla získána ze slovníku Lingea Lexicon a z připravovaného Výkladového slovníku češtiny. První verze Českého WordNetu nakonec v roce 1999 obsahovala asi 13 až 15 tisíc synsetů.[4]
Ve stavu z května 2011 obsahuje Český WordNet již 34.026 slov uspořádaných do 28.478 synsetů, což pokrývá 47.542 slovních významů (dvojic slovo-smysl). Ze synsetů je 21.018 (74 %) substantivních, 5162 (18 %) synsetů slovesných, 2129 (7 %) synsetů adjektivních a pouze 166 (1 %) synsetů adverbiálních. Synsety Českého WordNetu jsou prostřednictvím ILI propojeny se starší verzí princetonského WordNetu 2.0. Slovesné synsety jsou od roku 2005 vytvářeny z větší části odděleně v rámci databáze valenčních rámců VerbaLex (v květnu 2011 obsahovala asi 20.000 slovesných rámců).[5]
V rámci diplomové práce obhájené na Fakultě informatiky Masarykovy univerzity v červnu 2011 byl proveden pokus o rozšíření Českého WordNetu překladem anglických slov ze stávajících synsetů princetonského WordNetu prostřednictvím Velkého anglicko-českého slovníku Josefa Fronka. Výsledkem bylo 36.228 přidaných slovních významů (dvojic slovo-smysl) a 12.403 vytvořených synsetů, což znamená rozšíření původních dat o 76 % (slovní významy), resp. 43 % (synsety). Tato data však dosud nebyla zahrnuta do Českého WordNetu, i vzhledem k nutnosti jejich manuální kontroly.[5]
Reference
V tomto článku byl použit překlad textu z článku WordNet na anglické Wikipedii.
- G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235–244.
- WordNet Statistics. wordnet.princeton.edu [online]. [cit. 2011-08-26]. Dostupné v archivu pořízeném dne 2011-08-06.
- V rámci tohoto českého článku o lexikální databázi WordNet na České Wikipedii jsou pro větší názornost používány příklady užívající českých slov a pocházejí z databáze Český WordNet.
- Pala, Karel a Ševeček, Pavel. The Czech WordNet, final report. Brno : Masarykova univerzita, 1999, 21 s., technická zpráva.
- Blahuš, Marek. Extending Czech WordNet Using a Bilingual Dictionary. Brno : Masarykova univerzita, Fakulta informatiky, 2011. 42 s. Magisterská práce. Vedoucí: doc. PhDr. Karel Pala, CSc..
Externí odkazy
- (anglicky) Domovská stránka projektu WordNet
- (anglicky) Global Wordnet + DEBGrid (webový interface Global Wordnet)