Stopslovo

Jako stopslova se při počítačovém zpracování přirozeného jazyka označují slova, která se v daném jazyce vyskytují často, ale nenesou žádnou významovou informaci, mají zpravidla pouze syntaktický význam. Typicky se jedná o spojky, předložky atp. Seznam takových slov (též označovaný jako negativní slovník) používají plnotextové vyhledávače a při sestavování indexu tato slova zcela ignorují, neboť jsou pro vyhledávání neužitečná.

I při jiných formách počítačového zpracování textových dokumentů se stopslova často vypouštějí, neboť tak dojde jak ke zmenšení zpracovávaného dokumentu, tak i ke zkrácení doby nutné pro jeho zpracování.

Při použití lemmatizace může slovník obsahovat pouze základní tvary, v opačném případě musí obsahovat všechny používané tvary stopslov.

V češtině mezi stopslova mohou být zařazeny např. spojky (a, aby, ale, ani, …), předložky (na, pro, u, …), zájmena (její, my, on), málovýznamová slovesa (být, mít). V jiných jazycích patří mezi typická stopslova také určité a neurčité členy. V konkrétních kontextech často mezi stopslova bývají zařazena slova v daném kontextu příliš častá (např. při vyhledávání na WWW tak jsou často ignorována slova jako www či com).

Za vynálezce stopslov bývá považován Hans Peter Luhn.

Externí odkazy

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.