Autorství
Oblast autorství se zabývá zjišťováním a verifikací identity autora dokumentu. Uplatnění má v literární teorii (zjišťování autorství neznámých děl a hledání podvržených autorství), v kriminálním vyšetřování (anonymní e-maily) a v legislativě (dokazování pravosti listin). V ČR se zkoumáním autorství zabývá Laboratoř zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity.
Mezi hlavní úkoly autorství patří:[1]
- Přiřazení autorství na základě referenční množiny dokumentů: Máme dokument s neznámým autorem a skupinu dokumentů se známým autorstvím. Chceme říci, zda byl dokument napsán jedním z těchto autorů a pokud ano, kterým.
- Verifikace autorství: Máme dva dokumenty. Chceme zjistit, zda byly napsány stejným autorem. Tento přístup má velké uplatnění při ověřování pravosti dokumentů (závěť, výpověď) a potvrzování teorií (e-maily, literární díla).
- Rozdělování a shlukování textu podle autorství: Zjišťujeme, zda byl text napsaný jedním autorem. Pokud se na textu podílelo více autorů, text rozdělíme do částí podle autorství.
- Plagiátorství lze do kategorie určování autorství také zařadit, avšak k řešení této problematiky postačují jednodušší a obecně úspěšnější techniky než na problém identifikace autorství.
Historie
Počátek většího zájmu o určování autorství sahá do konce 18. století. Za prvními snahami o vytvoření postupů verifikace autorství stojí zpochybnění autorství některých Shakespearových her (Spor o Shakespearovo autorství). Tomuto tématu se postupně věnovala řada jazykovědců a postupem času se zpochybnilo autorství mnoha dalších děl. Časté je zkoumání, které části Bible byly napsány stejným autorem.[2]
Zprvu se veškerá analýza dělala ručním počítáním různých statistik, což omezevalo rychlost ověřování většiny teorií a samotná efektivita byla velmi nízká, protože se pracovalo s malým množstvím dokumentů. To vedlo k tomu, že většina pozornosti patřila významným literárním dílům. Nové teorie se aplikovaly většinou na ty samé knihy, aby bylo možné provést srovnání s ostatními výsledky.
V druhé polovině 20. století získalo určování autorství dostatek pozornosti veřejnosti, aby bylo připuštěno jako důkaz u soudu.[3] Nejznámější z této doby je nejspíše práce Word Detective Proves the Bard wasn't Bacon, kterou napsal Reverend Andrew Q. Morton.[4] Na jejím základě byl Morton pozván jako znalec obhajoby k několika soudním přelíčením, kde vyvrátil aplikací svých kvantitativních metod určování autorství svědectví proti obžalovanému. Toto období lze označit jako počátek forenzní lingvistiky.
Reference
- J. Rygl. Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků [online]. 2011. Diplomová práce. Masarykova univerzita, Fakulta informatiky. Dostupné z: <http://is.muni.cz/th/208072/fi_m/>
- K. Grayston and G. Herdan. The authorship of the pastorals in the light of statistical linguistics. New Testament Studies, VI:1–15, 1959–1960.
- J. W. Grieve. Quantitative authorship attribution: A history and an evaluation of technique. Master’s thesis, Simon Fraser Uuniversity, 2005.
- A. Q. Morton. Word Detective Proves the Bard wasn’t Bacon. Observer, 1976