ZODPOVÍDÁNÍ DOTAZŮ

Základní

Automatické zodpovídání otázek kladených člověkem v přirozeném jazyce, angl. question answering. Řešení této úlohy má několik částí. Nejdříve je potřeba provést analýzu vstupního dotazu, zjistit typ dotazu a požadovanou tzv. informační potřebu reprezentovat ve vhodné formě pro následné vyhledávání. V další fázi dochází k hledání odpovědi, a to buď ve strukturovaných (tzv. znalostních) databázích (knowledge base), n. přímo v kolekcích nestrukturovaných (textových) dokumentů (např. encyklopediích, webových stránkách, archívech dokumentů apod.). Databáze znalostí mohou být vytvářeny ručně n. automaticky z nestrukturovaných dat metodami extrakce informací, viz ↗extrakce informací. Posledním krokem procesu je prezentace nalezené odpovědi, případně opatřené doplňujícími informacemi (např. odkazem na zdroj, odkud byla informace čerpána). Vstup i výstup může mít buď psanou n. mluvenou podobu, ale předpokládá se, že dotaz i odpověď jsou v přirozeném jaz. formulované tak, jak je to obvyklé v běžné komunikaci. Obtížnost dotazů může být různá a systém se může omezovat jen na určitý typ, případně i doménu dotazu (např. hledání spojení hromadnou dopravou, otázky na definice n. fakta z oblasti medicíny apod.). Systémy pro zodpovídání dotazů se liší od ↗dialogových systémů tím, že jsou bezestavové a každý dotaz je zodpovídán bez ohledu na dotazy předchozí.

Historicky prvními systémy pro zodpovídání dotazů byl systém BASEBALL (✍Green & Wolf ad., 1961) pro otázky týkající se basketbalové ligy ve Spojených státech a systém LUNAR (✍Woods, 1973) pro doménu geologického výzkumu Měsíce ve Spojených státech. Oba systémy byly poměrně sofistikované i ve srovnání se systémy dnešními, ale omezené jen na velice úzkou oblast a také typy otázek. V obou případech byly znalostní databáze vytvořeny ručně, nikoli automatickou analýzou textu, což je nutné pro vytvoření tzv. open‑domain systémů, které nebudou omezeny doménou a informace budou čerpat z rozsáhlých zdrojů textových dat (knihy, web, apod.). Takovým systémem je např. Watson (✍Ferrucci, 2012) vyvinutý firmou IBM, který v roce 2011 zvítězil v televizní soutěži Jeopardy nad předchozími vítězi (lidmi). Tento systém nebyl sice omezen na žádnou oblast, ale uměl odpovídat jen na faktické dotazy tak, jak je v této soutěži běžné. Metody používané v moderních systémech pro zodpovídání dotazů zahrnují: ↗rozpoznávání řeči (pokud je vstup v mluvené formě), syntaktický a sémantický ↗parsing, ↗extrakce informací, ↗vyhledávání informací, generování přirozeného jazyka, případně generování mluvené řeči (pokud je výstup mluvený).

V oblasti zodpovídání informací probíhalo a probíhá několik srovnávacích evaluačních kampaní, např. v rámci TREC (Text Retrieval Conference) v letech 1999–2007, NTCIR (NII Testbeds and Community for Information Access Research) od roku 2002 a CLEF (Cross‑Language Evaluation Forum) od roku 2003.

Rozšiřující
Literatura
  • Ferrucci, D. A. Introduction to “This is Watson”. IBM Journal of Research and Development 56, 2012, 1–15.
  • Green, B. F. & A. K. Wolf ad. BASEBALL: An Automatic Question Answerer. In Proceedings Western Joint Computer Conference 19, 1961, 219–224.
  • Woods, W. Progress in Natural Language Understanding – An Application to Lunar Geology. In American Federation of Information Processing Societies (AFIPS) Conference Proceedings 42, 1973, 441–450.
Citace
Pavel Pecina (2017): ZODPOVÍDÁNÍ DOTAZŮ. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/ZODPOVÍDÁNÍ DOTAZŮ (poslední přístup: 23. 11. 2024)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka