ROZPOZNÁVÁNÍ POJMENOVANÝCH ENTIT  (named entity recognition, NER)

Základní

Jedna z úloh automatického, tj. ↗počítačového zpracování přirozeného jazyka. Úkolem je v přirozeném textu automaticky identifikovat a většinou zároveň klasifikovat do předdefinovaných kategorií tzv. „pojmenované entity“, tedy slova n. posloupnosti slov, které vyjadřují jméno osoby, zeměpisné lokality, výrobku, organizace, společnosti atd. Úkol r.p.e. tedy většinou zahrnuje jak lokalizaci entit v textu (named entity identification), tak jejich klasifikaci (named entity classification).

R.p.e. je často řešenou úlohou především pro potřeby automatického strojového překladu, vyhledávání informací a mnoho dalších klasických úloh počítačového zpracování přirozeného jaz. Díky mnoha anotovaným korpusům a sérii společných úloh (shared task), jako jsou CoNLL‑2003 (✍Tjong Kim Sang & De Meulder, 2003) n. MUC7 (✍Chinchor(ová), 1997), se r.p.e. stalo zavedenou a dobře definovanou úlohou v oblasti automatického zpracování přirozeného jaz. Nejprozkoumanějším jaz. v tomto směru je jako obvykle angličtina, i když např. ✍Nadeau & Sekine (2007) ve svém přehledu popisují rozsah provedených výzkumů v dalších jazycích. V č. odkazujeme především na Czech Named Entity Corpus (✍Ševčíková & Žabokrtský ad., 2007).

Obtížnost úlohy r.p.e. je dána především způsobem navržené kategorizace pojmenovaných entit: zda je cílem klasifikovat několik málo tříd hrubší klasifikace, n. detailněji definované třídy pojmenovaných entit, zda jsou povoleny vzájemně vnořené, případně překrývající se entity a zda může jedna pojmenovaná entita nabývat právě jedné n. více hodnot klasifikace. Rozeznáváme tedy klasifikační úlohy s hrubým rozdělením pojmenovaných entit, např. standardní klasifikace použitá v korpusu CoNLL‑2003 (✍Tjong Kim Sang & De Meulder, 2003), kde jsou pojmenované entity klasifikovány jako „PER“ (person, osoba), „LOC“ (location, místo), „ORG“ (organization, organizace) a „MISC“ (miscellaneous, různé), a naopak velmi jemně definované kategorie jako např. ✍Sekine & Sudo ad. (2002), kde se rozlišuje více než 150 typů pojmenovaných entit. Kromě obvyklých tříd pojmenovaných entit (osoby, zeměpisné lokality, organizace) jsou někdy mezi pojmenované entity zahrnovány i časové výrazy (roky, měsíce, dny), názvy knih, filmů atd. V některých zadáních je také cílem disambiguovat pojmenované entity a přiřadit jim jednoznačný identifikátor v encyklopedii (např. Wikipedia). Velký zájem je v poslední době i o identifikaci pojmenovaných entit v doméně medicíny, např. identifikace jmen genů n. proteinů.

Metody pro automatické r.p.e. zahrnují jak vyhledávání pomocí ručně sestavených pravidel, např. regulárních výrazů, dále vyhledávání s použitím seznamů pojmenovaných entit (tzv. gazetteers), tj. seznamů křestních jmen, příjmení, měst atd. Takové metody obvykle dosahují vysoké přesnosti (precision), ale špatně generalizují a vyžadují práci kvalifikovaných lingvistů. Současné nejlepší známé výsledky se obvykle dosahují pomocí statistických modelů, tzn. pomocí (částečně) řízeného ↗strojového učení ((semi)supervised machine learning), kdy se stroj za pomoci vybraných klasifikačních rysů (např. slovní druh, koncovky atd.) učí z trénovacích dat s vyznačenými pojmenovanými entitami. K tomu je ovšem potřeba velké množství ručně anotovaných dat.

Vyhodnocení úspěšnosti automatického rozpoznávače pojmenovaných entit se provádí vzhledem k ručně anotovaným testovacím datům se správnými výsledky. Hodnotící mírou je většinou F‑measure, harmonický průměr měr precision (přesnost) a recall (pokrytí). Pro r.p.e. není příliš vhodná procentuální úspěšnost (tj. procento správně klasifikovaných slov v textu), protože většina slov v přirozeném textu nejsou pojmenované entity a výsledná míra nabývá příliš vysokých hodnot i při špatném výkonu systému. Současné systémy pro angl. dosahují úspěšnosti téměř srovnatelné s lidmi (viz např. ✍Ratinov & Roth, 2009).

Pro r.p.e. existuje poměrně velké množství volně použitelných nástrojů, viz např. Stanford Named Entity Recognizer (✍Finkel(ová) & Grenager(ová) ad., 2005), OpenNLP a další; pro č. pak nástroj NameTag (✍Straková & Straka ad., 2014).

Rozšiřující
Literatura
  • Czech Named Entity Corpus (http://ufal.mff.cuni.cz/cnec).
  • Finkel, J. R. & T. Grenager ad. Incorporating Non-Local Information into Information Extraction Systems by Gibbs Sampling. In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, 2005, 363–370.
  • Chinchor, N. A. MUC–7. Named Entity Task Definition, 1997 (http://www-nlpir.nist.gov/).
  • Nadeau, D. & S. Sekine. Survey of Named Entity Recognition and Classification. Linguisticae Investigationes 30, 2007, 3–26.
  • NameTag (http://ufal.mff.cuni.cz/nametag).
  • OpenNLP (http://opennlp.apache.org/).
  • Ratinov, L. & D. Roth. Design Challenges and Misconceptions in Named Entity Recognition. In CoNLL ’09: Proceedings of the Thirteenth Conference on Computational Natural Language Learning, 2009, 147–155.
  • Sekine, S. & K. Sudo ad. Extended Named Entity Hierarchy. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002), 2002, 1818–1824.
  • Stanford Named Entity Recognizer (http://nlp.stanford.edu/software/).
  • Straková, J. & M. Straka ad. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 2014, 13–18.
  • Ševčíková, M. & Z. Žabokrtský ad. Named Entities in Czech: Annotating Data and Developing NE Tagger. In Matoušek, V. & P. Mautner, P. (eds.), TSD 2007. LNAI 4629, 2007, 188–195.
  • Tjong Kim Sang, E. F. & F. De Meulder. Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition. In Proceedings of CoNLL-2003, 2003, 142–147.
Citace
Jana Straková (2017): ROZPOZNÁVÁNÍ POJMENOVANÝCH ENTIT. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/ROZPOZNÁVÁNÍ POJMENOVANÝCH ENTIT (poslední přístup: 21. 11. 2024)

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka