TREEBANK
Korpus syntakticky anotovaných struktur vytvářený v procesu ↗parsingu. T. obsahuje syntakticky anotované struktury vět v podobě závislostních n. bezprostředněsložkových stromů. V ↗závislostním stromě každý uzel (příp. s výjimkou uzlů technických) reprezentuje jedno slovo. Některé uzly jsou spjaty binárním závislostním vztahem mezi řídícím a závislým uzlem, tento vztah je vyjádřen hranou vedoucí od řídícího uzlu k uzlu závislému. Navíc je této hraně připsána syntaktická funkce příslušného syntaktického vztahu. Ve stromě, kde je syntaktická struktura věty vyjádřena ↗bezprostředněsložkovým stromem, jsou mimo terminální uzly reprezentující jednotlivá slova věty i uzly neterminální zachycující syntaktické skupiny – fráze: např. nominální fráze, verbální fráze, klauze apod. Hrana v tomto stromě zachycuje vztah mezi složkou A a její bezprostřední složkou B, např. složka označená S (věta) má své bezprostřední složky NP (nominální subjektová fráze) a VP (verbální predikátová fráze), schematicky: [S NP VP].
Např. věta Pracovníci nemají možnosti čerpat finanční prostředky bude na tzv. analytické (zhruba povrchověsyntaktické) rovině ↗Pražského závislostního korpusu reprezentována takto:
Jednotlivým uzlům stromu jsou tu přiřazeny dva údaje: slovní tvar a syntaktická funkce (Atr, AuxK, AuxP, Obj, Sb) charakterizující závislostní vztah mezi řídícím a závislým uzlem: např. uzel označený slovním tvarem finanční závisí na uzlu označeném slovním tvarem prostředky jakožto Atr(ibut). Mimo ↗Pražský závislostní korpus (srov. ✍The Prague Dependency Treebank 2.0, 2006; ✍Mikulová & Bémová ad., 2006) patří mezi známé korpusy např. Penn Treebank (http://cis.upenn.edu/), Canadian Hansard Treebank (http://paginaspersonales.deusto.es/abaitua/) či klasický korpus Lancaster-Oslo/Bergen (LOB) (✍Johansson & Leech ad., 1978), anotované přístupem bezprostředněsložkovým. V t. mohou být mimo syntaktické vztahy vyjádřené závislostí či vztahy mezi složkami zachyceny i další vztahy, např. vztahy koreferenční (anaforické a kataforické).
Uvedená věta Pracovníci nemají možnosti čerpat finanční prostředky by se bezprostředněsložkovým stromem zachytila například takto:
Zde Adj označuje adjektivum, AdjP – adjektivní skupina, N – substantivum, NP – jmenná skupina, S – věta, V – sloveso, VFin – finitní sloveso, VFinP – slovesná skupina řízená finitním slovesem, VInf – infinitiv, VInfP – slovesná skupina řízená infinitivem. Jednotlivým uzlům stromu je přiřazen buď neterminální symbol (zde syntaktická funkce nebo slovní druh), nebo terminální symbol (slovní tvar). Bezkontextová gramatika umožňující generovat uvedený strom by obsahovala např. tato přepisovací pravidla:
S | → | NP VFinP |
AdjP | → | Adj |
NP | → | N VInfP |
NP | → | AdjP N |
NP | → | N |
VFinP | → | VFin NP |
VFin | → | V |
VInf | → | V |
Adj | → | finanční |
N | → | možnosti |
N | → | pracovníci |
N | → | prostředky |
V | → | nemají |
V | → | čerpat |
- Baker, P. & A. Hardie ad. A Glossary of Corpus Linguistics, 2006.
- Johansson, S. & G. Leech ad. Manual of Information to Accompany the Lancaster-Oslo/Bergen Corpus of British English, for Use with Digital Computers, 1978.
- Leech, G. & R. Garside. Running a Grammar Factory: The Production of Syntactically Analyzed Corpora or ‘Treebanks’. In Johansson, S. & A.‑B. Stenström (eds.), English Computer Corpora, 1991, 15–32.
- Mikulová, M. & A. Bémová ad. Anotace na tektogramatické rovině Pražského závislostního korpusu. Anotátorská příručka. ÚFAL/CKL technical report TR-2006-28, 2005.
- Mikulová, M. & A. Bémová ad. Anotace na tektogramatické rovině Pražského závislostního korpusu (Referenční příručka). ÚFAL/CKL technical report TR-2006-31, 2006 (http://ufal.mff.cuni.cz/pdt2.0/).
- The Prague Dependency Treebank 2.0, 2006 (http://ufal.mff.cuni.cz/pdt2.0/).
URL: https://www.czechency.org/slovnik/TREEBANK (poslední přístup: 3. 12. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka