INTERCORP (InterCorp)
Vedle korpusů jednojazyčných je v rámci projektu ↗ČNK od roku 2005 budovaný vícejazyčný korpus paralelní, zahrnující texty v č. a jejich překlady do jednoho n. více z celkem 27 jaz. v celkovém objemu 91 mil. slov (stav roku 2012); počet jaz. není uzavřen. Účelem paralelních korpusů je umožnit převést stejnou metodologii, propracovávanou v rámci korpusové lingvistiky původně pouze pro jednojazyčné korpusy, také na výzkum kontrastivní. Paralelní korpus je složen z originálů a překladových textů, které mohou být vzájemně zarovnány (tzv. alignment // zarovnání) na jednotkách různé úrovně (odstavec, věta/skupina vět, popř. slovo). Uživatel tak může prohledávat korpus (libovolnou jaz. mutaci textu) a sledovat jednotlivá překladová řešení v různých textech (od různých autorů a překladatelů), zjišťovat jejich četnosti a kontext.
InterCorp je pojatý jako paralelní korpus, který je mnohostranný jak co do typů textů, tak jaz., v zásadě je přitom synchronní (s texty po r. 1945). Jeho základem je stále složka překladů beletristických, popř. obecně známých textů odborných (ale i textů EU, žurnalistických aj.). Buduje se se snahou o co nejširší užitnost, opřenou o zarovnávání textů minimálně na úroveň odstavců, často ale i vět aj. a postupně se obohacuje i o ↗lemmatizaci. Paralelní korpusy jsou (dnes zatím spíše potenciálně) zdrojem dat pro kvalitnější překladové slovníky, kontrastivní gramatiky a studium specifických rysů překladového jaz.; jsou i vítaným praktickým zdrojem dat pro překladatele a překladová cvičení.
Ukázka z česko-anglické verze InterCorpu:
Čeština | Angličtina | ||||
A Tereza si vzpomíná, jak kdysi, snad před deseti lety, četla dvouřádkovou zprávu v novinách: bylo tam psáno, že v jednom ruském městě postříleli | psy | . | She recalled reading a two-line filler in the papers ten or so years ago about how all the | dogs | in a certain Russian city had been summarily shot . |
Odchylně od odstavce 1 smějí být | psi | a kočky dováženi za těchto podmínek: </p> | Derogating from paragraph 1 | dogs | and cats may be imported under the following conditions: </p> |
Vzteklý neznaboh (aby ho | psi | roztrhali!) se vrhá na pověřence, řve na něho jako na pacholka a hrozí mu smrtí. | The mad Vlah (may the | dogs | eat his flesh!) flew at the delegate, shouted at him as if he were a subordinate and threatened him with death . |
vzpomínám si, jak se Jan Beneš chystal přečíst na jedné schůzi Ivanu Skálovi a všem ostatním jeho článek | psovi | psí smrt, v němž žádal smrt pro Slánského (zda to skutečně Beneš přečetl, už nevím); | I remember Jan Beneš getting ready to read to Ivan Skála and the rest of Skála's article For Dogs, a | dog | 's Death, in which Skála had demanded the death sentence for Slánský (whether Beneš actually read it I don't know). |
- Čermák, F. InterCorp: jeho povaha a možnosti. In Rozvoj jazykových technológií a zdrojov na Slovensku a vo svete (10 rokov Slovenského národného korpusu), Jazykovedné štúdie 31, 2014, 97–112.
- Čermák, F. & A. Klégr ad. (eds.) InterCorp: Exploring a Multilingual Corpus, 2010.
- Čermák, F. & J. Kocek. (eds.) Mnohojazyčný korpus InterCorp: Možnosti studia, 2010.
- Čermák, F. & A. Rosen. The Case of InterCorp, a Multilingual Parallel Corpus. International Journal of Corpus Linguistics 17, 2012, 411–427.
- Internetové stránky projektu ČNK (http://korpus.cz/).
- Popis korpusu InterCorp (http://wiki.korpus.cz/doku.php/cnk:intercorp).
- Křen, M. & A. Rosen ad. Paralelní korpus InterCorp po sedmi letech. In Čermák, F. (ed.), Korpusová lingvistika Praha 2011 2. Výzkum a výstavba korpusů, 2011, 105–115.
- Rosen, A. & M. Vavřín. Building a Multilingual Parallel Corpus for Human Users. In Calzolari, N. ad. (eds.), Proceedings of LREC, 2012, 3345–3349.
URL: https://www.czechency.org/slovnik/INTERCORP (poslední přístup: 23. 11. 2024)
Další pojmy:
korpusová lingvistikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka