INTERCORP  (InterCorp)

Základní

Vedle korpusů jednojazyčných je v rámci projektu ↗ČNK od roku 2005 budovaný vícejazyčný korpus paralelní, zahrnující texty v č. a jejich překlady do jednoho n. více z celkem 27 jaz. v celkovém objemu 91 mil. slov (stav roku 2012); počet jaz. není uzavřen. Účelem paralelních korpusů je umožnit převést stejnou metodologii, propracovávanou v rámci korpusové lingvistiky původně pouze pro jednojazyčné korpusy, také na výzkum kontrastivní. Paralelní korpus je složen z originálů a překladových textů, které mohou být vzájemně zarovnány (tzv. alignment // zarovnání) na jednotkách různé úrovně (odstavec, věta/skupina vět, popř. slovo). Uživatel tak může prohledávat korpus (libovolnou jaz. mutaci textu) a sledovat jednotlivá překladová řešení v různých textech (od různých autorů a překladatelů), zjišťovat jejich četnosti a kontext.

InterCorp je pojatý jako paralelní korpus, který je mnohostranný jak co do typů textů, tak jaz., v zásadě je přitom synchronní (s texty po r. 1945). Jeho základem je stále složka překladů beletristických, popř. obecně známých textů odborných (ale i textů EU, žurnalistických aj.). Buduje se se snahou o co nejširší užitnost, opřenou o zarovnávání textů minimálně na úroveň odstavců, často ale i vět aj. a postupně se obohacuje i o ↗lemmatizaci. Paralelní korpusy jsou (dnes zatím spíše potenciálně) zdrojem dat pro kvalitnější překladové slovníky, kontrastivní gramatiky a studium specifických rysů překladového jaz.; jsou i vítaným praktickým zdrojem dat pro překladatele a překladová cvičení.

Rozšiřující

Ukázka z česko-anglické verze InterCorpu:

Čeština

Angličtina

A Tereza si vzpomíná, jak kdysi, snad před deseti lety, četla dvouřádkovou zprávu v novinách: bylo tam psáno, že v jednom ruském městě postříleli

psy

.

She recalled reading a two-line filler in the papers ten or so years ago about how all the

dogs

in a certain Russian city had been summarily shot .

Odchylně od odstavce 1 smějí být

psi

a kočky dováženi za těchto podmínek: </p>

Derogating from paragraph 1

dogs

and cats may be imported under the following conditions: </p>

Vzteklý neznaboh (aby ho

psi

roztrhali!) se vrhá na pověřence, řve na něho jako na pacholka a hrozí mu smrtí.

The mad Vlah (may the

dogs

eat his flesh!) flew at the delegate, shouted at him as if he were a subordinate and threatened him with death .

vzpomínám si, jak se Jan Beneš chystal přečíst na jedné schůzi Ivanu Skálovi a všem ostatním jeho článek

psovi

psí smrt, v němž žádal smrt pro Slánského (zda to skutečně Beneš přečetl, už nevím);

I remember Jan Beneš getting ready to read to Ivan Skála and the rest of Skála's article For Dogs, a

dog

's Death, in which Skála had demanded the death sentence for Slánský (whether Beneš actually read it I don't know).

Literatura
  • Čermák, F. InterCorp: jeho povaha a možnosti. In Rozvoj jazykových technológií a zdrojov na Slovensku a vo svete (10 rokov Slovenského národného korpusu), Jazykovedné štúdie 31, 2014, 97–112.
  • Čermák, F. & A. Klégr ad. (eds.) InterCorp: Exploring a Multilingual Corpus, 2010.
  • Čermák, F. & J. Kocek. (eds.) Mnohojazyčný korpus InterCorp: Možnosti studia, 2010.
  • Čermák, F. & A. Rosen. The Case of InterCorp, a Multilingual Parallel Corpus. International Journal of Corpus Linguistics 17, 2012, 411–427.
  • Internetové stránky projektu ČNK (http://korpus.cz/).
  • Popis korpusu InterCorp (http://wiki.korpus.cz/doku.php/cnk:intercorp).
  • Křen, M. & A. Rosen ad. Paralelní korpus InterCorp po sedmi letech. In Čermák, F. (ed.), Korpusová lingvistika Praha 2011 2. Výzkum a výstavba korpusů, 2011, 105–115.
  • Rosen, A. & M. Vavřín. Building a Multilingual Parallel Corpus for Human Users. In Calzolari, N. ad. (eds.), Proceedings of LREC, 2012, 3345–3349.
Citace
Václav Cvrček (2017): INTERCORP. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/INTERCORP (poslední přístup: 31. 10. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka