KORPUSY JĘZYKOWE

Do czego może przydać się korpus?


Korpus językowy służy przede wszystkim jako źródło wiedzy o typowym użyciu słów w obrębie danego języka, a korzystają z niego m.in. językoznawcy, tłumacze, traduktolodzy, glottodydaktycy i leksykografowie. Choć korpusem można nazwać także zbiór tekstów w formie drukowanej, to obecnie korpusy zestawiane są przede wszystkim elektronicznie.

Rodzaje korpusów


Korpusy można podzielić na ogólne i wyspecjalizowane. Do ogólnych zalicza się m.in. duże korpusy narodowe liczące po kilkaset milionów słów, takie jak British National Corpus (http://www.natcorp.ox.ac.uk/), Nacional’nyj korpus russkogo âzyka (http://www.ruscorpora.ru/) lub znajdujący się obecnie w fazie tworzenia Narodowy Korpus Języka Polskiego (http://nkjp.pl/). Korpusy wyspecjalizowane natomiast obejmują węższy zakres materiału językowego, np. język mówiony, język prasy, gwarę młodzieżową.

Korpusy bywają także samodzielnie tworzone przez tłumaczy dla potrzeb bieżącego tłumaczenia jako źródło słownictwa z określonej tematyki. Korpus tego typu nazywany jest korpusem do-it-yourself, korpusem ad hoc lub „jednorazowym” (disposable corpus).

Pod względem liczby reprezentowanych języków, korpusy mogą być jedno-, dwu- lub wielojęzyczne. Wśród korpusów wielojęzycznych wyróżnia się korpusy porównywalne i równoległe (paralelne, tłumaczeniowe). Korpusy porównywalne zawierają teksty tego samego gatunku i dotyczące podobnej tematyki (np. zbiór tekstów publicystycznych o sporcie w języku polskim i rosyjskim). Korpusy równoległe zawierają natomiast teksty źródłowe i ich tłumaczenia na jeden lub więcej języków. Są wykorzystywane do pozyskiwania terminologii, a także stanowią dla tłumacza przykład wcześniejszych translacji. 

Wyszukiwanie w korpusie


Wieloaspektowe i bardzo precyzyjne wyszukiwanie w korpusach umożliwia anotacja, czyli znakowanie słów znacznikami morfosyntaktycznymi, które zawierają informacje o cechach morfologicznych i składniowych poszczególnych słów.

Wyszukiwanie w korpusie przebiega za pomocą programu konkordancyjnego, tzw. konkordancera. Rezultaty kwerendy wyświetlają się w formie listy wystąpień (okurencji) wyrazu w danym zbiorze tekstów wraz z kontekstem jego użycia, czyli w formacie KWIC (key word in context). Kontekst użycia stanowi bezpośrednie prawo- i lewostronne otoczenie tekstowe danego wyrazu.

Użyteczność korpusu


Korpusy dwujęzyczne stanowią bogate źródło terminologii i tzw. ekwiwalentów przekładowych, szczególnie wtedy, gdy są eksploatowane jako pamięć tłumaczeniowa w specjalnych programach CAT (Computer Assisted Translation). Drugą podstawową zaletą korpusów jest przedstawianie jednostek leksykalnych w ich naturalnym kontekście, w zdaniach. Tłumacz uzyskuje możliwość uzupełnienia wiedzy o sposobie użycia danych słów i kolokacjach, co jest warunkiem stworzenia wysokiej jakości przekładu, nie noszącego znamiona „obcości” spowodowanej nieporadnym i nienaturalnym użyciem wyrazów.

Internet jako korpus


Zasoby WWW wzięte en bloc mogą być traktowane jako swoisty korpus językowy. Choć nie spełniają wszystkich stricte językoznawczych kryteriów korpusu (takich jak: metadane, stabilność i skończona liczba tekstów, anotacja), co ogranicza ich użyteczność dla analiz lingwistycznych, stanowią jednak potencjalne źródło unikatowej informacji lingwistycznej dla specjalistów pracujących z językiem.

Największe zalety wykorzystywania Internetu jako korpusu to aktualność informacji i dostęp do najnowszej terminologii, neologizmów, zapisu mowy potocznej, które nie zostały zarejestrowane w słownikach oraz możliwość sprawdzenia poprawności językowej wyrażeń i ich stosowalności, m.in. przez wykorzystanie informacji o liczbie rezultatów kwerendy. Ponadto, zaawansowane opcje wyszukiwawcze pozwalają – przez wybór regionu – na sprawdzenie użycia terminów w różnych państwach, np. tłumacze języka angielskiego mogą sprawdzić, jakie warianty terminów są preferowane w USA, a jakie w Wielkiej Brytanii. Zastosowanie wyszukiwarek jako „asystentów językowych” pozwala zastąpić konsultacje z rodzimymi użytkownikami języka, a nawet zwiększyć wiarygodność informacji, gdyż dane pochodzą nie od jednej osoby, lecz z wielu niezależnych źródeł. 

Warto też odnotować, że istnieją wyspecjalizowane narzędzia konkordancyjne (tzw. konkordancery internetowe lub sieciowe), które przeszukują bazy indeksowe wyszukiwarek globalnych i rezultaty wyszukiwania prezentują w formie konkordancji, np. WebCorp (http://www.webcorp.org.uk/live/).

Literatura: 



Buendía-Castro, Miriam; Clara Inés López-Rodríguez. The Web for Corpus and the Web as Corpus in translators' education [dok. elektr.] http://www.edgehill.ac.uk/documents/conferences/UCCTSHandbook.pdf [odczyt: 26.01.2013]. 

Lewandowska-Tomaszczyk, Barbara red. (2005). Podstawy językoznawstwa korpusowego. Łódź: Wydaw. UŁ, 306 s.

Łukasik, Marek (2007). Narzędzia lingwistyki korpusowej w warsztacie terminologa, terminografa i tłumacza tekstów specjalistycznych. W: Wiedza-korpus-słownik. Warszawa: KJS UW, s. 23-47.

Volk, Martin (2002). Using the Web as Corpus for Linguistic Research [dok. elektr.] http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.6964&rep=rep1&type=pdf [odczyt: 26.01.2013].


 
 

Brak komentarzy:

Prześlij komentarz