Do czego może przydać się korpus?
Korpus językowy służy przede wszystkim jako źródło wiedzy o typowym użyciu słów w obrębie danego języka, a korzystają z niego m.in. językoznawcy, tłumacze, traduktolodzy, glottodydaktycy i leksykografowie. Choć korpusem można nazwać także zbiór tekstów w formie drukowanej, to obecnie korpusy zestawiane są przede wszystkim elektronicznie.
Rodzaje korpusów
Korpusy można podzielić na ogólne i wyspecjalizowane. Do ogólnych zalicza się m.in. duże korpusy narodowe liczące po kilkaset milionów słów, takie jak British National Corpus (http://www.natcorp.ox.ac.uk/), Nacional’nyj korpus russkogo âzyka (http://www.ruscorpora.ru/) lub znajdujący się obecnie w fazie tworzenia Narodowy Korpus Języka Polskiego (http://nkjp.pl/). Korpusy wyspecjalizowane natomiast obejmują węższy zakres materiału językowego, np. język mówiony, język prasy, gwarę młodzieżową.
Korpusy bywają także samodzielnie tworzone przez tłumaczy dla potrzeb bieżącego tłumaczenia jako źródło słownictwa z określonej tematyki. Korpus tego typu nazywany jest korpusem do-it-yourself, korpusem ad hoc lub „jednorazowym” (disposable corpus).
Pod względem liczby reprezentowanych języków, korpusy mogą być jedno-, dwu- lub wielojęzyczne. Wśród korpusów wielojęzycznych wyróżnia się korpusy porównywalne i równoległe (paralelne, tłumaczeniowe). Korpusy porównywalne zawierają teksty tego samego gatunku i dotyczące podobnej tematyki (np. zbiór tekstów publicystycznych o sporcie w języku polskim i rosyjskim). Korpusy równoległe zawierają natomiast teksty źródłowe i ich tłumaczenia na jeden lub więcej języków. Są wykorzystywane do pozyskiwania terminologii, a także stanowią dla tłumacza przykład wcześniejszych translacji.
Wyszukiwanie w korpusie
Wieloaspektowe i bardzo precyzyjne wyszukiwanie w korpusach umożliwia anotacja, czyli znakowanie słów znacznikami morfosyntaktycznymi, które zawierają informacje o cechach morfologicznych i składniowych poszczególnych słów.
Wyszukiwanie w korpusie przebiega za pomocą programu konkordancyjnego, tzw. konkordancera. Rezultaty kwerendy wyświetlają się w formie listy wystąpień (okurencji) wyrazu w danym zbiorze tekstów wraz z kontekstem jego użycia, czyli w formacie KWIC (key word in context). Kontekst użycia stanowi bezpośrednie prawo- i lewostronne otoczenie tekstowe danego wyrazu.
Użyteczność korpusu
Korpusy dwujęzyczne stanowią bogate źródło terminologii i tzw. ekwiwalentów przekładowych, szczególnie wtedy, gdy są eksploatowane jako pamięć tłumaczeniowa w specjalnych programach CAT (Computer Assisted Translation). Drugą podstawową zaletą korpusów jest przedstawianie jednostek leksykalnych w ich naturalnym kontekście, w zdaniach. Tłumacz uzyskuje możliwość uzupełnienia wiedzy o sposobie użycia danych słów i kolokacjach, co jest warunkiem stworzenia wysokiej jakości przekładu, nie noszącego znamiona „obcości” spowodowanej nieporadnym i nienaturalnym użyciem wyrazów.
Internet jako korpus
Zasoby WWW wzięte en bloc mogą być traktowane jako swoisty korpus językowy. Choć nie spełniają wszystkich stricte językoznawczych kryteriów korpusu (takich jak: metadane, stabilność i skończona liczba tekstów, anotacja), co ogranicza ich użyteczność dla analiz lingwistycznych, stanowią jednak potencjalne źródło unikatowej informacji lingwistycznej dla specjalistów pracujących z językiem.
Największe zalety
wykorzystywania Internetu jako korpusu to aktualność informacji i dostęp do
najnowszej terminologii, neologizmów, zapisu mowy potocznej, które nie zostały
zarejestrowane w słownikach oraz możliwość sprawdzenia poprawności językowej
wyrażeń i ich stosowalności, m.in. przez wykorzystanie informacji o liczbie
rezultatów kwerendy. Ponadto, zaawansowane opcje wyszukiwawcze pozwalają –
przez wybór regionu – na sprawdzenie użycia terminów w różnych państwach, np. tłumacze
języka angielskiego mogą sprawdzić, jakie warianty terminów są preferowane w
USA, a jakie w Wielkiej Brytanii. Zastosowanie wyszukiwarek jako „asystentów językowych”
pozwala zastąpić konsultacje z rodzimymi użytkownikami języka, a nawet zwiększyć
wiarygodność informacji, gdyż dane pochodzą nie od jednej osoby, lecz z wielu
niezależnych źródeł.
Warto też odnotować, że istnieją wyspecjalizowane narzędzia
konkordancyjne (tzw. konkordancery internetowe lub sieciowe), które przeszukują
bazy indeksowe wyszukiwarek globalnych i rezultaty wyszukiwania prezentują w
formie konkordancji, np. WebCorp (http://www.webcorp.org.uk/live/).
Literatura:
Buendía-Castro,
Miriam; Clara Inés López-Rodríguez. The Web for Corpus
and the Web as Corpus in translators' education [dok. elektr.]
http://www.edgehill.ac.uk/documents/conferences/UCCTSHandbook.pdf [odczyt:
26.01.2013].
Lewandowska-Tomaszczyk, Barbara red. (2005). Podstawy językoznawstwa korpusowego. Łódź: Wydaw. UŁ, 306 s.
Lewandowska-Tomaszczyk, Barbara red. (2005). Podstawy językoznawstwa korpusowego. Łódź: Wydaw. UŁ, 306 s.
Łukasik,
Marek (2007). Narzędzia lingwistyki korpusowej w warsztacie terminologa,
terminografa i tłumacza tekstów specjalistycznych. W: Wiedza-korpus-słownik.
Warszawa: KJS UW, s. 23-47.
Volk, Martin (2002). Using the Web as Corpus for Linguistic Research
[dok. elektr.] http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.6964&rep=rep1&type=pdf
[odczyt: 26.01.2013].
Brak komentarzy:
Prześlij komentarz