Struktura korpusu

Proponujemy Państwu zasoby korpusu ogólnego, tzn. takiego, który w swej strukturze tematycznej i stylowej odzwierciedla codzienny kontakt z językiem przeciętnego użytkownika. To oczywiście idealne założenie, sądzimy jednak, że udało nam się do niego zbliżyć.
Przygotowując materiał do korpusu internetowego, wybieraliśmy losowo fragmenty książek i czasopism z różnych dziedzin wielkości mniej więcej jednego arkusza (40.000 znaków, czyli około 6.000 wyrazów), założywszy uprzednio strukturę tematyczną.

Korpus, zrównoważony tematycznie i gatunkowo,  składa się z 2070 próbek tekstu wielkości od 1 arkusza do 6 arkuszy o łącznej wielkości 175 MB. Próbki były pobierane ze 195 książek beletrystycznych i 191 niebeletrystycznych oraz z 977 numerów 185 różnych tytułów prasowych. Z jednej książki lub z jednego numeru gazety pobrano od jednej do 6 próbek. Korpus uzupełniają 84 pliki z przepisanymi rozmowami oraz 272 pliki z kilkuset ulotkami reklamowymi i 207 plików z tekstami internetowymi (stronami www, blogami, czatami, listami dyskusyjnymi).

Proporcje źródeł:

Źródło

Procent tekstu

Liczba tytułów

książki beletrystyczne

20

195

książki niebeletrystyczne

21

191

prasa

45,5

977 numerów 185 różnych tytułów

rozmowy

4,5

84

druki ulotne i użytkowe

5,5

272 pliki

strony internetowe

3,5

207

 

Klasyfikacja tematyczna tekstów prasowych i literatury niebeletrystycznej:

filozofia, religia

7%

historia, geografia (w tym wspomnienia)

17%

literaturoznawstwo, językoznawstwo (w tym eseje)

9%

nauki matematyczno-przyrodnicze

9%

polityka, ekonomia

14%

nauki społeczne

5%

nauki stosowane

8%

sztuka

5,5%

inne

25,5%

 

Teksty korpusu powstały w następujących latach:

1920-1945

4,5%

1946-1969

10%

1970-1989

7,5%

1990-2005 (w tym wszystkie teksty mówione)

78%

 

Znakowanie tekstu

 

Pliki tekstowe korpusu zawierają znaczniki (tagi) informujące o strukturze tekstu, nietypowych lub błędnych wyrazach i konstrukcjach, a także charakteryzujące autorów i uczestników rozmowy.
Inwentarz i hierarchię tagów definiuje plik typu DTD (document type definition). Na podstawie tego zestawu można sprawdzić specjalnym programem poprawność tagowania.
Nasz zestaw tagów jest zgodny z zaleceniami międzynarodowego standardu znakowania tekstów korpusowych Text Encoding Initiative (informacje o TEI na stronie http://www.tei-c.org).
Tagi w tekście umożliwiają nam wyszukiwanie nazw własnych, np. osób, miejsc, a także wyrazów pospolitych w szczególnej funkcji, np. w tytule lub w wypowiedziach osób określonej płci czy wieku. Wyszukiwarka sieciowa nie umożliwia wyszukiwania według tagów. Można jedynie zobaczyć tagi w wybranym cytacie.

 

Lista tagów

 

Każdy tekst może być podzielony na jednostki mniejsze, które oznaczamy angielskim skrótem <DIV>. Oddzielne jednostki to np. rozdziały książki, artykuły w gazecie, także utwory czy ich fragmenty cytowane w innych tekstach. Tag <DIV> ma atrybuty:
type=
art - artykuł
news - wiadomość
convers - rozmowa
letter - list
phone - rozmowa telefoniczna
poem - wiersz
story - opowieść
tab - tabela, zestawienie itp.
sex (płeć autora) =
m - mężczyzna
f - kobieta
age (wiek) =
1: <15 lat
2: 15-19 lat
3: 20-24 lata
4: 25-34 lata
5: 35-44 lata
6: 45-59 lat
7: >60 lat
edu (wykształcenie) =
c - dziecko przed ukończeniem szkoły podstawowej
p - podstawowe
s - średnie
h - wyższe
W poszczególnych jednostkach tekstu (div) zaznaczone są oddzielnymi tagami następujące elementy strukturalne:
<TIT>, <TIT1> - tytuł i śródtytuł
<INTRO> - wstępy
<AU> - podpis autora
<PAGE> - numer strony
W nagrywanych rozmowach oraz publikowanych wywiadach ważnym elementem struktury jest tag <WHOn> z kolejnymi liczbami. Znacznik ten obejmuje jedną wypowiedź w rozmowie. Charakterystyka płci, wieku i wykształcenia rozmówcy nie jest powtarzana w każdym znaczniku, lecz podana raz przy tagu WHO z odpowiednim numerem zawartym w tagu AUTHOR w metryczce (por.). Charakterystyka ta jest oznaczona takimi samymi symbolami jak w tagu <DIV>. Dzięki temu łatwo jest w programie wyszukującym znaczniki znaleźć wszystkie kwestie wypowiedziane przez osoby jednej płci czy w podobnym wieku, rozsiane po różnych plikach.

W tekście mogą pojawić się także wyrazy lub grupy wyrazów scharakteryzowane ze względu na następujące cechy:
<DIALECT> - fragmenty gwarowe
<FOREIGN> - cytaty obce, z atrybutem LANG oznaczającym język oryginału
<HI> - fragmenty wyróżnione graficznie w tekście ciągłym. Nie zaznaczamy oczywistego graficznego wyróżnienia tytułów, które i tak ujęte są w tagi <tit>.
Tag <hi> dotyczy np. indeksów górnych i dolnych, z atrybutem REND o wartości upper lub lower, np. zamiast 5 m2 > 5 m<hi rend="upper">2</>
<ORIG> - formy oryginalne, nowe lub błędne
Dla formy błędnej podajemy w tagu atrybut REG z formą poprawną, np. <orig reg="wychowuje">wychowywuje</>
<Q> - przytoczenie cudzych słów z atrybutem ANACHR oznaczającym rok powstania tekstu cytowanego, jeśli jest on bardzo odległy od charakterystyki głównego trekstu
<SYMBOL> - dotyczy znaków nieobecnych na wybranej stronie kodowej 1250
np. zamiast § <symbol>paragraph</>
<TRANSL> - fragmenty tłumaczone z atrybutem LANG oznaczającym język oryginału
<UNCLEAR> - fragmenty niejasne
<GAP> fragmenty pominięte w tekście z atrybutem REASON (przyczyna) =
privacy - ze względu na ochronę prywatności
tab - tabele
photo, image - podpis pod zdjęciem, obrazem
sampling - ze względu na wybór próbek statystycznych
Tag <gap> nie zawiera tekstu, nie ma więc znaku końca.
Teksty wiadomości prasowych i radiowych zawierają znaczniki nazw własnych:
<NAME> z atrybutem TYPE =
org - organizacja, np. firma, stowarzyszenie
person - osoba
place - miejsce (kraj, miasto, ulica)
product - nazwa wytworu, np. fiat
tit - tytuł dzieła (książki, gazety, filmu)
Konsekwentnie otagowane są nazwy we wszystkich wiadomościach "Rzeczpospolitej" z działu kraj i świat oraz w części innych plików pisanych i mówionych (informacja o zakresie tagowania znajduje się w tagu <correct> w metryczce).

Niektóre tagi dotyczą tylko tekstów mówionych:
<PAUSE> - dłuższa przerwa w wypowiedzi z atrybutem DUR i długościa podana w sekundach
<OVERLAP> - fragmenty wypowiedzi dwóch rozmówców, które się pokrywają
<VOCAL> - dźwięki nieartykułowane potencjalnie znaczące w rozmowie, tag z atrybutem desc=
laugh - śmiech
yawn - ziewanie
sigh - westchnienie
hem - chrząknięcie
inne, np. mmm, aaa, eee
<KINESIC> - gesty znaczące w rozmowie
<EVENT> - wydarzenia znaczące w rozmowie, np. trzaśnięcie drzwiami.

 

Korpus wiadomości prasowych "Rzeczpospolitej"

 

Korpus Języka Polskiego PWN ze względu na różnorodność chronologii oraz tematów nie może być wystarczającym źródłem informacji o wydarzeniach współczesnych. Taką funkcję pełnią z powodzeniem archiwa prasowe.

Dzięki uprzejmości redakcji dziennika zamieściliśmy obok zrównoważonego korpusu PWN teksty z 286 sobotnich numerów „Rzeczpospolitej” od roku 1997 do 2002 oraz 257 numerów z lat 2004 i 2005.

Wiadomości prasowe „Rzeczpospolitej” zawierają 18 000 000 słów tekstowych.

 

Ochrona prawna tekstów

 

Wszystkie teksty zawarte w korpusie podlegają ochronie prawnej na ogólnych zasadach określonych w Ustawie o prawie autorskim i prawach pokrewnych z 4 lutego 1994 roku.
Wydawnictwo Naukowe PWN nie jest posiadaczem praw do tekstów umieszczonych w korpusie. Wykorzystanie tych tekstów spełnia wymogi "nauczania i wyjaśniania" określone w art. 29 Ustawy o prawie autorskim.

Korpus został udostępniony wyłącznie w celach naukowych. Cytowanie fragmentów konkordancji jest możliwe wyłącznie z podaniem źródła konkretnego tekstu oraz nazwy Korpus Języka Polskiego PWN jako koordynatora zbioru tekstów i właściciela programu wyszukującego.

Przeglądaj słowniki
Przeglądaj Słownik języka polskiego
Przeglądaj Wielki słownik ortograficzny
Przeglądaj Słownik języka polskiego pod red. W. Doroszewskiego