Struktura korpusu

Proponujemy Państwu zasoby korpusu ogólnego, tzn. takiego, który w swej strukturze tematycznej i stylowej odzwierciedla codzienny kontakt z językiem przeciętnego użytkownika. To oczywiście idealne założenie, sądzimy jednak, że udało nam się do niego zbliżyć.
Przygotowując materiał do korpusu internetowego, wybieraliśmy losowo fragmenty książek i czasopism z różnych dziedzin wielkości mniej więcej jednego arkusza (40.000 znaków, czyli około 6.000 wyrazów), założywszy uprzednio strukturę tematyczną.

Korpus, zrównoważony tematycznie i gatunkowo, składa się z 2070 próbek tekstu wielkości od 1 arkusza do 6 arkuszy o łącznej wielkości 175 MB. Próbki były pobierane ze 195 książek beletrystycznych i 191 niebeletrystycznych oraz z 977 numerów 185 różnych tytułów prasowych. Z jednej książki lub z jednego numeru gazety pobrano od jednej do 6 próbek. Korpus uzupełniają 84 pliki z przepisanymi rozmowami oraz 272 pliki z kilkuset ulotkami reklamowymi i 207 plików z tekstami internetowymi (stronami www, blogami, czatami, listami dyskusyjnymi).

Proporcje źródeł:

Źródło	Procent tekstu	Liczba tytułów
książki beletrystyczne	20	195
książki niebeletrystyczne	21	191
prasa	45,5	977 numerów 185 różnych tytułów
rozmowy	4,5	84
druki ulotne i użytkowe	5,5	272 pliki
strony internetowe	3,5	207

Klasyfikacja tematyczna tekstów prasowych i literatury niebeletrystycznej:

filozofia, religia	7%
historia, geografia (w tym wspomnienia)	17%
literaturoznawstwo, językoznawstwo (w tym eseje)	9%
nauki matematyczno-przyrodnicze	9%
polityka, ekonomia	14%
nauki społeczne	5%
nauki stosowane	8%
sztuka	5,5%
inne	25,5%

Teksty korpusu powstały w następujących latach:

1920-1945	4,5%
1946-1969	10%
1970-1989	7,5%
1990-2005 (w tym wszystkie teksty mówione)	78%

Znakowanie tekstu

Pliki tekstowe korpusu zawierają znaczniki (tagi) informujące o strukturze tekstu, nietypowych lub błędnych wyrazach i konstrukcjach, a także charakteryzujące autorów i uczestników rozmowy.
Inwentarz i hierarchię tagów definiuje plik typu DTD (document type definition). Na podstawie tego zestawu można sprawdzić specjalnym programem poprawność tagowania.
Nasz zestaw tagów jest zgodny z zaleceniami międzynarodowego standardu znakowania tekstów korpusowych Text Encoding Initiative (informacje o TEI na stronie http://www.tei-c.org).
Tagi w tekście umożliwiają nam wyszukiwanie nazw własnych, np. osób, miejsc, a także wyrazów pospolitych w szczególnej funkcji, np. w tytule lub w wypowiedziach osób określonej płci czy wieku. Wyszukiwarka sieciowa nie umożliwia wyszukiwania według tagów. Można jedynie zobaczyć tagi w wybranym cytacie.

Lista tagów

Każdy tekst może być podzielony na jednostki mniejsze, które oznaczamy angielskim skrótem <DIV>. Oddzielne jednostki to np. rozdziały książki, artykuły w gazecie, także utwory czy ich fragmenty cytowane w innych tekstach. Tag <DIV> ma atrybuty:
type=
art - artykuł
news - wiadomość
convers - rozmowa
letter - list
phone - rozmowa telefoniczna
poem - wiersz
story - opowieść
tab - tabela, zestawienie itp.
sex (płeć autora) =
m - mężczyzna
f - kobieta
age (wiek) =
1: <15 lat
2: 15-19 lat
3: 20-24 lata
4: 25-34 lata
5: 35-44 lata
6: 45-59 lat
7: >60 lat
edu (wykształcenie) =
c - dziecko przed ukończeniem szkoły podstawowej
p - podstawowe
s - średnie
h - wyższe
W poszczególnych jednostkach tekstu (div) zaznaczone są oddzielnymi tagami następujące elementy strukturalne:
<TIT>, <TIT1> - tytuł i śródtytuł
<INTRO> - wstępy
<AU> - podpis autora
<PAGE> - numer strony
W nagrywanych rozmowach oraz publikowanych wywiadach ważnym elementem struktury jest tag <WHOn> z kolejnymi liczbami. Znacznik ten obejmuje jedną wypowiedź w rozmowie. Charakterystyka płci, wieku i wykształcenia rozmówcy nie jest powtarzana w każdym znaczniku, lecz podana raz przy tagu WHO z odpowiednim numerem zawartym w tagu AUTHOR w metryczce (por.). Charakterystyka ta jest oznaczona takimi samymi symbolami jak w tagu <DIV>. Dzięki temu łatwo jest w programie wyszukującym znaczniki znaleźć wszystkie kwestie wypowiedziane przez osoby jednej płci czy w podobnym wieku, rozsiane po różnych plikach.

W tekście mogą pojawić się także wyrazy lub grupy wyrazów scharakteryzowane ze względu na następujące cechy:
<DIALECT> - fragmenty gwarowe
<FOREIGN> - cytaty obce, z atrybutem LANG oznaczającym język oryginału
<HI> - fragmenty wyróżnione graficznie w tekście ciągłym. Nie zaznaczamy oczywistego graficznego wyróżnienia tytułów, które i tak ujęte są w tagi <tit>.
Tag <hi> dotyczy np. indeksów górnych i dolnych, z atrybutem REND o wartości upper lub lower, np. zamiast 5 m2 > 5 m<hi rend="upper">2</>
<ORIG> - formy oryginalne, nowe lub błędne
Dla formy błędnej podajemy w tagu atrybut REG z formą poprawną, np. <orig reg="wychowuje">wychowywuje</>
<Q> - przytoczenie cudzych słów z atrybutem ANACHR oznaczającym rok powstania tekstu cytowanego, jeśli jest on bardzo odległy od charakterystyki głównego trekstu
<SYMBOL> - dotyczy znaków nieobecnych na wybranej stronie kodowej 1250
np. zamiast § <symbol>paragraph</>
<TRANSL> - fragmenty tłumaczone z atrybutem LANG oznaczającym język oryginału
<UNCLEAR> - fragmenty niejasne
<GAP> fragmenty pominięte w tekście z atrybutem REASON (przyczyna) =
privacy - ze względu na ochronę prywatności
tab - tabele
photo, image - podpis pod zdjęciem, obrazem
sampling - ze względu na wybór próbek statystycznych
Tag <gap> nie zawiera tekstu, nie ma więc znaku końca.
Teksty wiadomości prasowych i radiowych zawierają znaczniki nazw własnych:
<NAME> z atrybutem TYPE =
org - organizacja, np. firma, stowarzyszenie
person - osoba
place - miejsce (kraj, miasto, ulica)
product - nazwa wytworu, np. fiat
tit - tytuł dzieła (książki, gazety, filmu)
Konsekwentnie otagowane są nazwy we wszystkich wiadomościach "Rzeczpospolitej" z działu kraj i świat oraz w części innych plików pisanych i mówionych (informacja o zakresie tagowania znajduje się w tagu <correct> w metryczce).

Niektóre tagi dotyczą tylko tekstów mówionych:
<PAUSE> - dłuższa przerwa w wypowiedzi z atrybutem DUR i długościa podana w sekundach
<OVERLAP> - fragmenty wypowiedzi dwóch rozmówców, które się pokrywają
<VOCAL> - dźwięki nieartykułowane potencjalnie znaczące w rozmowie, tag z atrybutem desc=
laugh - śmiech
yawn - ziewanie
sigh - westchnienie
hem - chrząknięcie
inne, np. mmm, aaa, eee
<KINESIC> - gesty znaczące w rozmowie
<EVENT> - wydarzenia znaczące w rozmowie, np. trzaśnięcie drzwiami.

Korpus wiadomości prasowych "Rzeczpospolitej"

Korpus Języka Polskiego PWN ze względu na różnorodność chronologii oraz tematów nie może być wystarczającym źródłem informacji o wydarzeniach współczesnych. Taką funkcję pełnią z powodzeniem archiwa prasowe.

Dzięki uprzejmości redakcji dziennika zamieściliśmy obok zrównoważonego korpusu PWN teksty z 286 sobotnich numerów „Rzeczpospolitej” od roku 1997 do 2002 oraz 257 numerów z lat 2004 i 2005.

Wiadomości prasowe „Rzeczpospolitej” zawierają 18 000 000 słów tekstowych.

Ochrona prawna tekstów

Wszystkie teksty zawarte w korpusie podlegają ochronie prawnej na ogólnych zasadach określonych w Ustawie o prawie autorskim i prawach pokrewnych z 4 lutego 1994 roku.
Wydawnictwo Naukowe PWN nie jest posiadaczem praw do tekstów umieszczonych w korpusie. Wykorzystanie tych tekstów spełnia wymogi "nauczania i wyjaśniania" określone w art. 29 Ustawy o prawie autorskim.

Korpus został udostępniony wyłącznie w celach naukowych. Cytowanie fragmentów konkordancji jest możliwe wyłącznie z podaniem źródła konkretnego tekstu oraz nazwy Korpus Języka Polskiego PWN jako koordynatora zbioru tekstów i właściciela programu wyszukującego.

••• Menu

O korpusie