Struktura korpusu
Proponujemy Państwu zasoby korpusu ogólnego, tzn. takiego, który w swej strukturze tematycznej i stylowej odzwierciedla codzienny kontakt z językiem przeciętnego użytkownika. To oczywiście idealne założenie, sądzimy jednak, że udało nam się do niego zbliżyć.
Przygotowując materiał do korpusu internetowego, wybieraliśmy losowo fragmenty książek i czasopism z różnych dziedzin wielkości mniej więcej jednego arkusza (40.000 znaków, czyli około 6.000 wyrazów), założywszy uprzednio strukturę tematyczną.
Korpus, zrównoważony tematycznie i gatunkowo, składa się z 2070 próbek tekstu wielkości od 1 arkusza do 6 arkuszy o łącznej wielkości 175 MB. Próbki były pobierane ze 195 książek beletrystycznych i 191 niebeletrystycznych oraz z 977 numerów 185 różnych tytułów prasowych. Z jednej książki lub z jednego numeru gazety pobrano od jednej do 6 próbek. Korpus uzupełniają 84 pliki z przepisanymi rozmowami oraz 272 pliki z kilkuset ulotkami reklamowymi i 207 plików z tekstami internetowymi (stronami www, blogami, czatami, listami dyskusyjnymi).
Proporcje źródeł:
Źródło |
Procent tekstu |
Liczba tytułów |
książki beletrystyczne |
20 |
195 |
książki niebeletrystyczne |
21 |
191 |
prasa |
45,5 |
977 numerów 185 różnych tytułów |
rozmowy |
4,5 |
84 |
druki ulotne i użytkowe |
5,5 |
272 pliki |
strony internetowe |
3,5 |
207 |
Klasyfikacja tematyczna tekstów prasowych i literatury niebeletrystycznej:
filozofia, religia |
7% |
historia, geografia (w tym wspomnienia) |
17% |
literaturoznawstwo, językoznawstwo (w tym eseje) |
9% |
nauki matematyczno-przyrodnicze |
9% |
polityka, ekonomia |
14% |
nauki społeczne |
5% |
nauki stosowane |
8% |
sztuka |
5,5% |
inne |
25,5% |
Teksty korpusu powstały w następujących latach:
1920-1945 |
4,5% |
1946-1969 |
10% |
1970-1989 |
7,5% |
1990-2005 (w tym wszystkie teksty mówione) |
78% |
Znakowanie tekstu
Pliki tekstowe korpusu zawierają znaczniki (tagi) informujące o strukturze tekstu, nietypowych lub błędnych wyrazach i konstrukcjach, a także charakteryzujące autorów i uczestników rozmowy.
Inwentarz i hierarchię tagów definiuje plik typu DTD (document type definition). Na podstawie tego zestawu można sprawdzić specjalnym programem poprawność tagowania.
Nasz zestaw tagów jest zgodny z zaleceniami międzynarodowego standardu znakowania tekstów korpusowych Text Encoding Initiative (informacje o TEI na stronie http://www.tei-c.org).
Tagi w tekście umożliwiają nam wyszukiwanie nazw własnych, np. osób, miejsc, a także wyrazów pospolitych w szczególnej funkcji, np. w tytule lub w wypowiedziach osób określonej płci czy wieku. Wyszukiwarka sieciowa nie umożliwia wyszukiwania według tagów. Można jedynie zobaczyć tagi w wybranym cytacie.
Lista tagów
Każdy tekst może być podzielony na jednostki mniejsze, które oznaczamy angielskim skrótem <DIV>. Oddzielne jednostki to np. rozdziały książki, artykuły w gazecie, także utwory czy ich fragmenty cytowane w innych tekstach. Tag <DIV> ma atrybuty:
type=
art - artykuł
news - wiadomość
convers - rozmowa
letter - list
phone - rozmowa telefoniczna
poem - wiersz
story - opowieść
tab - tabela, zestawienie itp.
sex (płeć autora) =
m - mężczyzna
f - kobieta
age (wiek) =
1: <15 lat
2: 15-19 lat
3: 20-24 lata
4: 25-34 lata
5: 35-44 lata
6: 45-59 lat
7: >60 lat
edu (wykształcenie) =
c - dziecko przed ukończeniem szkoły podstawowej
p - podstawowe
s - średnie
h - wyższe
W poszczególnych jednostkach tekstu (div) zaznaczone są oddzielnymi tagami następujące elementy strukturalne:
<TIT>, <TIT1> - tytuł i śródtytuł
<INTRO> - wstępy
<AU> - podpis autora
<PAGE> - numer strony
W nagrywanych rozmowach oraz publikowanych wywiadach ważnym elementem struktury jest tag <WHOn> z kolejnymi liczbami. Znacznik ten obejmuje jedną wypowiedź w rozmowie. Charakterystyka płci, wieku i wykształcenia rozmówcy nie jest powtarzana w każdym znaczniku, lecz podana raz przy tagu WHO z odpowiednim numerem zawartym w tagu AUTHOR w metryczce (por.). Charakterystyka ta jest oznaczona takimi samymi symbolami jak w tagu <DIV>. Dzięki temu łatwo jest w programie wyszukującym znaczniki znaleźć wszystkie kwestie wypowiedziane przez osoby jednej płci czy w podobnym wieku, rozsiane po różnych plikach.
W tekście mogą pojawić się także wyrazy lub grupy wyrazów scharakteryzowane ze względu na następujące cechy:
<DIALECT> - fragmenty gwarowe
<FOREIGN> - cytaty obce, z atrybutem LANG oznaczającym język oryginału
<HI> - fragmenty wyróżnione graficznie w tekście ciągłym. Nie zaznaczamy oczywistego graficznego wyróżnienia tytułów, które i tak ujęte są w tagi <tit>.
Tag <hi> dotyczy np. indeksów górnych i dolnych, z atrybutem REND o wartości upper lub lower, np. zamiast 5 m2 > 5 m<hi rend="upper">2</>
<ORIG> - formy oryginalne, nowe lub błędne
Dla formy błędnej podajemy w tagu atrybut REG z formą poprawną, np. <orig reg="wychowuje">wychowywuje</>
<Q> - przytoczenie cudzych słów z atrybutem ANACHR oznaczającym rok powstania tekstu cytowanego, jeśli jest on bardzo odległy od charakterystyki głównego trekstu
<SYMBOL> - dotyczy znaków nieobecnych na wybranej stronie kodowej 1250
np. zamiast § <symbol>paragraph</>
<TRANSL> - fragmenty tłumaczone z atrybutem LANG oznaczającym język oryginału
<UNCLEAR> - fragmenty niejasne
<GAP> fragmenty pominięte w tekście z atrybutem REASON (przyczyna) =
privacy - ze względu na ochronę prywatności
tab - tabele
photo, image - podpis pod zdjęciem, obrazem
sampling - ze względu na wybór próbek statystycznych
Tag <gap> nie zawiera tekstu, nie ma więc znaku końca.
Teksty wiadomości prasowych i radiowych zawierają znaczniki nazw własnych:
<NAME> z atrybutem TYPE =
org - organizacja, np. firma, stowarzyszenie
person - osoba
place - miejsce (kraj, miasto, ulica)
product - nazwa wytworu, np. fiat
tit - tytuł dzieła (książki, gazety, filmu)
Konsekwentnie otagowane są nazwy we wszystkich wiadomościach "Rzeczpospolitej" z działu kraj i świat oraz w części innych plików pisanych i mówionych (informacja o zakresie tagowania znajduje się w tagu <correct> w metryczce).
Niektóre tagi dotyczą tylko tekstów mówionych:
<PAUSE> - dłuższa przerwa w wypowiedzi z atrybutem DUR i długościa podana w sekundach
<OVERLAP> - fragmenty wypowiedzi dwóch rozmówców, które się pokrywają
<VOCAL> - dźwięki nieartykułowane potencjalnie znaczące w rozmowie, tag z atrybutem desc=
laugh - śmiech
yawn - ziewanie
sigh - westchnienie
hem - chrząknięcie
inne, np. mmm, aaa, eee
<KINESIC> - gesty znaczące w rozmowie
<EVENT> - wydarzenia znaczące w rozmowie, np. trzaśnięcie drzwiami.
Korpus wiadomości prasowych "Rzeczpospolitej"
Korpus Języka Polskiego PWN ze względu na różnorodność chronologii oraz tematów nie może być wystarczającym źródłem informacji o wydarzeniach współczesnych. Taką funkcję pełnią z powodzeniem archiwa prasowe.
Dzięki uprzejmości redakcji dziennika zamieściliśmy obok zrównoważonego korpusu PWN teksty z 286 sobotnich numerów „Rzeczpospolitej” od roku 1997 do 2002 oraz 257 numerów z lat 2004 i 2005.
Wiadomości prasowe „Rzeczpospolitej” zawierają 18 000 000 słów tekstowych.
Ochrona prawna tekstów
Wszystkie teksty zawarte w korpusie podlegają ochronie prawnej na ogólnych zasadach określonych w Ustawie o prawie autorskim i prawach pokrewnych z 4 lutego 1994 roku.
Wydawnictwo Naukowe PWN nie jest posiadaczem praw do tekstów umieszczonych w korpusie. Wykorzystanie tych tekstów spełnia wymogi "nauczania i wyjaśniania" określone w art. 29 Ustawy o prawie autorskim.
Korpus został udostępniony wyłącznie w celach naukowych. Cytowanie fragmentów konkordancji jest możliwe wyłącznie z podaniem źródła konkretnego tekstu oraz nazwy Korpus Języka Polskiego PWN jako koordynatora zbioru tekstów i właściciela programu wyszukującego.