frekwencja liter w polskich tekstach

 
frekwencja liter w polskich tekstach
20.03.2006
Witam,
interesuje mnie, jaka jest frekwencja poszczególnych liter w polskich słowach. Które litery występują najczęściej, a które najrzadziej? Czy są jakieś procentowe wyliczenia?
Pozdrawiam,
Bartosz
Poniższa tabelka prezentuje procentowy udział poszczególnych liter w próbce 2. wydania Korpusu IPI PAN liczącej ponad 30 milionów segmentów (około 25 milionów słów ortograficznych). W korpusie tym zdarzały się także wystąpienia liter z innych alfabetów, były one jednak znacznie rzadsze niż najrzadsze litery w tabelce poniżej. Na przykład kolejna co do częstości litera, é, wystąpiła 1939 razy, w porównaniu do 22429 wystąpień litery x czy 81474 wystąpień litery ź. Warto przy okazji zauważyć, że niektóre znaki interpunkcyjne występują w tekstach polskich częściej niż wiele liter. Na przykład najczęstszy polski znak przestankowy, przecinek, występuje częściej niż litera b.
a 8.91%   w 4.65%   p 3.13%   g 1.42%   ć 0.40%
i 8.21%   s 4.32%   m 2.80%   ę 1.11%   f 0.30%
o 7.75%   t 3.98%   u 2.50%   h 1.08%   ń 0.20%
e 7.66%   c 3.96%   j 2.28%   ą 0.99%   q 0.14%
z 5.64%   y 3.76%   l 2.10%   ó 0.85%   ź 0.06%
n 5.52%   k 3.51%   ł 1.82%   ż 0.83%   v 0.04%
r 4.69%   d 3.25%   b 1.47%   ś 0.66%   x 0.02%
Adam Przepiórkowski, Instytut Podstaw Informatyki PAN
Przeglądaj słowniki
Przeglądaj Słownik języka polskiego
Przeglądaj Wielki słownik ortograficzny
Przeglądaj Słownik języka polskiego pod red. W. Doroszewskiego

Młodzieżowe słowo roku 2017

Zapraszamy do udziału w plebiscycie na Młodzieżowe słowo roku 2017.
Zgłoszone słowo nie musi być nowe, slangowe ani najczęstsze. Doceniamy istotność tematu oraz kreatywność języka!

Jeśli chcesz otrzymać bezpłatny e-book, potwierdź także poniższe zgody marketingowe.

Świat w przysłowiach

Wyślij

Weź udział w akcji „Młodzieżowe słowo roku 2017” i odbierz darmowy e-book!