frekwencja liter w polskich tekstach

 
frekwencja liter w polskich tekstach
20.03.2006
Witam,
interesuje mnie, jaka jest frekwencja poszczególnych liter w polskich słowach. Które litery występują najczęściej, a które najrzadziej? Czy są jakieś procentowe wyliczenia?
Pozdrawiam,
Bartosz
Poniższa tabelka prezentuje procentowy udział poszczególnych liter w próbce 2. wydania Korpusu IPI PAN liczącej ponad 30 milionów segmentów (około 25 milionów słów ortograficznych). W korpusie tym zdarzały się także wystąpienia liter z innych alfabetów, były one jednak znacznie rzadsze niż najrzadsze litery w tabelce poniżej. Na przykład kolejna co do częstości litera, é, wystąpiła 1939 razy, w porównaniu do 22429 wystąpień litery x czy 81474 wystąpień litery ź. Warto przy okazji zauważyć, że niektóre znaki interpunkcyjne występują w tekstach polskich częściej niż wiele liter. Na przykład najczęstszy polski znak przestankowy, przecinek, występuje częściej niż litera b.
a 8.91%   w 4.65%   p 3.13%   g 1.42%   ć 0.40%
i 8.21%   s 4.32%   m 2.80%   ę 1.11%   f 0.30%
o 7.75%   t 3.98%   u 2.50%   h 1.08%   ń 0.20%
e 7.66%   c 3.96%   j 2.28%   ą 0.99%   q 0.14%
z 5.64%   y 3.76%   l 2.10%   ó 0.85%   ź 0.06%
n 5.52%   k 3.51%   ł 1.82%   ż 0.83%   v 0.04%
r 4.69%   d 3.25%   b 1.47%   ś 0.66%   x 0.02%
Adam Przepiórkowski, Instytut Podstaw Informatyki PAN
Przeglądaj słowniki
Przeglądaj Słownik języka polskiego
Przeglądaj Wielki słownik ortograficzny
Przeglądaj Słownik języka polskiego pod red. W. Doroszewskiego