frekwencja liter w polskich tekstach
interesuje mnie, jaka jest frekwencja poszczególnych liter w polskich słowach. Które litery występują najczęściej, a które najrzadziej? Czy są jakieś procentowe wyliczenia?
Pozdrawiam,
Bartosz
20.03.2006
20.03.2006
Witam, interesuje mnie, jaka jest frekwencja poszczególnych liter w polskich słowach. Które litery występują najczęściej, a które najrzadziej? Czy są jakieś procentowe wyliczenia?
Pozdrawiam,
Bartosz
Poniższa tabelka prezentuje procentowy udział poszczególnych liter w próbce 2. wydania Korpusu IPI PAN liczącej ponad 30 milionów segmentów (około 25 milionów słów ortograficznych). W korpusie tym zdarzały się także wystąpienia liter z innych alfabetów, były one jednak znacznie rzadsze niż najrzadsze litery w tabelce poniżej. Na przykład kolejna co do częstości litera, é, wystąpiła 1939 razy, w porównaniu do 22429 wystąpień litery x czy 81474 wystąpień litery ź. Warto przy okazji zauważyć, że niektóre znaki interpunkcyjne występują w tekstach polskich częściej niż wiele liter. Na przykład najczęstszy polski znak przestankowy, przecinek, występuje częściej niż litera b.
a | 8.91% | w | 4.65% | p | 3.13% | g | 1.42% | ć | 0.40% |
---|---|---|---|---|---|---|---|---|---|
i | 8.21% | s | 4.32% | m | 2.80% | ę | 1.11% | f | 0.30% |
o | 7.75% | t | 3.98% | u | 2.50% | h | 1.08% | ń | 0.20% |
e | 7.66% | c | 3.96% | j | 2.28% | ą | 0.99% | q | 0.14% |
z | 5.64% | y | 3.76% | l | 2.10% | ó | 0.85% | ź | 0.06% |
n | 5.52% | k | 3.51% | ł | 1.82% | ż | 0.83% | v | 0.04% |
r | 4.69% | d | 3.25% | b | 1.47% | ś | 0.66% | x | 0.02% |
Adam Przepiórkowski, Instytut Podstaw Informatyki PAN