dooh, 22.06.2014, 15:06
Do określenia frekwencji liter na potrzeby opracowania układu klawa.pl został utworzony zbiór tekstów składający się z ponad 500 tys. znaków. Około 70% zbioru stanowi publicystyka zawodowych dziennikarzy i felietonistów posługujących się poprawną polszczyzną i bogatym słownikiem: Stanisława Michalkiewicza, Piotra Skwiecińskiego i Rafała Ziemkiewicza. Pozostałą część stanowią teksty różnych blogerów także z uwzględnieniem ich jakości językowej. Wszystkie teksty, w miarę możliwości, zostały dobrane tak, aby nie zawierały specyficznych, powtarzających się wyrazów np. nazw własnych.
Częstość występowania liter w języku polskim
Ze względu na to, że litery diakrytyczne i ich wersje bez znaków diakrytycznych są wpisywane za pomocą tych samych klawiszy, ich wyniki zostały zsumowane.
Dla porównania wyniki własnego minikorpusu zostały zestawione z wynikami zaprezentowanymi na stronie poradni językowej PWN.
We własnej statystyce zostały dodatkowo ujęte: przecinek, kropka, pytajnik i wykrzyknik. Na stronie poradni mamy ograniczoną informację odnośnie znaków interpunkcyjnych: „Warto przy okazji zauważyć, że niektóre znaki interpunkcyjne występują w tekstach polskich częściej niż wiele liter. Na przykład najczęstszy polski znak przestankowy, przecinek, występuje częściej niż litera b.”
klawa.pl | P.J. PWN | ||
---|---|---|---|
a + ą | 9,56% | a + ą | 9,90% |
e + ę | 8,95% | e + ę | 8,77% |
o + ó | 8,32% | o + ó | 8,60% |
i | 8,20% | i | 8,21% |
z + ż | 6,25% | z + ż | 6,47% |
n + ń | 5,73% | n + ń | 5,72% |
s + ś | 4,79% | s + ś | 4,98% |
w | 4,51% | r | 4,69% |
r | 4,43% | w | 4,65% |
c + ć | 4,38% | c + ć | 4,36% |
t | 3,96% | t | 3,98% |
y | 3,96% | l + ł | 3,92% |
l + ł | 3,64% | y | 3,76% |
k | 3,36% | k | 3,51% |
d | 3,06% | d | 3,25% |
p | 3,03% | p | 3,13% |
m | 2,72% | m | 2,8% |
j | 2,48% | u | 2,5% |
u | 2,19% | j | 2,28% |
, (przecinek) | 1,49% | , (przecinek) | ? |
b | 1,44% | b | 1,47% |
g | 1,26% | g | 1,42% |
h | 0,98% | h | 1,08% |
. (kropka) | 0,84% | f | 0,3% |
f | 0,31% | q | 0,14% |
? (pytajnik) | 0,06% | x + ź | 0,08% |
x + ź | 0,05% | v | 0,04% |
! (wykrzyknik) | 0,02% | ||
v | 0,02% | ||
q | 0,00% |
Częstość występowania bigramów w języku polskim
Dane odnośnie bigramów, czyli par znaków występujących po sobie, zostały opracowane na zbiorze tekstów, którego spójność statystyczną z korpusem IPI PAN można ocenić na podstawie frekwencji poszczególnych liter powyżej.
Ze względu na to, że litery diakrytyczne i ich wersje bez znaków diakrytycznych są wpisywane za pomocą tych samych klawiszy, ich wyniki zostały zsumowane. Oznacza to, że np. wyniki zaprezentowane w tabeli dla bigramu ie zawierają zsumowane wyniki par ie oraz ię, wyniki w tabeli dla ac zawierają zsumowane wyniki ac, ać, ąc, ąć itd.
W tabeli zaprezentowano 30 najczęściej występujących bigramów.
Frekwencja bigramów w języku polskim | ||
---|---|---|
1. | ie | 3,926% |
2. | ni | 2,536% |
3. | ze | 1,784% |
4. | ow | 1,691% |
5. | na | 1,544% |
6. | po | 1,427% |
7. | cz | 1,306% |
8. | st | 1,221% |
9. | za | 1,204% |
10. | zy | 1,203% |
11. | al | 1,180% |
12. | ro | 1,179% |
13. | rz | 1,153% |
14. | an | 1,133% |
15. | ac | 1,133% |
16. | wi | 1,124% |
17. | ch | 1,110% |
18. | ra | 1,096% |
19. | pr | 1,081% |
20. | wa | 0,983% |
21. | ia | 0,971% |
22. | to | 0,954% |
23. | ta | 0,892% |
24. | ki | 0,885% |
25. | la | 0,885% |
26. | ko | 0,865% |
27. | os | 0,836% |
28. | sz | 0,831% |
29. | dz | 0,818% |
30. | ja | 0,811% |
*50.* | eg | 0,649% |
*100.* | om | 0,298% |
*200.* | sn | 0,103% |
*300.* | jd | 0,027% |
Częstość występowania trigramów w języku polskim
W ramach ciekawostki 10 najczęściej występujących „trójek”:
Trigramy w j. polskim | |
---|---|
nie | 1,78% |
rze | 0,76% |
prz | 0,71% |
dzi | 0,69% |
ego | 0,67% |
wie | 0,64% |
owa | 0,55% |
sie | 0,54% |
ych | 0,52% |
ani | 0,51% |
Dodaj komentarz