dooh, 22.06.2014, 15:06
Do określenia frekwencji liter na potrzeby opracowania układu klawa.pl został utworzony zbiór tekstów składający się z ponad 500 tys. znaków. Około 70% zbioru stanowi publicystyka zawodowych dziennikarzy i felietonistów posługujących się poprawną polszczyzną i bogatym słownikiem: Stanisława Michalkiewicza, Piotra Skwiecińskiego i Rafała Ziemkiewicza. Pozostałą część stanowią teksty różnych blogerów także z uwzględnieniem ich jakości językowej. Wszystkie teksty, w miarę możliwości, zostały dobrane tak, aby nie zawierały specyficznych, powtarzających się wyrazów np. nazw własnych.
Częstość występowania liter w języku polskim
Ze względu na to, że litery diakrytyczne i ich wersje bez znaków diakrytycznych są wpisywane za pomocą tych samych klawiszy, ich wyniki zostały zsumowane.
Dla porównania wyniki własnego minikorpusu zostały zestawione z wynikami zaprezentowanymi na stronie poradni językowej PWN.
We własnej statystyce zostały dodatkowo ujęte: przecinek, kropka, pytajnik i wykrzyknik. Na stronie poradni mamy ograniczoną informację odnośnie znaków interpunkcyjnych: „Warto przy okazji zauważyć, że niektóre znaki interpunkcyjne występują w tekstach polskich częściej niż wiele liter. Na przykład najczęstszy polski znak przestankowy, przecinek, występuje częściej niż litera b.”
| klawa.pl | P.J. PWN | ||
|---|---|---|---|
| a + ą | 9,56% | a + ą | 9,90% |
| e + ę | 8,95% | e + ę | 8,77% |
| o + ó | 8,32% | o + ó | 8,60% |
| i | 8,20% | i | 8,21% |
| z + ż | 6,25% | z + ż | 6,47% |
| n + ń | 5,73% | n + ń | 5,72% |
| s + ś | 4,79% | s + ś | 4,98% |
| w | 4,51% | r | 4,69% |
| r | 4,43% | w | 4,65% |
| c + ć | 4,38% | c + ć | 4,36% |
| t | 3,96% | t | 3,98% |
| y | 3,96% | l + ł | 3,92% |
| l + ł | 3,64% | y | 3,76% |
| k | 3,36% | k | 3,51% |
| d | 3,06% | d | 3,25% |
| p | 3,03% | p | 3,13% |
| m | 2,72% | m | 2,8% |
| j | 2,48% | u | 2,5% |
| u | 2,19% | j | 2,28% |
| , (przecinek) | 1,49% | , (przecinek) | ? |
| b | 1,44% | b | 1,47% |
| g | 1,26% | g | 1,42% |
| h | 0,98% | h | 1,08% |
| . (kropka) | 0,84% | f | 0,3% |
| f | 0,31% | q | 0,14% |
| ? (pytajnik) | 0,06% | x + ź | 0,08% |
| x + ź | 0,05% | v | 0,04% |
| ! (wykrzyknik) | 0,02% | ||
| v | 0,02% | ||
| q | 0,00% | ||
Częstość występowania bigramów w języku polskim
Dane odnośnie bigramów, czyli par znaków występujących po sobie, zostały opracowane na zbiorze tekstów, którego spójność statystyczną z korpusem IPI PAN można ocenić na podstawie frekwencji poszczególnych liter powyżej.
Ze względu na to, że litery diakrytyczne i ich wersje bez znaków diakrytycznych są wpisywane za pomocą tych samych klawiszy, ich wyniki zostały zsumowane. Oznacza to, że np. wyniki zaprezentowane w tabeli dla bigramu ie zawierają zsumowane wyniki par ie oraz ię, wyniki w tabeli dla ac zawierają zsumowane wyniki ac, ać, ąc, ąć itd.
W tabeli zaprezentowano 30 najczęściej występujących bigramów.
| Frekwencja bigramów w języku polskim | ||
|---|---|---|
| 1. | ie | 3,926% |
| 2. | ni | 2,536% |
| 3. | ze | 1,784% |
| 4. | ow | 1,691% |
| 5. | na | 1,544% |
| 6. | po | 1,427% |
| 7. | cz | 1,306% |
| 8. | st | 1,221% |
| 9. | za | 1,204% |
| 10. | zy | 1,203% |
| 11. | al | 1,180% |
| 12. | ro | 1,179% |
| 13. | rz | 1,153% |
| 14. | an | 1,133% |
| 15. | ac | 1,133% |
| 16. | wi | 1,124% |
| 17. | ch | 1,110% |
| 18. | ra | 1,096% |
| 19. | pr | 1,081% |
| 20. | wa | 0,983% |
| 21. | ia | 0,971% |
| 22. | to | 0,954% |
| 23. | ta | 0,892% |
| 24. | ki | 0,885% |
| 25. | la | 0,885% |
| 26. | ko | 0,865% |
| 27. | os | 0,836% |
| 28. | sz | 0,831% |
| 29. | dz | 0,818% |
| 30. | ja | 0,811% |
| *50.* | eg | 0,649% |
| *100.* | om | 0,298% |
| *200.* | sn | 0,103% |
| *300.* | jd | 0,027% |
Częstość występowania trigramów w języku polskim
W ramach ciekawostki 10 najczęściej występujących „trójek”:
| Trigramy w j. polskim | |
|---|---|
| nie | 1,78% |
| rze | 0,76% |
| prz | 0,71% |
| dzi | 0,69% |
| ego | 0,67% |
| wie | 0,64% |
| owa | 0,55% |
| sie | 0,54% |
| ych | 0,52% |
| ani | 0,51% |

Dodaj komentarz