Статистика за използването на букви в руския език. Руска азбука. честота на буквите в руския език (според Nkrya). честота на руската азбука - колко често дадена буква се появява в масив от произволен руски текст. Честотни характеристики на текстовите съобщения

В тази статия ще започнем обсъждане на една изключително интересна тема - използването на статистика за анализ на текстова информация. Имайте предвид, че използването на статистика за анализ на текст е традиционна задача.

Първо ще представим някои интересни факти относно честотата на срещане на буквите и техните комбинации на различни езици (за повече подробности вижте книгата). В следващите статии ще покажем как да прилагаме по-сложни методи за анализ и графично представяне.

Честотни характеристики на текстовите съобщения

И така, текстът се състои от думи, думи от букви. Броят на различните букви на всеки език е ограничен и буквите могат просто да бъдат изброени. Важни характеристики на текста са повторението на букви, двойки букви (диграми) и като цяло м-ДОБРЕ ( м-грам), съвместимост на буквите една с друга, редуване на гласни и съгласни и някои други. Забележително е, че тези характеристики са доста стабилни. Оставяме въпроса „защо“ зад кулисите.

Използване на системата STATISTICAМожете да проверите тези модели, например, в интернет текстове.

Идеята е да се преброи броят на срещанията на всеки n mвъзможен м-gram в достатъчно дълги открити текстове T=t 1 t 2 …t l, съставен от букви от азбуката ( a 1 , a 2 , ..., a n). При това последователно м-грамове текст:

t 1 t 2 ...t m , t 2 t 3 ... t m+1 , ..., t i-m+1 t l-m+2 ...t l.

Ако – брой срещания м-грамове a i1 a i2 ...a imв текста T, А Л– общ брой преброени м-грам, тогава опитът показва, че за достатъчно големи Лчестоти

за това м-грамите се различават малко един от друг.

Поради това относителната честота (1) се счита за приближение на вероятността П (a i1 a i2 ...a im) външен вид на това м-грамове на произволно избрано място в текста (този подход е възприет при статистическото определяне на вероятността).

По-долу са дадени таблици с честоти на буквите (в проценти) за редица европейски езици. Данните са взети от книгата.

Буква от азбуката Френски Немски английски език испански италиански език
А 7.68 5.52 7.96 12.90 11.12
б 0.80 1.56 1.60 1.03 1.07
° С 3.32 2.94 2.84 4.42 4.11
д 3.60 4.91 4.01 4.67 3.54
д 17.76 19.18 12.86 14.15 11.63
Е 1.06 1.96 2.62 0.70 1.15
Ж 1.10 3.60 1.99 1.00 1.73
з 0.64 5.02 5.39 0.91 0.83
аз 7.23 8.21 7.77 7.01 12.04
Дж 0.19 0.16 0.16 0.24 -
К - 1.33 0.41 - -
Л 5.89 3.48 3.51 5.52 5.95
М 2.72 1.69 2.43 2.55 2.65
н 7.61 10.20 7.51 6.20 7.68
О 5.34 2.14 6.62 8.84 8.92
П 3.24 0.54 1.81 3.26 2.66
Q 1.34 0.01 0.17 1.55 0.48
Р 6.81 7.01 6.83 6.95 6.56
С 8.23 7.07 6.62 7.64 4.81
T 7.30 5.86 9.72 4.36 7.07
U 6.05 4.22 2.48 4.00 3.09
V 1.27 0.84 1.15 0.67 1.67
У - 1.38 1.80 - -
х 0.54 - 0.17 0.07 -
Y 0.21 - 1.52 1.05 -
З 0.07 1.17 0.05 0.31 1.24

Известна разлика в стойностите на честотата в таблиците, дадени в различни източници, се обяснява с факта, че честотите значително зависят не само от дължината на текста, но и от неговия характер. Например в техническите текстове рядката буква Еможе да стане доста често срещано поради честото използване на думи като функция, диференциал, дифузия, коефициент и др.

Още по-големи отклонения от нормата в честотата на използване на отделните букви се наблюдават в някои произведения на изкуството, особено в поезията. Следователно, за да се определи надеждно средната честота на буквите, е желателно да има набор от различни текстове, заимствани от различни източници. По правило обаче такива отклонения са незначителни и при първо приближение могат да бъдат пренебрегнати.

Визуално представяне на честотите на буквите е дадено от диаграмата на срещане. И така, за английския език, в съответствие с таблицата, такава диаграма е показана на фиг. 1. За изграждането му използвахме системата STATISTICA.

За руски език, честотите (в низходящ ред) на знаците от азбуката, в която са идентифицирани д° С Йо, bс Комерсант, и има също знак за интервал (-) между думите, са дадени в следващата таблица (вижте).

-
0.175
ОТНОСНО
0.090
НЕЯ
0.072
А
0.062
И
0.062
T
0.053
н
0.053
СЪС
0.045
Р
0.040
IN
0.038
Л
0.035
ДА СЕ
0.028
М
0.026
д
0.025
П
0.023
U
0.021
аз
0.018
Y
0.016
З
0.016
б, б
0.014
б
0.014
Ж
0.013
з
0.012
Y
0.010
х
0.009
И
0.007
Ю
0.006
Ш
0.006
° С
0.004
SCH
0.003
д
0.003
Е
0.002

Въз основа на таблицата получаваме следната честотна диаграма (фиг. 2).

Има мнемонично правило за запаметяване на десетте най-често срещани букви от руската азбука. Тези букви образуват нелепата дума HAY. Можете също така да предложите подобен начин за запаметяване на общи букви в английския език, например, като използвате думата TETRIS-HONDA (вижте таблицата).

Честотните характеристики на биграми, триграми и четириграми на смислени текстове също са стабилни.

Представяме таблици с честоти на биграма за руски и английски език (таблиците са заимствани от книгата). За удобство те са разделени на четири части по следната схема:

Част 1 Част 2
Част 3 Част4

Част 1

А б IN Ж д д И З И Y ДА СЕ Л М н ОТНОСНО П
А 2 12 35 8 14 7 6 15 7 7 19 27 19 45 5 11
б 5 9 1 6 6 2 21
IN 35 1 5 3 3 32 2 17 7 10 3 9 58 6
Ж 7 3 3 5 1 5 1 50
д 25 3 1 1 29 1 1 13 1 5 1 13 22 3
д 2 9 18 11 27 7 5 10 6 15 13 35 24 63 7 16
И 5 1 6 12 5 6
З 35 1 7 1 5 3 4 2 1 2 9 9 1
И 4 6 22 5 10 21 2 23 19 11 19 21 20 32 8 13
Y 1 1 4 1 3 1 2 4 5 1 2 7 9 7
ДА СЕ 24 1 4 1 4 1 1 26 1 4 1 2 66 2
Л 25 1 1 1 1 33 2 1 36 1 2 1 8 30 2
М 18 2 4 1 1 21 1 2 23 3 1 3 7 19 5
н 54 1 2 3 3 34 58 3 1 24 67 2
ОТНОСНО 1 28 84 32 47 15 7 18 12 29 19 41 38 30 9 18
П 7 15 4 9 1 46

Част 2

Р СЪС T U Е х ° С з Ш SCH Y b д Ю аз
А 26 31 27 3 1 10 6 7 10 1 2 6 9
б 8 1 6 1 11 2
IN 6 19 6 7 1 1 2 4 1 18 1 2 3
Ж 7 2
д 6 8 1 10 1 1 1 5 1 1
д 39 37 33 3 1 8 3 7 3 3 1 1 2
И 1
З 3 1 2 4 4
И 11 29 29 3 1 17 3 11 1 1 1 3 17
Y 3 10 2 1 3 2
ДА СЕ 10 3 7 10 1
Л 3 1 6 4 1 3 20 4 9
М 2 5 3 9 1 2 5 1 1 3
н 1 9 9 7 1 5 2 36 3 5
ОТНОСНО 43 50 39 3 2 5 2 12 4 3 2 3 2
П 41 1 6 2 2

Част 3

А б IN Ж д д И З И Y ДА СЕ Л М н ОТНОСНО П
Р 55 1 4 4 3 37 3 1 24 3 1 3 7 56 2
СЪС 8 1 7 1 2 25 6 40 13 3 9 27 11
T 35 1 27 1 3 31 1 28 5 1 1 11 56 4
U 1 4 4 4 11 2 6 3 2 8 5 5 5 1 5
Е 2 2 2 1
х 4 1 4 1 3 1 2 3 4 3 3 4 18 5
° С 3 7 10 2 1
з 12 23 13 2 6
Ш 5 11 14 1 2 2 2
SCH 3 8 6 1
Y 1 9 1 3 12 2 4 7 3 6 6 3 2 10
b 2 4 1 1 2 2 2 6 3 13 2 4
д 1 1
Ю 2 1 2 1 3 1 1 1 1 1 3
аз 1 3 9 1 3 3 1 5 3 2 3 3 4 6 3 6

част 4

Р СЪС T U Е х ° С з Ш SCH Y b д Ю аз
Р 1 5 9 16 1 1 1 2 8 3 5
СЪС 4 11 82 6 1 1 2 2 1 8 17
T 26 18 2 10 1 11 21 4
U 7 14 7 1 8 3 2 9 1
Е 1 1
х 3 4 2 2 1 1
° С 1 1
з 7 1 1 1
Ш 1 1
SCH 1
Y 3 9 4 1 16 1 2
b 1 11 3 1 4 1 3 1
д 1 9
Ю 1 1 7 1 1 4
аз 3 6 10 2 1 4 1 1 1 1 1

Хубави маси к-gram е лесно да се получи с помощта на текстовете на електронни версии на много книги, съдържащи се на компактдискове.

За да получите по-точна информация за обикновените текстове, можете да създавате и анализирате таблици к-грам при к>2, но за образователни цели е достатъчно да се ограничим до биграми. Неравности к-грама (и дори думи) е тясно свързана с характерна особеност на отворения текст - наличието в него на голям брой повторения на отделни текстови фрагменти: корени, окончания, суфикси, думи и фрази. Така че за руския език такива познати фрагменти са най-често срещаните биграми и триграми:

ST, BUT, EN, TO, NA, OV, NI, RA, VO, KO
STO, ENO, NOV, TOV, OVO, OVA

Полезна е информацията за съвместимостта на буквите, т.е. за предпочитаните връзки на буквите една с друга, която лесно може да се получи от честотните таблици на биграмите.

Това се отнася до таблица, в която най-предпочитаните „съседи“ са разположени отляво и отдясно на всяка буква (в низходящ ред на честотата на съответните биграми). Такива таблици обикновено показват и съотношението на гласните и съгласните (в проценти) пред (или след) дадена буква.

Комбинация от руски букви:

Ж СЪС Наляво На дясно Ж СЪС
3 97 l, d, k, t, v, r, n А l, n, s, t, r, v, k, m 12 88
80 20 i, e, y, i, a, o б o, s, e, a, r, y 81 19
68 32 i, t, a, e, i, o IN o, a, i, s, s, n, l, r 60 40
78 22 r, y, a, i, e, o Ж o, a, p, l, i, v 69 31
72 28 r, i, y, a, i, e, o д e, a, i, o, n, y, p, v 68 32
19 81 m, i, l, d, t, r, n д n, t, r, s, l, v, m, i 12 88
83 17 r, e, i, a, y, o И e, i, d, a, n 71 29
89 11 о, д, а и З a, n, c, o, m, d 51 49
27 73 r, t, m, i, o, l, n И s, n, c, i, e, m, k, h 25 75
55 45 b, v, e, o, a, i, s ДА СЕ o, a, i, p, y, t, l, e 73 27
77 23 g, v, s, i, e, o, a Л i, e, o, a, b, i, yu, y 75 25
80 20 i, s, a, i, e, o М i, e, o, y, a, n, p, s 73 27
55 45 d, b, n, o н o, a, i, e, s, n, y 80 20
11 89 r, p, k, v, t, n ОТНОСНО c, s, t, r, i, d, n, m 15 85
65 35 в, с, y, a, i, e, o П o, p, e, a, y, i, l 68 32
55 45 i, k, t, a, p, o, e Р a, e, o, i, y, i, s, n 80 20
69 31 s, t, v, a, e, i, o СЪС t, k, o, i, e, b, s, n 32 68
57 43 h, y, i, a, e, o, s T o, a, e, i, b, v, r, s 63 37
15 85 p, t, k, d, n, m, r U t, p, s, d, n, y, w 16 84
70 30 n, a, e, o и Е и, e, o, a, e, o, a 81 19
90 10 y, e, o, a, s и х o, i, s, n, v, p, r 43 57
69 31 e, yu, n, a и ° С i, e, a, s 93 7
82 18 e, a, y, i, o з e, i, t, n 66 34
67 33 b, y, s, e, o, a, i, v Ш e, i, n, a, o, l 68 32
84 16 e, b, a, i, y SCH д, аз, а 97 3
0 100 m, r, t, s, b, c, n Y l, x, e, m, i, v, s, n 56 44
0 100 n, s, t, l b n, k, v, p, s, e, o и 24 76
14 86 s, s, m, l, d, t, r, n д n, t, r, s, k 0 100
58 42 b, o, a, i, l, y Ю d, t, sch, c, n, p 11 89
43 57 o, n, r, l, a, i, s аз c, s, t, p, d, k, m, l 16 84

Когато анализирате съвместимостта на буквите една с друга, трябва да имате предвид зависимостта на появата на букви в обикновен текст от значителен брой предходни букви. За да се анализират тези модели, се използва концепцията за условна вероятност.

Наблюденията на отворени текстове показват, че следните неравенства са валидни за условните вероятности: p(a i1)≠p(a i1 /a i2), p(a i1 /a i2)≠p(a i1 /a i2 a i3),....

Въпросът за зависимостта на буквите от азбуката в обикновен текст от предишните букви е систематично изследван от известния руски математик А. А. Марков (1856 – 1922). Той доказа, че появата на букви в открит текст не може да се счита за независима една от друга. В тази връзка А. А. Марков отбеляза друг стабилен модел на отворени текстове, свързан с редуването на гласни и съгласни. Той изчислява честотата на поява на биграми гласна-гласна ( Ж, Ж), гласна-съгласна ( Ж, с), съгласна-гласна ( с, Ж), съгласна-съгласна ( с, с) на руски текст с дължина 10 5 знака. Резултатите от изчислението са показани в следната таблица:

Ж СЪС Обща сума
Ж 6588 38310 44898
СЪС 38296 16806 55102

От тази таблица може да се види, че руският език се характеризира с редуване на гласни и съгласни, а относителните честоти могат да служат като приближения на съответните условни и безусловни вероятности:

стр(Ж/с)≈0.663, стр(с/Ж)≈0.872,
стр(Ж)≈0.432, стр(с)≈0.568.

След А. А. Марков, зависимостта на появата на букви в текст, след няколко предишни, е изследвана с методите на теорията на информацията от К. Шанън. Всъщност те показаха по-специално, че такава зависимост се забелязва до дълбочина от приблизително 30 знака, след което практически липсва.

Съотношение на гласните в художествен текст:

Горните модели се прилагат за обикновени „четими“ открити текстове, използвани в човешката комуникация. Както беше отбелязано по-рано, тези модели играят голяма роля в криптоанализа. По-специално, те се използват при конструирането на формализирани критерии за обикновен текст, които позволяват прилагането на методи на математическа статистика в проблема с разпознаването на обикновен текст в поток от съобщения. При използване на специални азбуки са необходими подобни изследвания на честотните характеристики на „отворените текстове“, които възникват, например, по време на обмен на информация от машина към машина или в системи за предаване на данни. В тези случаи конструирането на формализирани критерии за „чист текст“ е много по-трудна задача.

Като пример даваме честотните характеристики на буквите от английската азбука, които са част от ASCII кода.

В допълнение към криптографията, честотните характеристики на ясни съобщения се използват значително в други области. Например компютърна клавиатура, пишеща машина или Linotype е прекрасно въплъщение на идеята за ускоряване на писането, свързано с оптимизиране на подреждането на буквите от азбуката една спрямо друга в зависимост от честотата на тяхното използване.

Литература:

Алферов А.П. и др., "Криптография"

Яглом А.М., Яглом И.М., Вероятност и информация, М.: Наука, 1973 г.

Baudouin C., Elements de cryptographie / Ed. Педоне А. – Париж, 1939 г.

Friedman W. F., Callimahos D., Военен криптоанализ, част i, том 2, Aegean Park Press, Laguna Hills CA, 1920 г.

Пай „Нека ядат торта“

съставки:

2 унции смлени бадеми,

6 унции самонабухващо брашно,

2 супени лъжици бакпулвер,

4 унции лека захар мусковадо

150 мл царевично масло,

200-250 мл соево мляко,

кора от два необработени лимона,

сок от два лимона,

1 супена лъжица ароматна вода от портокалов цвят,

1 чаена лъжичка естествен екстракт от ванилия.


Загрейте фурната до 190 градуса или по-малко, ако фурната е с вентилатор.

Намаслете форма за пай. Най-добрият е дълбок 6-инчов тиган, но всеки тиган ще свърши работа.

Поставете брашното и бакпулвера в купа, след което добавете захарта. Разбъркайте смлените бадеми и лимоновата кора. Добавете маслото и млякото. Колкото по-малко течност, толкова повече ястието ще прилича на пай, а не на пудинг. Не е необходимо да измервате течности със 100% точност за тази торта.

Сега добавете лимонов сок и разбъркайте добре. Добавете цветна вода и ванилов екстракт, разбъркайте отново. Резултатът трябва да изглежда като гъсто тесто без мая.

Изсипете го във формата и го поставете във фурната за около четиридесет минути. Кората трябва да стане кафява, а плънката много мека. Извадете от тавата, охладете и украсете с пресни листа мента и ягоди.

Най-често срещаната буква в руската азбука може безопасно да се нарече "о". Не „а“, въпреки че всички деца научават първите си думи с тази буква: „мама“, „татко“ или „дай“. Не „и“, въпреки че може да изглежда, че често го използваме като свързващ съюз.

Както показват данните, честотата на буквата „о“ е над 0,1%, в сравнение с други гласни букви от азбуката, чиято честота е например 0,07-0,08%, което е доста много.

Сред съгласните буквата "n" е на първо място.

Такива данни се получават чрез анализ на честотата в NCRY - Националния корпус на руския език, като се използва специална формула. NKRY е електронен архив на писмени и устни текстове, който се състои от приблизително 230 милиона употребени думи.

Като се има предвид най-популярната буква от нашата азбука, заслужава да се спомене интересен феномен, наречен "тавтограма". Това е вид литературна загрявка, при която трябва да съставите разказ или стихотворение, започващи със същата буква. Между другото, буквата, с която започват повечето думи в руския език (не я бъркайте с честотата на употреба), е „p“, но сред гласните несъмненото лидерство принадлежи на настоящия ни фаворит.

"Сам. Много. Отломките от очарованието изчезнаха в есенното еднообразие. Олимп остава далечен изход. Много отдалечено. Останаха негодувания, необмислени определения на размразеното размразяване, породено от огъня на докосването. Останалите се оказаха негативни, отхвърлени, излъгани от обществото. Потомството на есента се препъваше и летеше с остатъците от очите на езерото. Някои прозорци останаха отворени. Гневните отпечатъци на отделни омоними са засенчени от отхвърлените одежди на персонификацията. Оранжевите нюанси на морски зърнастец са очертани от огромно отражение на самотата. Останалото е оскотяване, вцепенение на обречеността. Островите са обрасли с обети от есета за сигурността. Охлаждащите резници от елша образуваха кръгове със същото име, поради дрезгави викове. Официалното се превърна в отражение на общото, премахвайки негативните уверености. Установените образи възмутено обясниха есенните глупости, наричайки обратното измама. Младежите отчаяно очертаваха омагьосаната есен, отричайки обективна нагласа... Есента летеше наоколо като портокалови късове от морски зърнастец, оставяйки уморени спорове на самотни отговори..."

Смешно е, нали? Все пак не са глупости :)

Между другото, в английския най-често срещаната буква е "e", а съгласната е "t"

Е, и тавтограмата на английски:

Подобно на Минерва величествена Мария се движи.

Право, латински, свобода, учени Луси обича.

Всяко око забелязва елегантността на Елиза.

Спокойно мълчаливата усмивка на Сюзън изненадва.

От глупаци, глупаци, ласкателства, най-справедливата Фани лети.

Честота на използване на букви на руски език

Знаете ли, че някои букви от азбуката се срещат в думите по-често от други... Освен това честотата на използване на гласните в езика е по-висока от съгласните.

Кои букви от руската азбука най-често или най-рядко се срещат в думите, използвани за писане на текст?

Статистиката се занимава с идентифицирането и изучаването на общи модели. С помощта на тази научна посока можете да отговорите на поставения по-горе въпрос, като преброите броя на всяка буква от руската азбука, използваните думи и изберете откъс от произведенията на различни автори. За собствен интерес и за нещо, което да прави от скука, всеки може да направи това сам. Ще се позова на статистика от вече проведено проучване...

Руска азбука кирилица. По време на своето съществуване той претърпя няколко реформи, в резултат на които се формира съвременната руска азбучна система, включваща 33 букви.

о — 9,28%
а — 8,66%
д — 8,10%
и - 7,45%
n — 6,35%
t — 6,30%
p — 5,53%
s — 5,45%
л - 4,32%
в — 4,19%
k — 3,47%
n — 3,35%
m — 3,29%
y - 2,90%
г — 2,56%
аз - 2,22%
s — 2,11%
б — 1,90%
z — 1,81%
b — 1,51%
g — 1,41%
th — 1,31%
ч — 1,27%
ю — 1,03%
х — 0,92%
f — 0,78%
w — 0,77%
c — 0,52%
sch — 0,49%
f — 0,40%
e - 0,17%
ъ — 0,04%

Руската буква с най-висока честота на използване е гласната " ОТНОСНО“, както вече правилно беше предложено тук. Има и типични примери като „ ОТБРАНА"(7 парчета с една дума и нищо екзотично или изненадващо; много често за руския език). Високата популярност на буквата "О" до голяма степен се обяснява с такова граматично явление като пълна гласна. Тоест "студ" вместо "студ" и "скреж" вместо "измет".

И в самото начало на думите най-често се среща съгласната буква "". П" Това лидерство също е уверено и безусловно. Най-вероятно обяснението се предоставя от голям брой префикси, започващи с буквата „P“: pere-, pre-, pre-, pri-, pro- и други.

Честотата на използване на буквите е в основата на криптоанализа.

По принцип има такава тема - честотен анализ на текст. Твърди се, че за даден език честотата на срещане на отделни букви в смислен текст е стабилна стойност. Комбинации от две, три (диграми, триграми) и четири букви също са стабилни.
Този факт по-специално се използва в криптографията за разбиване на шифри.

Не съм много добър в криптографията и единственото нещо, което ми идва на ум, е разбиването на шифър с директно заместване. Трябва да се каже, че най-примитивният шифър е, когато знаците от оригиналната азбука, използвани в съобщението, се преобразуват в други знаци според определено правило. Такива шифри, между другото, биха могли да бъдат отворени без използването на статистически анализ (където, за да се намали грешката, очевидно е необходимо наличието на доста големи парчета текст), а просто чрез отгатване на някои думи - вижте историята „The Танцуващи мъже”.

И последното докосване (по желание). Понякога (засега почти винаги) калкулаторът трябва да бъде снабден с описание - какви са параметрите, какви формули използва и въобще защо е всичко това - точно както правя сега. За да направите това, се пише статия и калкулаторът се вмъква директно в статията. За да напишете статия, изберете елемента от менюто „Създаване...“ -> „Статия“ на главната страница на секцията „Моите калкулатори“ и започнете да пишете. За да вмъкнете калкулатор, натиснете бутона с голямата подчертана буква A и изберете новосъздадения калкулатор в диалоговия прозорец, който се отваря.