0 added
0 removed
Original
2026-01-01
Modified
2026-03-10
1
<ul><li><a>Кодирование - определение</a></li>
1
<ul><li><a>Кодирование - определение</a></li>
2
<li><a>ASCII - с чего все начиналось</a></li>
2
<li><a>ASCII - с чего все начиналось</a></li>
3
<li><a>Стандарт ISO</a></li>
3
<li><a>Стандарт ISO</a></li>
4
<li><a>CP866</a></li>
4
<li><a>CP866</a></li>
5
<li><a>Windows 1251</a></li>
5
<li><a>Windows 1251</a></li>
6
<li><a>KOI-8</a></li>
6
<li><a>KOI-8</a></li>
7
<li><a>Unicode</a><ul><li><a>UTF-32</a></li>
7
<li><a>Unicode</a><ul><li><a>UTF-32</a></li>
8
<li><a>UTF-16</a></li>
8
<li><a>UTF-16</a></li>
9
<li><a>UTF-8</a></li>
9
<li><a>UTF-8</a></li>
10
</ul></li>
10
</ul></li>
11
<li><a>Непонятный текст вместо русских букв - исправление</a></li>
11
<li><a>Непонятный текст вместо русских букв - исправление</a></li>
12
</ul><p>Информация бывает разного вида: графическая, текстовая, знаковая. Для ее корректного отображения в компьютерах и другом оборудовании используются<a>кодировки</a>. Особую значимость они представляют для символьных и текстовых данных.</p>
12
</ul><p>Информация бывает разного вида: графическая, текстовая, знаковая. Для ее корректного отображения в компьютерах и другом оборудовании используются<a>кодировки</a>. Особую значимость они представляют для символьных и текстовых данных.</p>
13
<p>Сегодня предстоит выяснить,<a>какие существуют кодировки</a>символов, чем они отличаются, как и для чего используются. Эта информация будет полезна не только новым пользователям ПК, но и более опытным.</p>
13
<p>Сегодня предстоит выяснить,<a>какие существуют кодировки</a>символов, чем они отличаются, как и для чего используются. Эта информация будет полезна не только новым пользователям ПК, но и более опытным.</p>
14
<h2>Кодирование - определение</h2>
14
<h2>Кодирование - определение</h2>
15
<p>Кодирование информации - это своеобразное преобразование информации из одной формы в другую. Такую, чтобы данные было удобно обрабатывать, хранить, а также передавать посредством некоторого кода.</p>
15
<p>Кодирование информации - это своеобразное преобразование информации из одной формы в другую. Такую, чтобы данные было удобно обрабатывать, хранить, а также передавать посредством некоторого кода.</p>
16
<p>Кодировка символов - процесс присвоения номеров графическим символам, в особенности элементам человеческого языка. Числовые значения, которые формируют кодировку, называются "кодовыми точками". В совокупности они представляют собой кодовое пространство или карту символов.</p>
16
<p>Кодировка символов - процесс присвоения номеров графическим символам, в особенности элементам человеческого языка. Числовые значения, которые формируют кодировку, называются "кодовыми точками". В совокупности они представляют собой кодовое пространство или карту символов.</p>
17
<p>Для кодирования букв и алфавитов используются самые разные стандарты. Они могут отличаться в зависимости от языка или<a>операционной</a>системы. Наиболее популярные из них:</p>
17
<p>Для кодирования букв и алфавитов используются самые разные стандарты. Они могут отличаться в зависимости от языка или<a>операционной</a>системы. Наиболее популярные из них:</p>
18
<ul><li>ASCII ("Аски");</li>
18
<ul><li>ASCII ("Аски");</li>
19
<li>ISO;</li>
19
<li>ISO;</li>
20
<li>KOI-8;</li>
20
<li>KOI-8;</li>
21
<li>CP866/CP1251;</li>
21
<li>CP866/CP1251;</li>
22
<li>Unicode.</li>
22
<li>Unicode.</li>
23
</ul><p>Далее все эти кодировки будут изучены более подробно. Наиболее распространенными из них выступают первый и последний пункты.</p>
23
</ul><p>Далее все эти кодировки будут изучены более подробно. Наиболее распространенными из них выступают первый и последний пункты.</p>
24
<p>Первая группа кодировки - ASCII. Стандарт, который поддерживает английский алфавит (латиницу). Он включает в себя 128 уникальных символов, которые разделяются на:</p>
24
<p>Первая группа кодировки - ASCII. Стандарт, который поддерживает английский алфавит (латиницу). Он включает в себя 128 уникальных символов, которые разделяются на:</p>
25
<ul><li>управляющие компоненты;</li>
25
<ul><li>управляющие компоненты;</li>
26
<li>печатные.</li>
26
<li>печатные.</li>
27
</ul><p>Соответствующий стандарт включает в себя:</p>
27
</ul><p>Соответствующий стандарт включает в себя:</p>
28
<ul><li>латинские буквы;</li>
28
<ul><li>латинские буквы;</li>
29
<li>арабские цифры;</li>
29
<li>арабские цифры;</li>
30
<li>знаки препинания;</li>
30
<li>знаки препинания;</li>
31
<li>служебные символы.</li>
31
<li>служебные символы.</li>
32
</ul><p>Первая ASCII с 7 битами была расширена до 8 битов (расширенная ASCII). В этом случае диапазон символов соответствует кодам от 0 до 255. Младшие биты (от 0 до 127) - это "классический" ASCII, старший отвечает за дополнительные 128 символов.</p>
32
</ul><p>Первая ASCII с 7 битами была расширена до 8 битов (расширенная ASCII). В этом случае диапазон символов соответствует кодам от 0 до 255. Младшие биты (от 0 до 127) - это "классический" ASCII, старший отвечает за дополнительные 128 символов.</p>
33
<h2>Стандарт ISO</h2>
33
<h2>Стандарт ISO</h2>
34
<p>ISO - это кодировка, которая представлена совокупностью 8-ми битных кодировок. В ней младшая половина - это ASCII, а старшая отвечает за символьное определение различных языков. Примеры ISO:</p>
34
<p>ISO - это кодировка, которая представлена совокупностью 8-ми битных кодировок. В ней младшая половина - это ASCII, а старшая отвечает за символьное определение различных языков. Примеры ISO:</p>
35
<ul><li>8859-0 - новые европейский стандарт;</li>
35
<ul><li>8859-0 - новые европейский стандарт;</li>
36
<li>8859-1 - Европа и Латинская Америка;</li>
36
<li>8859-1 - Европа и Латинская Америка;</li>
37
<li>8859-5 - таблица кириллических символов;</li>
37
<li>8859-5 - таблица кириллических символов;</li>
38
<li>8859-2 - Восточная Европа.</li>
38
<li>8859-2 - Восточная Европа.</li>
39
</ul><p>ISO 8859-5 - это одна из первых попыток введения кодировки для кириллицы. Данный стандарт до сих пор используется крупными компаниями, которые пишут программное обеспечение с поддержкой обработки кириллических символов. Их примеры: базы данных, решения OpenVMS.</p>
39
</ul><p>ISO 8859-5 - это одна из первых попыток введения кодировки для кириллицы. Данный стандарт до сих пор используется крупными компаниями, которые пишут программное обеспечение с поддержкой обработки кириллических символов. Их примеры: базы данных, решения OpenVMS.</p>
40
<h2>CP866</h2>
40
<h2>CP866</h2>
41
<p>Это - альтернативная кодировка от IBM. Здесь все специфические европейские элементы в верхней части таблицы были заменены на кириллицу. Псевдографические компоненты остались прежними. На общем виде программ такой подход никак не отражался.</p>
41
<p>Это - альтернативная кодировка от IBM. Здесь все специфические европейские элементы в верхней части таблицы были заменены на кириллицу. Псевдографические компоненты остались прежними. На общем виде программ такой подход никак не отражался.</p>
42
<p>CP866 до сих пор активно используется на практике. Он встречается в OS/2, а также в MS-DOS. На нем "шифруются" имена в файловых системах vfat и fat.</p>
42
<p>CP866 до сих пор активно используется на практике. Он встречается в OS/2, а также в MS-DOS. На нем "шифруются" имена в файловых системах vfat и fat.</p>
43
<p>CP866 была создана в ВЦ АН СССР, для которого впервые были закуплены партии устройств IBM PC. Одним из авторов кодировки выступил некий Брябрин В.М., который написал собственную книгу "Программное обеспечение персональных ЭВМ".</p>
43
<p>CP866 была создана в ВЦ АН СССР, для которого впервые были закуплены партии устройств IBM PC. Одним из авторов кодировки выступил некий Брябрин В.М., который написал собственную книгу "Программное обеспечение персональных ЭВМ".</p>
44
<h2>Windows 1251</h2>
44
<h2>Windows 1251</h2>
45
<p>Windows 1251 - это "продукт", созданный компанией Microsoft. Его появление обусловлено популярностью развития графических операционных систем. Псевдографика для них стала ненужным элементом. Все это привело к появлению полноценной группы, которая по-прежнему считалась расширенной интерпретацией ASCII (где один символ теста будет закодирован всего одним байтом данных), но уже без символьной псевдографики.</p>
45
<p>Windows 1251 - это "продукт", созданный компанией Microsoft. Его появление обусловлено популярностью развития графических операционных систем. Псевдографика для них стала ненужным элементом. Все это привело к появлению полноценной группы, которая по-прежнему считалась расширенной интерпретацией ASCII (где один символ теста будет закодирован всего одним байтом данных), но уже без символьной псевдографики.</p>
46
<p>Соответствующая группа относилась к так называемым ANSI-кодировкам. Они разрабатывались американским институтом стандартизации. Говоря простым языком, это кириллица для варианта с поддержкой русского алфавита. Наглядный пример - Windows 1251.</p>
46
<p>Соответствующая группа относилась к так называемым ANSI-кодировкам. Они разрабатывались американским институтом стандартизации. Говоря простым языком, это кириллица для варианта с поддержкой русского алфавита. Наглядный пример - Windows 1251.</p>
47
<p>В нем нет псевдографики. Их место было отведено под недостающие:</p>
47
<p>В нем нет псевдографики. Их место было отведено под недостающие:</p>
48
<ul><li>знаки русской типографии (за исключением ударения);</li>
48
<ul><li>знаки русской типографии (за исключением ударения);</li>
49
<li>славянские языки (украинский, белорусский и так далее).</li>
49
<li>славянские языки (украинский, белорусский и так далее).</li>
50
</ul><p>В Windows 1251 нет совместимости с CP866. Если попытаться отобразить их между собой, на экране появится неточный текст сообщения, а бессмысленный знаковый набор (простыми словами - "кракозябры").</p>
50
</ul><p>В Windows 1251 нет совместимости с CP866. Если попытаться отобразить их между собой, на экране появится неточный текст сообщения, а бессмысленный знаковый набор (простыми словами - "кракозябры").</p>
51
<p>Windows 1251 используется в семействе Windows. В основном встречается в операционных системах начала 90-х годов. Кириллица здесь отображается в алфавитном порядке.</p>
51
<p>Windows 1251 используется в семействе Windows. В основном встречается в операционных системах начала 90-х годов. Кириллица здесь отображается в алфавитном порядке.</p>
52
<h2>KOI-8</h2>
52
<h2>KOI-8</h2>
53
<p>Это достаточно старый стандарт. Он появился раньше CP866 и CP1251. Его разработчики разместили русскую кириллицу в верхней расширенной части ASCII так, чтобы позиции соответствовали их фонетическим аналогам в английском алфавите в нижней части таблицы. Это значит, что, если в тексте, написанном на KIO-8, убрать восьмой бит каждого элемента, на выходе получится читабельная информация, хоть и на английском.</p>
53
<p>Это достаточно старый стандарт. Он появился раньше CP866 и CP1251. Его разработчики разместили русскую кириллицу в верхней расширенной части ASCII так, чтобы позиции соответствовали их фонетическим аналогам в английском алфавите в нижней части таблицы. Это значит, что, если в тексте, написанном на KIO-8, убрать восьмой бит каждого элемента, на выходе получится читабельная информация, хоть и на английском.</p>
54
<p>KOI-8 имеет несколько "диалектов". Он поддерживает:</p>
54
<p>KOI-8 имеет несколько "диалектов". Он поддерживает:</p>
55
<ul><li>KOI8-R - для русского алфавита;</li>
55
<ul><li>KOI8-R - для русского алфавита;</li>
56
<li>KOI8-U - украинский.</li>
56
<li>KOI8-U - украинский.</li>
57
</ul><p>В первом варианте также поддерживается Болгарская кириллица. С ее помощью были сформированы первые кириллизации для компьютеров. Сейчас в Болгарии активно используется Windows 1251.</p>
57
</ul><p>В первом варианте также поддерживается Болгарская кириллица. С ее помощью были сформированы первые кириллизации для компьютеров. Сейчас в Болгарии активно используется Windows 1251.</p>
58
<p>КОИ8-R пользуется популярностью в интернете. Это фактический стандарт для русской кириллицы в Internet.</p>
58
<p>КОИ8-R пользуется популярностью в интернете. Это фактический стандарт для русской кириллицы в Internet.</p>
59
<h2>Unicode</h2>
59
<h2>Unicode</h2>
60
<p>Таблицы Unicode - консорциум, который выступает в качестве универсальной кодировки. Он появился из-за того, что языковые группы юго-восточной Азии невозможно уместить в одном байте информации, выделяемом для "шифрования" одного элемента в "Аски". Он имеет несколько вариантов представления:</p>
60
<p>Таблицы Unicode - консорциум, который выступает в качестве универсальной кодировки. Он появился из-за того, что языковые группы юго-восточной Азии невозможно уместить в одном байте информации, выделяемом для "шифрования" одного элемента в "Аски". Он имеет несколько вариантов представления:</p>
61
<ul><li>UTF-32;</li>
61
<ul><li>UTF-32;</li>
62
<li>UTF-16;</li>
62
<li>UTF-16;</li>
63
<li>UTF-8.</li>
63
<li>UTF-8.</li>
64
</ul><p>Это - частичная реализация ISO. Сейчас в Юникоде распределены около 40 000 позиций из возможных 65 535 (это 2 байта на каждую букву). В 1998 году произошло последнее значительное изменение Unicode. Тогда была внедрена интерпретация знака "евро".</p>
64
</ul><p>Это - частичная реализация ISO. Сейчас в Юникоде распределены около 40 000 позиций из возможных 65 535 (это 2 байта на каждую букву). В 1998 году произошло последнее значительное изменение Unicode. Тогда была внедрена интерпретация знака "евро".</p>
65
<p>Отличительной чертой Юникода является то, что в нем позиции зарезервированы почти для всех существующих алфавитов, включая иероглифы, которыми пользовались в Древнем Египте. При помощи соответствующего вида "шифрования" допускается одновременная работа с русским и греческим, сочетая вставки на японском/китайском/азербайджанском, путем использования одного шрифта.</p>
65
<p>Отличительной чертой Юникода является то, что в нем позиции зарезервированы почти для всех существующих алфавитов, включая иероглифы, которыми пользовались в Древнем Египте. При помощи соответствующего вида "шифрования" допускается одновременная работа с русским и греческим, сочетая вставки на японском/китайском/азербайджанском, путем использования одного шрифта.</p>
66
<h3>UTF-32</h3>
66
<h3>UTF-32</h3>
67
<p>Первый вариант Unicode. Цифра в названии указывает на количество бит, используемое для кодирования одного элемента текста. 32 бита - это 4 байта данных. Столько потребуется при печати одного текстового компонента в UTF-32.</p>
67
<p>Первый вариант Unicode. Цифра в названии указывает на количество бит, используемое для кодирования одного элемента текста. 32 бита - это 4 байта данных. Столько потребуется при печати одного текстового компонента в UTF-32.</p>
68
<p>Это привело к тому, что исходный документ, переведенный из ASCII в Юникод стал весить в 4 раза больше. Такие изменения оказались неоправданными - большинству европейским стран огромное количество знаков не требовалось. Это привело к совершенствованию стандарта.</p>
68
<p>Это привело к тому, что исходный документ, переведенный из ASCII в Юникод стал весить в 4 раза больше. Такие изменения оказались неоправданными - большинству европейским стран огромное количество знаков не требовалось. Это привело к совершенствованию стандарта.</p>
69
<h3>UTF-16</h3>
69
<h3>UTF-16</h3>
70
<p>UTF-16 - более удобный вариант Unicode. По умолчанию именно такой вариант используется для всех элементов, используемых на компьютерах. Два байта требуются для "шифрования" одного символьного компонента.</p>
70
<p>UTF-16 - более удобный вариант Unicode. По умолчанию именно такой вариант используется для всех элементов, используемых на компьютерах. Два байта требуются для "шифрования" одного символьного компонента.</p>
71
<p>При помощи 16 бит закодировать можно 65 536 элементов. Это - базовое пространство Unicode. Несмотря на свои преимущества, UTF-16 не принесло удовлетворения разработчикам. Особенно тем, кто писал исключительно на английском. Связано это с тем, что исходный документ у них увеличивался в 2 раза.</p>
71
<p>При помощи 16 бит закодировать можно 65 536 элементов. Это - базовое пространство Unicode. Несмотря на свои преимущества, UTF-16 не принесло удовлетворения разработчикам. Особенно тем, кто писал исключительно на английском. Связано это с тем, что исходный документ у них увеличивался в 2 раза.</p>
72
<p>Чтобы посмотреть таблицы Unicode UTF-16 в Виндовс потребуется:</p>
72
<p>Чтобы посмотреть таблицы Unicode UTF-16 в Виндовс потребуется:</p>
73
<ol><li>Перейти в меню "Пуск".</li>
73
<ol><li>Перейти в меню "Пуск".</li>
74
<li>Зайти в "Программы"-"Стандартные"-"Служебные".</li>
74
<li>Зайти в "Программы"-"Стандартные"-"Служебные".</li>
75
<li>Выбрать в появившемся меню "Таблица…".</li>
75
<li>Выбрать в появившемся меню "Таблица…".</li>
76
<li>В дополнительных параметрах установить Unicode.</li>
76
<li>В дополнительных параметрах установить Unicode.</li>
77
</ol><p>Выше - пример того, как будет выглядеть символьное отображение элемента текста и его код. Эта информация отображена в правом нижнем углу (U+007E).</p>
77
</ol><p>Выше - пример того, как будет выглядеть символьное отображение элемента текста и его код. Эта информация отображена в правом нижнем углу (U+007E).</p>
78
<h3>UTF-8</h3>
78
<h3>UTF-8</h3>
79
<p>Так называется Юникод с переменной длинной. Несмотря на восьмерку в своем названии, она все равно имеет неоднозначную длину. Каждый текстовый компонент может быть закодирован здесь в последовательность от 1 до 6<a>байт</a>.</p>
79
<p>Так называется Юникод с переменной длинной. Несмотря на восьмерку в своем названии, она все равно имеет неоднозначную длину. Каждый текстовый компонент может быть закодирован здесь в последовательность от 1 до 6<a>байт</a>.</p>
80
<p>Практическое применение нашли первые 4 байта. Все, что расположено за их пределами, трудно представить. Латинские знаки в ней преобразовываются при помощи 1 байта.</p>
80
<p>Практическое применение нашли первые 4 байта. Все, что расположено за их пределами, трудно представить. Латинские знаки в ней преобразовываются при помощи 1 байта.</p>
81
<p>Программы и приложения, которые не понимают Unicode, поддерживают отображение того, что закодировано через UTF-8. Связано это с тем, что соответствующий стандарт поддерживает базовую часть "Аски".</p>
81
<p>Программы и приложения, которые не понимают Unicode, поддерживают отображение того, что закодировано через UTF-8. Связано это с тем, что соответствующий стандарт поддерживает базовую часть "Аски".</p>
82
<p>Кириллические компоненты в UTF-8 кодируются в 2 байта, грузинские и некоторые другие - в три. </p>
82
<p>Кириллические компоненты в UTF-8 кодируются в 2 байта, грузинские и некоторые другие - в три. </p>
83
<h2>Непонятный текст вместо русских букв - исправление</h2>
83
<h2>Непонятный текст вместо русских букв - исправление</h2>
84
<p>Самая распространенная ситуация при работе с текстовыми данными - это появление "кракозябр" вместо русского языка. Связано это с неправильным кодированием информации.</p>
84
<p>Самая распространенная ситуация при работе с текстовыми данными - это появление "кракозябр" вместо русского языка. Связано это с неправильным кодированием информации.</p>
85
<p>Чтобы редактировать текстовые документы, рекомендуется использовать Notepad++. Он позволяет программировать на различных языках разработки, а также поддерживает расширяемость через плагины.</p>
85
<p>Чтобы редактировать текстовые документы, рекомендуется использовать Notepad++. Он позволяет программировать на различных языках разработки, а также поддерживает расширяемость через плагины.</p>
86
<p>В Notepad++ имеется пункт "Кодирование". Там можно выбрать способ "шифрования" по умолчанию, а также воспользоваться преобразованием. Рекомендуется останавливаться на таблице UTF-8 без BOM. В этом случае в начало документа не вставляются три дополнительных байта.</p>
86
<p>В Notepad++ имеется пункт "Кодирование". Там можно выбрать способ "шифрования" по умолчанию, а также воспользоваться преобразованием. Рекомендуется останавливаться на таблице UTF-8 без BOM. В этом случае в начало документа не вставляются три дополнительных байта.</p>
87
<p><em>Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в <a>Otus</a>!</em> </p>
87
<p><em>Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в <a>Otus</a>!</em> </p>
88
88