HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-03-10
1 <ul><li><a>Кодирование - определение</a></li>
1 <ul><li><a>Кодирование - определение</a></li>
2 <li><a>ASCII - с чего все начиналось</a></li>
2 <li><a>ASCII - с чего все начиналось</a></li>
3 <li><a>Стандарт ISO</a></li>
3 <li><a>Стандарт ISO</a></li>
4 <li><a>CP866</a></li>
4 <li><a>CP866</a></li>
5 <li><a>Windows 1251</a></li>
5 <li><a>Windows 1251</a></li>
6 <li><a>KOI-8</a></li>
6 <li><a>KOI-8</a></li>
7 <li><a>Unicode</a><ul><li><a>UTF-32</a></li>
7 <li><a>Unicode</a><ul><li><a>UTF-32</a></li>
8 <li><a>UTF-16</a></li>
8 <li><a>UTF-16</a></li>
9 <li><a>UTF-8</a></li>
9 <li><a>UTF-8</a></li>
10 </ul></li>
10 </ul></li>
11 <li><a>Непонятный текст вместо русских букв - исправление</a></li>
11 <li><a>Непонятный текст вместо русских букв - исправление</a></li>
12 </ul><p>Информация бывает разного вида: графическая, текстовая, знаковая. Для ее корректного отображения в компьютерах и другом оборудовании используются<a>кодировки</a>. Особую значимость они представляют для символьных и текстовых данных.</p>
12 </ul><p>Информация бывает разного вида: графическая, текстовая, знаковая. Для ее корректного отображения в компьютерах и другом оборудовании используются<a>кодировки</a>. Особую значимость они представляют для символьных и текстовых данных.</p>
13 <p>Сегодня предстоит выяснить,<a>какие существуют кодировки</a>символов, чем они отличаются, как и для чего используются. Эта информация будет полезна не только новым пользователям ПК, но и более опытным.</p>
13 <p>Сегодня предстоит выяснить,<a>какие существуют кодировки</a>символов, чем они отличаются, как и для чего используются. Эта информация будет полезна не только новым пользователям ПК, но и более опытным.</p>
14 <h2>Кодирование - определение</h2>
14 <h2>Кодирование - определение</h2>
15 <p>Кодирование информации - это своеобразное преобразование информации из одной формы в другую. Такую, чтобы данные было удобно обрабатывать, хранить, а также передавать посредством некоторого кода.</p>
15 <p>Кодирование информации - это своеобразное преобразование информации из одной формы в другую. Такую, чтобы данные было удобно обрабатывать, хранить, а также передавать посредством некоторого кода.</p>
16 <p>Кодировка символов - процесс присвоения номеров графическим символам, в особенности элементам человеческого языка. Числовые значения, которые формируют кодировку, называются "кодовыми точками". В совокупности они представляют собой кодовое пространство или карту символов.</p>
16 <p>Кодировка символов - процесс присвоения номеров графическим символам, в особенности элементам человеческого языка. Числовые значения, которые формируют кодировку, называются "кодовыми точками". В совокупности они представляют собой кодовое пространство или карту символов.</p>
17 <p>Для кодирования букв и алфавитов используются самые разные стандарты. Они могут отличаться в зависимости от языка или<a>операционной</a>системы. Наиболее популярные из них:</p>
17 <p>Для кодирования букв и алфавитов используются самые разные стандарты. Они могут отличаться в зависимости от языка или<a>операционной</a>системы. Наиболее популярные из них:</p>
18 <ul><li>ASCII ("Аски");</li>
18 <ul><li>ASCII ("Аски");</li>
19 <li>ISO;</li>
19 <li>ISO;</li>
20 <li>KOI-8;</li>
20 <li>KOI-8;</li>
21 <li>CP866/CP1251;</li>
21 <li>CP866/CP1251;</li>
22 <li>Unicode.</li>
22 <li>Unicode.</li>
23 </ul><p>Далее все эти кодировки будут изучены более подробно. Наиболее распространенными из них выступают первый и последний пункты.</p>
23 </ul><p>Далее все эти кодировки будут изучены более подробно. Наиболее распространенными из них выступают первый и последний пункты.</p>
24 <p>Первая группа кодировки - ASCII. Стандарт, который поддерживает английский алфавит (латиницу). Он включает в себя 128 уникальных символов, которые разделяются на:</p>
24 <p>Первая группа кодировки - ASCII. Стандарт, который поддерживает английский алфавит (латиницу). Он включает в себя 128 уникальных символов, которые разделяются на:</p>
25 <ul><li>управляющие компоненты;</li>
25 <ul><li>управляющие компоненты;</li>
26 <li>печатные.</li>
26 <li>печатные.</li>
27 </ul><p>Соответствующий стандарт включает в себя:</p>
27 </ul><p>Соответствующий стандарт включает в себя:</p>
28 <ul><li>латинские буквы;</li>
28 <ul><li>латинские буквы;</li>
29 <li>арабские цифры;</li>
29 <li>арабские цифры;</li>
30 <li>знаки препинания;</li>
30 <li>знаки препинания;</li>
31 <li>служебные символы.</li>
31 <li>служебные символы.</li>
32 </ul><p>Первая ASCII с 7 битами была расширена до 8 битов (расширенная ASCII). В этом случае диапазон символов соответствует кодам от 0 до 255. Младшие биты (от 0 до 127) - это "классический" ASCII, старший отвечает за дополнительные 128 символов.</p>
32 </ul><p>Первая ASCII с 7 битами была расширена до 8 битов (расширенная ASCII). В этом случае диапазон символов соответствует кодам от 0 до 255. Младшие биты (от 0 до 127) - это "классический" ASCII, старший отвечает за дополнительные 128 символов.</p>
33 <h2>Стандарт ISO</h2>
33 <h2>Стандарт ISO</h2>
34 <p>ISO - это кодировка, которая представлена совокупностью 8-ми битных кодировок. В ней младшая половина - это ASCII, а старшая отвечает за символьное определение различных языков. Примеры ISO:</p>
34 <p>ISO - это кодировка, которая представлена совокупностью 8-ми битных кодировок. В ней младшая половина - это ASCII, а старшая отвечает за символьное определение различных языков. Примеры ISO:</p>
35 <ul><li>8859-0 - новые европейский стандарт;</li>
35 <ul><li>8859-0 - новые европейский стандарт;</li>
36 <li>8859-1 - Европа и Латинская Америка;</li>
36 <li>8859-1 - Европа и Латинская Америка;</li>
37 <li>8859-5 - таблица кириллических символов;</li>
37 <li>8859-5 - таблица кириллических символов;</li>
38 <li>8859-2 - Восточная Европа.</li>
38 <li>8859-2 - Восточная Европа.</li>
39 </ul><p>ISO 8859-5 - это одна из первых попыток введения кодировки для кириллицы. Данный стандарт до сих пор используется крупными компаниями, которые пишут программное обеспечение с поддержкой обработки кириллических символов. Их примеры: базы данных, решения OpenVMS.</p>
39 </ul><p>ISO 8859-5 - это одна из первых попыток введения кодировки для кириллицы. Данный стандарт до сих пор используется крупными компаниями, которые пишут программное обеспечение с поддержкой обработки кириллических символов. Их примеры: базы данных, решения OpenVMS.</p>
40 <h2>CP866</h2>
40 <h2>CP866</h2>
41 <p>Это - альтернативная кодировка от IBM. Здесь все специфические европейские элементы в верхней части таблицы были заменены на кириллицу. Псевдографические компоненты остались прежними. На общем виде программ такой подход никак не отражался.</p>
41 <p>Это - альтернативная кодировка от IBM. Здесь все специфические европейские элементы в верхней части таблицы были заменены на кириллицу. Псевдографические компоненты остались прежними. На общем виде программ такой подход никак не отражался.</p>
42 <p>CP866 до сих пор активно используется на практике. Он встречается в OS/2, а также в MS-DOS. На нем "шифруются" имена в файловых системах vfat и fat.</p>
42 <p>CP866 до сих пор активно используется на практике. Он встречается в OS/2, а также в MS-DOS. На нем "шифруются" имена в файловых системах vfat и fat.</p>
43 <p>CP866 была создана в ВЦ АН СССР, для которого впервые были закуплены партии устройств IBM PC. Одним из авторов кодировки выступил некий Брябрин В.М., который написал собственную книгу "Программное обеспечение персональных ЭВМ".</p>
43 <p>CP866 была создана в ВЦ АН СССР, для которого впервые были закуплены партии устройств IBM PC. Одним из авторов кодировки выступил некий Брябрин В.М., который написал собственную книгу "Программное обеспечение персональных ЭВМ".</p>
44 <h2>Windows 1251</h2>
44 <h2>Windows 1251</h2>
45 <p>Windows 1251 - это "продукт", созданный компанией Microsoft. Его появление обусловлено популярностью развития графических операционных систем. Псевдографика для них стала ненужным элементом. Все это привело к появлению полноценной группы, которая по-прежнему считалась расширенной интерпретацией ASCII (где один символ теста будет закодирован всего одним байтом данных), но уже без символьной псевдографики.</p>
45 <p>Windows 1251 - это "продукт", созданный компанией Microsoft. Его появление обусловлено популярностью развития графических операционных систем. Псевдографика для них стала ненужным элементом. Все это привело к появлению полноценной группы, которая по-прежнему считалась расширенной интерпретацией ASCII (где один символ теста будет закодирован всего одним байтом данных), но уже без символьной псевдографики.</p>
46 <p>Соответствующая группа относилась к так называемым ANSI-кодировкам. Они разрабатывались американским институтом стандартизации. Говоря простым языком, это кириллица для варианта с поддержкой русского алфавита. Наглядный пример - Windows 1251.</p>
46 <p>Соответствующая группа относилась к так называемым ANSI-кодировкам. Они разрабатывались американским институтом стандартизации. Говоря простым языком, это кириллица для варианта с поддержкой русского алфавита. Наглядный пример - Windows 1251.</p>
47 <p>В нем нет псевдографики. Их место было отведено под недостающие:</p>
47 <p>В нем нет псевдографики. Их место было отведено под недостающие:</p>
48 <ul><li>знаки русской типографии (за исключением ударения);</li>
48 <ul><li>знаки русской типографии (за исключением ударения);</li>
49 <li>славянские языки (украинский, белорусский и так далее).</li>
49 <li>славянские языки (украинский, белорусский и так далее).</li>
50 </ul><p>В Windows 1251 нет совместимости с CP866. Если попытаться отобразить их между собой, на экране появится неточный текст сообщения, а бессмысленный знаковый набор (простыми словами - "кракозябры").</p>
50 </ul><p>В Windows 1251 нет совместимости с CP866. Если попытаться отобразить их между собой, на экране появится неточный текст сообщения, а бессмысленный знаковый набор (простыми словами - "кракозябры").</p>
51 <p>Windows 1251 используется в семействе Windows. В основном встречается в операционных системах начала 90-х годов. Кириллица здесь отображается в алфавитном порядке.</p>
51 <p>Windows 1251 используется в семействе Windows. В основном встречается в операционных системах начала 90-х годов. Кириллица здесь отображается в алфавитном порядке.</p>
52 <h2>KOI-8</h2>
52 <h2>KOI-8</h2>
53 <p>Это достаточно старый стандарт. Он появился раньше CP866 и CP1251. Его разработчики разместили русскую кириллицу в верхней расширенной части ASCII так, чтобы позиции соответствовали их фонетическим аналогам в английском алфавите в нижней части таблицы. Это значит, что, если в тексте, написанном на KIO-8, убрать восьмой бит каждого элемента, на выходе получится читабельная информация, хоть и на английском.</p>
53 <p>Это достаточно старый стандарт. Он появился раньше CP866 и CP1251. Его разработчики разместили русскую кириллицу в верхней расширенной части ASCII так, чтобы позиции соответствовали их фонетическим аналогам в английском алфавите в нижней части таблицы. Это значит, что, если в тексте, написанном на KIO-8, убрать восьмой бит каждого элемента, на выходе получится читабельная информация, хоть и на английском.</p>
54 <p>KOI-8 имеет несколько "диалектов". Он поддерживает:</p>
54 <p>KOI-8 имеет несколько "диалектов". Он поддерживает:</p>
55 <ul><li>KOI8-R - для русского алфавита;</li>
55 <ul><li>KOI8-R - для русского алфавита;</li>
56 <li>KOI8-U - украинский.</li>
56 <li>KOI8-U - украинский.</li>
57 </ul><p>В первом варианте также поддерживается Болгарская кириллица. С ее помощью были сформированы первые кириллизации для компьютеров. Сейчас в Болгарии активно используется Windows 1251.</p>
57 </ul><p>В первом варианте также поддерживается Болгарская кириллица. С ее помощью были сформированы первые кириллизации для компьютеров. Сейчас в Болгарии активно используется Windows 1251.</p>
58 <p>КОИ8-R пользуется популярностью в интернете. Это фактический стандарт для русской кириллицы в Internet.</p>
58 <p>КОИ8-R пользуется популярностью в интернете. Это фактический стандарт для русской кириллицы в Internet.</p>
59 <h2>Unicode</h2>
59 <h2>Unicode</h2>
60 <p>Таблицы Unicode - консорциум, который выступает в качестве универсальной кодировки. Он появился из-за того, что языковые группы юго-восточной Азии невозможно уместить в одном байте информации, выделяемом для "шифрования" одного элемента в "Аски". Он имеет несколько вариантов представления:</p>
60 <p>Таблицы Unicode - консорциум, который выступает в качестве универсальной кодировки. Он появился из-за того, что языковые группы юго-восточной Азии невозможно уместить в одном байте информации, выделяемом для "шифрования" одного элемента в "Аски". Он имеет несколько вариантов представления:</p>
61 <ul><li>UTF-32;</li>
61 <ul><li>UTF-32;</li>
62 <li>UTF-16;</li>
62 <li>UTF-16;</li>
63 <li>UTF-8.</li>
63 <li>UTF-8.</li>
64 </ul><p>Это - частичная реализация ISO. Сейчас в Юникоде распределены около 40 000 позиций из возможных 65 535 (это 2 байта на каждую букву). В 1998 году произошло последнее значительное изменение Unicode. Тогда была внедрена интерпретация знака "евро".</p>
64 </ul><p>Это - частичная реализация ISO. Сейчас в Юникоде распределены около 40 000 позиций из возможных 65 535 (это 2 байта на каждую букву). В 1998 году произошло последнее значительное изменение Unicode. Тогда была внедрена интерпретация знака "евро".</p>
65 <p>Отличительной чертой Юникода является то, что в нем позиции зарезервированы почти для всех существующих алфавитов, включая иероглифы, которыми пользовались в Древнем Египте. При помощи соответствующего вида "шифрования" допускается одновременная работа с русским и греческим, сочетая вставки на японском/китайском/азербайджанском, путем использования одного шрифта.</p>
65 <p>Отличительной чертой Юникода является то, что в нем позиции зарезервированы почти для всех существующих алфавитов, включая иероглифы, которыми пользовались в Древнем Египте. При помощи соответствующего вида "шифрования" допускается одновременная работа с русским и греческим, сочетая вставки на японском/китайском/азербайджанском, путем использования одного шрифта.</p>
66 <h3>UTF-32</h3>
66 <h3>UTF-32</h3>
67 <p>Первый вариант Unicode. Цифра в названии указывает на количество бит, используемое для кодирования одного элемента текста. 32 бита - это 4 байта данных. Столько потребуется при печати одного текстового компонента в UTF-32.</p>
67 <p>Первый вариант Unicode. Цифра в названии указывает на количество бит, используемое для кодирования одного элемента текста. 32 бита - это 4 байта данных. Столько потребуется при печати одного текстового компонента в UTF-32.</p>
68 <p>Это привело к тому, что исходный документ, переведенный из ASCII в Юникод стал весить в 4 раза больше. Такие изменения оказались неоправданными - большинству европейским стран огромное количество знаков не требовалось. Это привело к совершенствованию стандарта.</p>
68 <p>Это привело к тому, что исходный документ, переведенный из ASCII в Юникод стал весить в 4 раза больше. Такие изменения оказались неоправданными - большинству европейским стран огромное количество знаков не требовалось. Это привело к совершенствованию стандарта.</p>
69 <h3>UTF-16</h3>
69 <h3>UTF-16</h3>
70 <p>UTF-16 - более удобный вариант Unicode. По умолчанию именно такой вариант используется для всех элементов, используемых на компьютерах. Два байта требуются для "шифрования" одного символьного компонента.</p>
70 <p>UTF-16 - более удобный вариант Unicode. По умолчанию именно такой вариант используется для всех элементов, используемых на компьютерах. Два байта требуются для "шифрования" одного символьного компонента.</p>
71 <p>При помощи 16 бит закодировать можно 65 536 элементов. Это - базовое пространство Unicode. Несмотря на свои преимущества, UTF-16 не принесло удовлетворения разработчикам. Особенно тем, кто писал исключительно на английском. Связано это с тем, что исходный документ у них увеличивался в 2 раза.</p>
71 <p>При помощи 16 бит закодировать можно 65 536 элементов. Это - базовое пространство Unicode. Несмотря на свои преимущества, UTF-16 не принесло удовлетворения разработчикам. Особенно тем, кто писал исключительно на английском. Связано это с тем, что исходный документ у них увеличивался в 2 раза.</p>
72 <p>Чтобы посмотреть таблицы Unicode UTF-16 в Виндовс потребуется:</p>
72 <p>Чтобы посмотреть таблицы Unicode UTF-16 в Виндовс потребуется:</p>
73 <ol><li>Перейти в меню "Пуск".</li>
73 <ol><li>Перейти в меню "Пуск".</li>
74 <li>Зайти в "Программы"-"Стандартные"-"Служебные".</li>
74 <li>Зайти в "Программы"-"Стандартные"-"Служебные".</li>
75 <li>Выбрать в появившемся меню "Таблица…".</li>
75 <li>Выбрать в появившемся меню "Таблица…".</li>
76 <li>В дополнительных параметрах установить Unicode.</li>
76 <li>В дополнительных параметрах установить Unicode.</li>
77 </ol><p>Выше - пример того, как будет выглядеть символьное отображение элемента текста и его код. Эта информация отображена в правом нижнем углу (U+007E).</p>
77 </ol><p>Выше - пример того, как будет выглядеть символьное отображение элемента текста и его код. Эта информация отображена в правом нижнем углу (U+007E).</p>
78 <h3>UTF-8</h3>
78 <h3>UTF-8</h3>
79 <p>Так называется Юникод с переменной длинной. Несмотря на восьмерку в своем названии, она все равно имеет неоднозначную длину. Каждый текстовый компонент может быть закодирован здесь в последовательность от 1 до 6<a>байт</a>.</p>
79 <p>Так называется Юникод с переменной длинной. Несмотря на восьмерку в своем названии, она все равно имеет неоднозначную длину. Каждый текстовый компонент может быть закодирован здесь в последовательность от 1 до 6<a>байт</a>.</p>
80 <p>Практическое применение нашли первые 4 байта. Все, что расположено за их пределами, трудно представить. Латинские знаки в ней преобразовываются при помощи 1 байта.</p>
80 <p>Практическое применение нашли первые 4 байта. Все, что расположено за их пределами, трудно представить. Латинские знаки в ней преобразовываются при помощи 1 байта.</p>
81 <p>Программы и приложения, которые не понимают Unicode, поддерживают отображение того, что закодировано через UTF-8. Связано это с тем, что соответствующий стандарт поддерживает базовую часть "Аски".</p>
81 <p>Программы и приложения, которые не понимают Unicode, поддерживают отображение того, что закодировано через UTF-8. Связано это с тем, что соответствующий стандарт поддерживает базовую часть "Аски".</p>
82 <p>Кириллические компоненты в UTF-8 кодируются в 2 байта, грузинские и некоторые другие - в три. </p>
82 <p>Кириллические компоненты в UTF-8 кодируются в 2 байта, грузинские и некоторые другие - в три. </p>
83 <h2>Непонятный текст вместо русских букв - исправление</h2>
83 <h2>Непонятный текст вместо русских букв - исправление</h2>
84 <p>Самая распространенная ситуация при работе с текстовыми данными - это появление "кракозябр" вместо русского языка. Связано это с неправильным кодированием информации.</p>
84 <p>Самая распространенная ситуация при работе с текстовыми данными - это появление "кракозябр" вместо русского языка. Связано это с неправильным кодированием информации.</p>
85 <p>Чтобы редактировать текстовые документы, рекомендуется использовать Notepad++. Он позволяет программировать на различных языках разработки, а также поддерживает расширяемость через плагины.</p>
85 <p>Чтобы редактировать текстовые документы, рекомендуется использовать Notepad++. Он позволяет программировать на различных языках разработки, а также поддерживает расширяемость через плагины.</p>
86 <p>В Notepad++ имеется пункт "Кодирование". Там можно выбрать способ "шифрования" по умолчанию, а также воспользоваться преобразованием. Рекомендуется останавливаться на таблице UTF-8 без BOM. В этом случае в начало документа не вставляются три дополнительных байта.</p>
86 <p>В Notepad++ имеется пункт "Кодирование". Там можно выбрать способ "шифрования" по умолчанию, а также воспользоваться преобразованием. Рекомендуется останавливаться на таблице UTF-8 без BOM. В этом случае в начало документа не вставляются три дополнительных байта.</p>
87 <p><em>Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в <a>Otus</a>!</em> </p>
87 <p><em>Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в <a>Otus</a>!</em> </p>
88  
88