Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 <ul><li><a>Кодирование - определение</a></li>

2 <li><a>ASCII - с чего все начиналось</a></li>

3 <li><a>Стандарт ISO</a></li>

4 <li><a>CP866</a></li>

5 <li><a>Windows 1251</a></li>

6 <li><a>KOI-8</a></li>

7 <li><a>Unicode</a><ul><li><a>UTF-32</a></li>

8 <li><a>UTF-16</a></li>

9 <li><a>UTF-8</a></li>

10 </ul></li>

11 <li><a>Непонятный текст вместо русских букв - исправление</a></li>

12 </ul><p>Информация бывает разного вида: графическая, текстовая, знаковая. Для ее корректного отображения в компьютерах и другом оборудовании используются<a>кодировки</a>. Особую значимость они представляют для символьных и текстовых данных.</p>

13 <p>Сегодня предстоит выяснить,<a>какие существуют кодировки</a>символов, чем они отличаются, как и для чего используются. Эта информация будет полезна не только новым пользователям ПК, но и более опытным.</p>

14 <h2>Кодирование - определение</h2>

15 <p>Кодирование информации - это своеобразное преобразование информации из одной формы в другую. Такую, чтобы данные было удобно обрабатывать, хранить, а также передавать посредством некоторого кода.</p>

16 <p>Кодировка символов - процесс присвоения номеров графическим символам, в особенности элементам человеческого языка. Числовые значения, которые формируют кодировку, называются "кодовыми точками". В совокупности они представляют собой кодовое пространство или карту символов.</p>

17 <p>Для кодирования букв и алфавитов используются самые разные стандарты. Они могут отличаться в зависимости от языка или<a>операционной</a>системы. Наиболее популярные из них:</p>

18 <ul><li>ASCII ("Аски");</li>

19 <li>ISO;</li>

20 <li>KOI-8;</li>

21 <li>CP866/CP1251;</li>

22 <li>Unicode.</li>

23 </ul><p>Далее все эти кодировки будут изучены более подробно. Наиболее распространенными из них выступают первый и последний пункты.</p>

24 <p>Первая группа кодировки - ASCII. Стандарт, который поддерживает английский алфавит (латиницу). Он включает в себя 128 уникальных символов, которые разделяются на:</p>

25 <ul><li>управляющие компоненты;</li>

26 <li>печатные.</li>

27 </ul><p>Соответствующий стандарт включает в себя:</p>

28 <ul><li>латинские буквы;</li>

29 <li>арабские цифры;</li>

30 <li>знаки препинания;</li>

31 <li>служебные символы.</li>

32 </ul><p>Первая ASCII с 7 битами была расширена до 8 битов (расширенная ASCII). В этом случае диапазон символов соответствует кодам от 0 до 255. Младшие биты (от 0 до 127) - это "классический" ASCII, старший отвечает за дополнительные 128 символов.</p>

33 <h2>Стандарт ISO</h2>

34 <p>ISO - это кодировка, которая представлена совокупностью 8-ми битных кодировок. В ней младшая половина - это ASCII, а старшая отвечает за символьное определение различных языков. Примеры ISO:</p>

35 <ul><li>8859-0 - новые европейский стандарт;</li>

36 <li>8859-1 - Европа и Латинская Америка;</li>

37 <li>8859-5 - таблица кириллических символов;</li>

38 <li>8859-2 - Восточная Европа.</li>

39 </ul><p>ISO 8859-5 - это одна из первых попыток введения кодировки для кириллицы. Данный стандарт до сих пор используется крупными компаниями, которые пишут программное обеспечение с поддержкой обработки кириллических символов. Их примеры: базы данных, решения OpenVMS.</p>

40 <h2>CP866</h2>

41 <p>Это - альтернативная кодировка от IBM. Здесь все специфические европейские элементы в верхней части таблицы были заменены на кириллицу. Псевдографические компоненты остались прежними. На общем виде программ такой подход никак не отражался.</p>

42 <p>CP866 до сих пор активно используется на практике. Он встречается в OS/2, а также в MS-DOS. На нем "шифруются" имена в файловых системах vfat и fat.</p>

43 <p>CP866 была создана в ВЦ АН СССР, для которого впервые были закуплены партии устройств IBM PC. Одним из авторов кодировки выступил некий Брябрин В.М., который написал собственную книгу "Программное обеспечение персональных ЭВМ".</p>

44 <h2>Windows 1251</h2>

45 <p>Windows 1251 - это "продукт", созданный компанией Microsoft. Его появление обусловлено популярностью развития графических операционных систем. Псевдографика для них стала ненужным элементом. Все это привело к появлению полноценной группы, которая по-прежнему считалась расширенной интерпретацией ASCII (где один символ теста будет закодирован всего одним байтом данных), но уже без символьной псевдографики.</p>

46 <p>Соответствующая группа относилась к так называемым ANSI-кодировкам. Они разрабатывались американским институтом стандартизации. Говоря простым языком, это кириллица для варианта с поддержкой русского алфавита. Наглядный пример - Windows 1251.</p>

47 <p>В нем нет псевдографики. Их место было отведено под недостающие:</p>

48 <ul><li>знаки русской типографии (за исключением ударения);</li>

49 <li>славянские языки (украинский, белорусский и так далее).</li>

50 </ul><p>В Windows 1251 нет совместимости с CP866. Если попытаться отобразить их между собой, на экране появится неточный текст сообщения, а бессмысленный знаковый набор (простыми словами - "кракозябры").</p>

51 <p>Windows 1251 используется в семействе Windows. В основном встречается в операционных системах начала 90-х годов. Кириллица здесь отображается в алфавитном порядке.</p>

52 <h2>KOI-8</h2>

53 <p>Это достаточно старый стандарт. Он появился раньше CP866 и CP1251. Его разработчики разместили русскую кириллицу в верхней расширенной части ASCII так, чтобы позиции соответствовали их фонетическим аналогам в английском алфавите в нижней части таблицы. Это значит, что, если в тексте, написанном на KIO-8, убрать восьмой бит каждого элемента, на выходе получится читабельная информация, хоть и на английском.</p>

54 <p>KOI-8 имеет несколько "диалектов". Он поддерживает:</p>

55 <ul><li>KOI8-R - для русского алфавита;</li>

56 <li>KOI8-U - украинский.</li>

57 </ul><p>В первом варианте также поддерживается Болгарская кириллица. С ее помощью были сформированы первые кириллизации для компьютеров. Сейчас в Болгарии активно используется Windows 1251.</p>

58 <p>КОИ8-R пользуется популярностью в интернете. Это фактический стандарт для русской кириллицы в Internet.</p>

59 <h2>Unicode</h2>

60 <p>Таблицы Unicode - консорциум, который выступает в качестве универсальной кодировки. Он появился из-за того, что языковые группы юго-восточной Азии невозможно уместить в одном байте информации, выделяемом для "шифрования" одного элемента в "Аски". Он имеет несколько вариантов представления:</p>

61 <ul><li>UTF-32;</li>

62 <li>UTF-16;</li>

63 <li>UTF-8.</li>

64 </ul><p>Это - частичная реализация ISO. Сейчас в Юникоде распределены около 40 000 позиций из возможных 65 535 (это 2 байта на каждую букву). В 1998 году произошло последнее значительное изменение Unicode. Тогда была внедрена интерпретация знака "евро".</p>

65 <p>Отличительной чертой Юникода является то, что в нем позиции зарезервированы почти для всех существующих алфавитов, включая иероглифы, которыми пользовались в Древнем Египте. При помощи соответствующего вида "шифрования" допускается одновременная работа с русским и греческим, сочетая вставки на японском/китайском/азербайджанском, путем использования одного шрифта.</p>

66 <h3>UTF-32</h3>

67 <p>Первый вариант Unicode. Цифра в названии указывает на количество бит, используемое для кодирования одного элемента текста. 32 бита - это 4 байта данных. Столько потребуется при печати одного текстового компонента в UTF-32.</p>

68 <p>Это привело к тому, что исходный документ, переведенный из ASCII в Юникод стал весить в 4 раза больше. Такие изменения оказались неоправданными - большинству европейским стран огромное количество знаков не требовалось. Это привело к совершенствованию стандарта.</p>

69 <h3>UTF-16</h3>

70 <p>UTF-16 - более удобный вариант Unicode. По умолчанию именно такой вариант используется для всех элементов, используемых на компьютерах. Два байта требуются для "шифрования" одного символьного компонента.</p>

71 <p>При помощи 16 бит закодировать можно 65 536 элементов. Это - базовое пространство Unicode. Несмотря на свои преимущества, UTF-16 не принесло удовлетворения разработчикам. Особенно тем, кто писал исключительно на английском. Связано это с тем, что исходный документ у них увеличивался в 2 раза.</p>

72 <p>Чтобы посмотреть таблицы Unicode UTF-16 в Виндовс потребуется:</p>

73 <ol><li>Перейти в меню "Пуск".</li>

74 <li>Зайти в "Программы"-"Стандартные"-"Служебные".</li>

75 <li>Выбрать в появившемся меню "Таблица…".</li>

76 <li>В дополнительных параметрах установить Unicode.</li>

77 </ol><p>Выше - пример того, как будет выглядеть символьное отображение элемента текста и его код. Эта информация отображена в правом нижнем углу (U+007E).</p>

78 <h3>UTF-8</h3>

79 <p>Так называется Юникод с переменной длинной. Несмотря на восьмерку в своем названии, она все равно имеет неоднозначную длину. Каждый текстовый компонент может быть закодирован здесь в последовательность от 1 до 6<a>байт</a>.</p>

80 <p>Практическое применение нашли первые 4 байта. Все, что расположено за их пределами, трудно представить. Латинские знаки в ней преобразовываются при помощи 1 байта.</p>

81 <p>Программы и приложения, которые не понимают Unicode, поддерживают отображение того, что закодировано через UTF-8. Связано это с тем, что соответствующий стандарт поддерживает базовую часть "Аски".</p>

82 <p>Кириллические компоненты в UTF-8 кодируются в 2 байта, грузинские и некоторые другие - в три. </p>

83 <h2>Непонятный текст вместо русских букв - исправление</h2>

84 <p>Самая распространенная ситуация при работе с текстовыми данными - это появление "кракозябр" вместо русского языка. Связано это с неправильным кодированием информации.</p>

85 <p>Чтобы редактировать текстовые документы, рекомендуется использовать Notepad++. Он позволяет программировать на различных языках разработки, а также поддерживает расширяемость через плагины.</p>

86 <p>В Notepad++ имеется пункт "Кодирование". Там можно выбрать способ "шифрования" по умолчанию, а также воспользоваться преобразованием. Рекомендуется останавливаться на таблице UTF-8 без BOM. В этом случае в начало документа не вставляются три дополнительных байта.</p>

87 <p><em>Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в <a>Otus</a>!</em> </p>