Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 <ul><li><a>Кодирование - это…</a></li>

2 <li><a>Термины и связанные определения</a></li>

3 <li><a>ASCII</a><ul><li><a>Расширенные ASCII</a></li>

4 <li><a>Windows-1251</a></li>

5 </ul></li>

6 <li><a>Unicode</a><ul><li><a>UTF-32</a></li>

7 <li><a>UTF-16</a></li>

8 <li><a>UTF-8</a></li>

9 </ul></li>

10 </ul><p>Вся информация в компьютере представлена различными способами. Чтобы она была понятна устройству, а не человеку, используются различные таблицы кодирования. Они называются символьными кодировками.</p>

11 <p>Сегодня предстоит познакомиться с соответствующими компонентами поближе. Нужно выяснить, то вообще собой представляет кодирование информации, для каких именно целей оно применяется. А еще - изучить наиболее распространенные кодировки символов в современных компьютерах.</p>

12 <p>Опубликованная ниже информация рассчитана не только для IT-специалистов, но и для обычных ПК-пользователей. Она поможет выяснить принципы распознавания символьной информации современными гаджетами.</p>

13 <h2>Кодирование - это…</h2>

14 <p>Кодирование символов - это система представления букв, цифр, а также специальных символов при помощи числовых кодов. Процесс присвоения числовых значений графическим символам, особенно печатным символам человеческого языка.</p>

15 <p>За счет кодирования можно обеспечить символьным элементам:</p>

16 <ul><li>хранение;</li>

17 <li>передачу;</li>

18 <li>преобразование посредством компьютеров или иных цифровых современных устройств.</li>

19 </ul><p>Числовые значения, формирующие кодировку, - это кодовые точки. В совокупности они образуют пространство кода или кодовую страницу. Это сочетание также носит название таблицы символов.</p>

20 <h2>Термины и связанные определения</h2>

21 <p>При изучении кодов символов необходимо запомнить несколько ключевых определений и понятий. Это поможет быстрее разобраться в выбранном направлении:</p>

22 <ol><li>Знак препинания - минимальная единица текста, наделенная тем или иным смысловым значением.</li>

23 <li>Набор символов - совокупность элементов, используемых для представления текста. В качестве примера можно привести латинский или греческий алфавит.</li>

24 <li>Кодированный символьный набор - набор символов, который преобразован в набор уникальных чисел (кодов). Исторически сложилось так, что этот компонент называется кодовой страницей.</li>

25 <li>Набор символов - совокупность символьных компонентов, которые могут быть представлены определенным набором кодированных символов. Этот элемент бывает закрытым - в него не допускаются никакие изменения без формирования нового стандарта. Также набор символов бывает открытый. Он допускает разнообразные дополнения.</li>

26 <li>Кодовая точка - значение или позиция символа в кодировке набора символов.</li>

27 <li>Кодовое пространство - диапазон числовых значений (кодов), задаваемых набором кодируемых символов.</li>

28 <li>Кодовая единица - минимальная комбинация битов, которая может представлять собой символ в символьной кодировке. В информатике этим термином характеризуют размер слова в кодировке.</li>

29 </ol><p>Теперь можно более подробно рассмотреть варианты кодов, используемых для представления печатных элементов в современных компьютерах.</p>

30 <h2>ASCII</h2>

31 <p>ASCII или American Standard Code for Information Interchange - это американский стандартный код информационного обмена. Произносится как "Аски".</p>

32 <p>Он был разработан в 1963 году. ASCII до сих пор используется для работы с кодами в компьютерах, хоть и не слишком часто. </p>

33 <p>Данный "код" представляет собой кодировку интерпретации:</p>

34 <ul><li>десятичных цифр;</li>

35 <li>латинского и национального алфавитов;</li>

36 <li>управляющих символов;</li>

37 <li>знаков препинания.</li>

38 </ul><p>Изначально код создавался 7-битным. С его развитием каждый элемент стал храниться в 8 битах. Старший бит всегда установлен в 0. Теперь распространена 8-битная ASCII. В компьютерах чаще всего используются расширения "Аски" с задействованной второй половиной байта.</p>

39 <p>У ASCII есть вариант без национальных составляющих. Он называется US-ASCII. Всего в рассматриваемой кодировке представлено 128 символьных элемента. Для каждого устанавливается свой код интерпретации. В состав ASCII сейчас входят не только ранее перечисленные компоненты, но и:</p>

40 <ul><li>математические символы;</li>

41 <li>арабские цифры;</li>

42 <li>заглавные и строчные буквы латинского алфавита;</li>

43 <li>32 управляющих символьных записи.</li>

44 </ul><p>Сейчас управляющие компоненты используются редко.</p>

45 <p>Выше можно увидеть, как выглядит таблица ASCII.</p>

46 <h3>Расширенные ASCII</h3>

47 <p>ASCII стала основой для развития разнообразных современных кодировок. Изначально в ней было всего 128 составляющих. В расширенной интерпретации получилось присвоить коды 256 элементам. Их можно было закодировать в одном байте информации. Это привело к возможности добавления в "Аски" букв национальных языков.</p>

48 <p>В качестве расширенного ASCII появилась CP866. В ней можно было присвоить коды русскому алфавиту. Ее верхняя часть полностью совпадала с базовой версией "Аски". Нижняя обладала несколько измененным видом. С помощью CP866 появилась возможность кодирования русских букв и псевдографики.</p>

49 <p>CP866 распространялась компанией IBM. Для представления русского языка со временем появились другие кодировки расширенной интерпретации "Аски". В качестве примера можно привести KOI-8.</p>

50 <p>Принцип работы с кодами здесь точно такой же, как и у CP866 - каждый элемент текста кодируется одним байтом. Первая половина совпадает с "Аски", поэтому выше представлена вторая ее часть. В KOI-8 кириллические буквы в таблице будут идти не в алфавитном порядке, как в CP866.</p>

51 <h3>Windows-1251</h3>

52 <p>Символы ASCII и некоторые ее расширенные версии уже изучены, но на них развитие таблиц кодов не закончилось. Дальнейший прогресс связан с тем, что графические операционные системы начали набирать огромную популярность. Псевдографика стала отходить на второй план. Со временем она вовсе пропала. Это привело к появлению целой группы расширенных версий "Аски", но без псевдографических составляющих. Они стали относиться к ANSI-кодировкам, разработанным американским институтом стандартизации. Наиболее популярным вариантом выступила кодировка Windows-1251.</p>

53 <p>Вместо псевдографики тут появились:</p>

54 <ul><li>символы русской типографики (без знака ударения);</li>

55 <li>символы, используемые в близких к русскому славянских языках (белорусскому, украинскому и так далее).</li>

56 </ul><p>Из-за такого обилия методов шифрования русского языка у производителей шрифтов и программного обеспечения стали возникать проблемы. Это привело к тому, что вместо положенного текста на экране начали появляться так называемые "кракозябры". Она символизирует о путанице кодов, используемых в тексте.</p>

57 <p>Windows-1251 была создана компанией Microsoft. Она является стандартной 8-битной кодировкой русских версий операционных систем Windows до 10-ой версии включительно. Раньше была очень популярна, но сейчас ее распространенность значительно упала.</p>

58 <h2>Unicode</h2>

59 <p>Unicode (или "Юникод") - это современный стандарт представления символьных данных кодами. Он появился из-за того, что одним байтом информации невозможно описать алфавиты групп юго-восточной Азии (иероглифы). </p>

60 <p>Это привело к тому, что в 1991 году некоммерческая организация "Консорциум Юникода" представила свою собственную разработку кодирования данных. Она получила название Unicode. Применение соответствующего стандарта позволяет закодировать очень много разнообразных элементов систем письменности:</p>

61 <ul><li>математические компоненты;</li>

62 <li>буквы кириллицы, латиницы, греческого алфавита;</li>

63 <li>элементы музыкальной нотной нотации;</li>

64 <li>китайские и японские иероглифы.</li>

65 </ul><p>При использовании "Юникода" переключаться между кодовыми таблицами не нужно. Этот стандарт включает в себя две части: универсальный символьный набор (UCS), а также семейство кодировок (UTF). В первом случае код выражается неотрицательным целым числом, записываемым в шестнадцатеричной форме с префиксом U+. Во втором случае определяются способы преобразования кодов для передачи в файлах или потоках.</p>

66 <h3>UTF-32</h3>

67 <p>Unicode предусматривает несколько интерпретаций. Каждая из них поддерживает свои ключевые особенности. Первой вариацией упомянутого стандарта стал UTF-32. Цифра в его названии указывает на количество бит, используемых для кодирования одного элемента.</p>

68 <p>32 бита - это 4 байта данных. Столько необходимо для одного единственного знака в универсальной кодировке UTF. Это привело к тому, что один и тот же файл с текстом, закодированный в ASCII и UTF-32, в последнем случае будет весить в 4 раза больше. Это плохо, зато пользователи смогли с таким методом шифровать миллиарды печатных элементов и знаков.</p>

69 <h3>UTF-16</h3>

70 <p>Количество доступных для шифрования знаков при помощи UTF-32 многим языкам не требовалось. Это только приводило к образованию очень "тяжелых" исходных файлов, а также приводило к увеличению объема интернет-трафика и хранимых сведений. Подобное расточительство в годы развития кодировок мало кто мог себе позволить.</p>

71 <p>Это привело к появлению новой вариации стандарта - UTF-16. Она стала настолько удачной, что была принята в качестве базового пространства всех знаков, которые сейчас используются в компьютерах. Для кодирования тут используются всего 2 байта.</p>

72 <p>Посмотреть соответствующую таблицу можно прямо в Windows. Для этого предстоит:</p>

73 <ol><li>Открыть "Пуск".</li>

74 <li>Переключиться в "Программы"-"Стандартные".</li>

75 <li>Выбрать пункт "Служебные".</li>

76 <li>Кликнуть по "Таблица символов".</li>

77 <li>Переключиться в "Дополнительные параметры" и включить Unicode.</li>

78 </ol><p>Теперь у каждого шрифта можно посмотреть представление знаков в виде UTF-16. Соответствующие коды размещаются в левом нижнем углу окна. Они включают в себя 4 шестнадцатеричных цифры.</p>

79 <h3>UTF-8</h3>

80 <p>UTF-8 - это кодировка переменной длины. Еще один стандарт "Юникода", который стал результатом развития информационных технологий. Несмотря на 8 в названии, кодировка действительно имеет переменную длину. Каждый элемент в таблице может быть закодирован последовательностью длиной от 1 до 6 байт.</p>

81 <p>На практике в UTF-8 используются от 1 до 4 байт. Все, что находится за пределами этого диапазона, трудно представить. Латинские знаки тут кодируются в 1 байт, как в ASCII.</p>

82 <p>Если приложение не понимает Unicode, оно все равно сможет работать в UTF-8. Кириллица здесь кодируется в 2 байта, грузинский алфавит - в 3.</p>

83 <p><em>Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в <a>Otus</a>!</em> </p>