Rivalry2

HTML Diff

1 added 1 removed

Original 2026-01-01

Modified 2026-03-10

1 <ul><li><a>Типы кодировок</a><ul><li><a>ASCII</a></li>

2 <li><a>Windows-1251</a></li>

3 <li><a>CP866 и KOI8-R</a></li>

4 </ul></li>

5 <li><a>Unicode</a><ul><li><a>UTF-32</a></li>

6 <li><a>UTF-16</a></li>

7 </ul></li>

8 <li><a>UTF-8</a><ul><li><a>Алгоритм кодирования</a></li>

9 <li><a>Особенности стандарта</a></li>

10 <li><a>UTF-16 и UTF-8 - сравнение</a></li>

11 </ul></li>

12 <li><a>Установка UTF-8 в PHP и HTML</a></li>

13 <li><a>Глобальные настройки</a></li>

14 <li><a>Работа с базами данных</a></li>

15 </ul><p>Кодирование символов - это процедура присваивания номеров графическим символам, особенно письменным. С помощью такой операции можно хранить, преобразовывать, а также передавать данные посредством цифровых технологий (компьютеров). Числовые значения, формирующие кодировку символов, называются "кодовыми точками". В совокупности они образовывают "кодовое пространство" или "карту символов".</p>

16 <p>Кодовая страница - это таблица, которая сопоставляет каждому значению байта тот или иной символ (или его отсутствие). Обычно код символа имеет размер 8 бит. Это приводит к тому, что кодовая страница может включать в себя 256 символов. Некоторые из них используются как управляющие элементы.</p>

17 <p>Сегодня в компьютерной технике используются самые разные кодировки. С помощью них удается расширить количество поддерживаемых символов. Данный момент имеет огромную значимость для латиницы и других языковых алфавитов.</p>

18 <p>Далее предстоит познакомиться с существующими кодировками и их особенностями. Особое внимание нужно уделить стандарту UTF-8. Он активно применяется в современной компьютерной технике, а также в программировании. Предложенная информация пригодится и обычному ПК-пользователю, и IT-специалисту.</p>

19 <h2>Типы кодировок</h2>

20 <p>Кодировать символы удастся при помощи самых разных способов. Все зависит от того, какая именно кодировка задействуется в той или иной системе.</p>

21 <p>Наиболее распространенными кодировками выступают:</p>

22 <ul><li>CP866;</li>

23 <li>KOI8-R;</li>

24 <li>ASCII;</li>

25 <li>Windows 1251;</li>

26 <li>Unicode.</li>

27 </ul><p>Чаще всего в IT предстоит иметь дело с Unicode и ASCII. Далее представленные методы кодирования символов в компьютерах будут рассмотрены более подробно.</p>

28 <h3>ASCII</h3>

29 <p>Это базовая кодировка. Аббревиатура на русском языке будет звучать как "Аски". Используется данный метод кодирования для работы основной массы устройств. Ее первые 128 символов относятся к наиболее используемым. Они включают в свой состав:</p>

30 <ul><li>арабские цифры;</li>

31 <li>служебные элементы;</li>

32 <li>латинские буквы;</li>

33 <li>знаки препинания.</li>

34 </ul><p>ASCII использует для кодирования символа 1 байт (или 8 бит). Этого мало для современных устройств. Данная особенность привела к тому, что "Аски" получила несколько расширенных версий. Они стали поддерживать кириллицу и русские символы.</p>

35 <h3>Windows-1251</h3>

36 <p>Windows-1251 - стандартная кодировка, использующая 1 байт для "шифрования" одного символа. Она используется во всех русских версиях Microsoft Windows. Огромное распространение она получила в восточно-европейских странах.</p>

37 <p>Windows-1251 сильно отличается от других кириллических кодировок, использующих 1 байт для шифрования информации. Здесь поддерживаются практически все символы, встречающиеся в традиционной русской типографике для обычного текста. В Windows-1251 отсутствует только знак ударения. Кириллица в ней идет в алфавитном порядке.</p>

38 <p>Первые 32 компонента Windows-1251 отводятся под разнообразные операции, пробел и перевод строки. До 127-го символа находятся интернациональные составляющие, латинский алфавит, а также знаки математических действий и цифры. Остальное пространство отводится под национальные символьные записи. С их помощью получится отобразить на экране цифрового устройства тот или иной мировой алфавит.</p>

39 <h3>CP866 и KOI8-R</h3>

40 <p>CP866 - это первая таблица кодировки с поддержкой русских букв. Ее первая часть полностью совпадает с ASCII, а вторая - дает возможность закодировать кириллицу, а также некоторые отсутствующие на клавиатуре символы.</p>

41 <p>CP866 на данный момент не пользуется особым спросом. Ранее она применялась IBM и встречала в DOS-системах. Со временем на ее смену пришла еще одна кодировка - KOI8-R.</p>

42 <p>Тут каждый символ кодируется при помощи 1 байта. Первая часть таблицы имеет состав классической ASCII. Во второй находятся специальные записи, отсутствующие на клавиатуре. Здесь же встречается элементы русского алфавита.</p>

43 <p>KOI8-R отличается тем, что в нем буквы русского языка располагаются не в алфавитном порядке. Они размещаются по принципу созвучия с латинским алфавитом. Этот прием позволяет более комфортно перейти с кириллицы на латинские буквы. Для этого придется отбросить всего один бит.</p>

44 <h2>Unicode</h2>

45 <p>Unicode - кодировка, используемая огромным количеством компьютерных устройств. Она является одной из наиболее популярных. Данный стандарт включает в себя практически все существующие письменные языки, а также их знаки и символы.</p>

46 <p>Unicode - стандарт, преобладающий в Сети. Он был создан в 1991 году. Относится к типу многоязычных стандартов. Опирается на ASCII. Включает в себя как кириллицу, так и азиатские иероглифы. Unicode - это универсальная кодировка. Она предусматривает несколько стандартов.</p>

47 <h3>UTF-32</h3>

48 <p>UTF-32 - самый первый вариант представления Юникода. Для шифрования одного элемента тут используются 4 байта или 32 бита. За счет этого кириллические символы в UTF-32 весят в 4 раза больше, чем в ASCII. Подобное явление может считаться недостатком, несмотря на которое система смогла предложить кодировать знаки в количестве 232.</p>

49 <p>UTF-32 предусматривает непосредственно индексируемые символы. Обнаружить тот или иной элемент можно при помощи его позиции в заданном исходном файле. Такой подход позволил более быстро обрабатывать операции, связанные с кодированием и заменой символьных данных.</p>

50 <h3>UTF-16</h3>

51 <p>UTF-16 является более новым и совершенным Unicode-стандартом. Это базовое пространство для всех используемых печатных компонентов. Он включает в себя различные символы, включая кириллицу.</p>

52 <p>UTF-16 включает в себя запись закодированных элементов в 16-ричной системе счислений. В Windows имеется служба "Таблица символов", в которой можно увидеть соответствующую форму записи.</p>

53 <p>При помощи данного стандарта Unicode получится закодировать 65 536 элементов. Это базовое число для Юникода. Расширенное пространство предусматривает множество дополнительных символьных записей по сравнению с предыдущими "версиями".</p>

54 <p>Преимуществом UTF-16 является то, что при переходе на эту кодировку с ASCII размер исходного документа будет увеличен в 2 раза (вместо 4-х при работе с UTF-32). Для кодирования одного и того же символа здесь используются 2 байта (или 16 бит).</p>

55 <p>UTF-8 - это еще один тип Unicode-стандарта, но он будет рассмотрен более подробно. Данный вариант кодировки тоже предусматривает в своем составе кириллицу. Называется UTF-8 кодировкой переменной длины. Несмотря на 8 в названии стандарта, длина действительно меняется. Каждый символ может получить код, длина которого составит от 1 до 6 байт. Обычно стандарт использует записи длиной до 4 байт. Латинские буквы содержатся в одном байте - точно так же, как и в случае с ASCII.</p>

56 <p>Рассматривая буквы русского алфавита, можно заметить - они будут занимать по 2 байта, а грузинские - по 3. UTF-8 - это стандарт, поддерживающий печать не только букв, но и смайликов. С ним хорошо интегрируются даже системы, не ориентированные на обработку Unicode. Данная особенность связана с тем, что базовая часть ASCII была переведена на новый стандарт Юникода.</p>

57 <p>При использовании UTF-8 для передачи информации в формате ASCII будут использоваться 7 первых битов. Восьмой (самый последний) необходим для вывода "мусора" (некорректно раскодированных данных). При использовании данной кодировки для латинских символов существенно сокращается объем текста.</p>

58 <h3>Алгоритм кодирования</h3>

59 <p>Кодирование в UTF-8 стандартизировано в RFC 3659. Данный процесс состоит из нескольких этапов:</p>

60 <ol><li>Определение количества байтов (октетов), необходимых для шифрования одного символа. Номер элемента берется из Unicode-стандарта.</li>

61 <li>Установить старшие биты первого октета в соответствии с необходимым количеством октетов, определенном на первом шаге. Если требуется 1 байт, используется запись 0xxxxxxx, если 2 октета - 110xxxxx, если 3 - 1110xxxx, если 4 - 11110xxx.</li>

62 <li>Выбрать значащие биты октетов в соответствии с номером символа Unicode, выраженном в двоичной форме представления. Заполнение начинается с младших битов номера символа. Они ставятся в младшие биты последнего октета. Далее нужно продолжить запись справа налево до первого октета. Свободные биты первого октета, оставшиеся незадействованными, должны быть заполнены нулями.</li>

63 </ol><p>Данный алгоритм может показаться сложным неопытным ПК-пользователям. Для шифрования информации при помощи UTF-8 таким людям можно использовать специальные онлайн-кодеры. Они же помогут расшифровать данные в режиме реального времени в течение минуты.</p>

64 <h3>Особенности стандарта</h3>

65 <p>UTF-8 - это Unicode-стандарт, который используется повсеместно. Он пользуется спросом у большинства современных устройств и компьютерных систем. Позволяет шифровать все языки мира, а также эмодзи и глифы.</p>

66 <p>UTF-8 поддерживается некоторыми языками программирования. Часть из них наглядно демонстрирует ряд особенностей рассматриваемого стандарта:</p>

67 <ol><li>В PHP: язык поддерживает 256 символов. Один элемент в строке он принимает как 1 байт информации. Такой принцип применяется даже тогда, когда символьная запись в строке весит меньше одного байта. Примером могут послужить смайлики. Некоторые из них весят по 4 байта, но для PHP они все равно имеют один байт. Соответствующий недочет устраняется за счет настройки многобайтовых функций. С помощью них PHP начнет обращаться к памяти при подсчете длины строки, а не считать каждый символ за 1 байт.</li>

68 <li>В JavaScript. Этот язык программирования поддерживает работу с UTF-16. Сложные символы требуют две кодовые точки для формирования ссылки.</li>

69 <li>В MySQL. UTF-8 здесь не поддерживается в стандартной интерпретации. 24 бита MySQL мало для передачи одного печатного элемента. Вместо этого СУБД поддерживает расширенную интерпретацию - UTF-8mb4.</li>

70 - </ol><p>При помощи UTF-8 получится записать код любой длины. Для более эффективной работы алгоритма рекомендуется ограничить кодовый размер. Unicode 6.x - это актуальный стандарт, предполагающий использование кода до 4-х байт в UTF-8.</p>

70 + </ol><p>При помощи UTF-8 получится записать код любой длины. Для более эффективной работы алгоритма рекомендуется ограничить код��вый размер. Unicode 6.x - это актуальный стандарт, предполагающий использование кода до 4-х байт в UTF-8.</p>

71 <h3>UTF-16 и UTF-8 - сравнение</h3>

72 <p>UTF-8 и UTF-16 - наиболее распространенные кодировки в Unicode-стандарте. Они обе предусматривают переменную длину. Один символ в этих стандартах может быть представлен разным количеством байт.</p>

73 <p>Unicode хранит все данные в таблице, а сортирует информацию по количество байт, которым они обладают в двоичной системе счисления. В самом начале стандарта элементы могут занимать лишь 1 байт, поэтому UTF-8 зашифрует их 1 байтом. Если информация потребуется двух байтов, в UTF-8 она будет тоже занимать 2 байта. Для латинских букв хватает 1 байта, для кириллицы - 2-х.</p>

74 <p>UTF-16 несколько отличается от своего более нового стандарта. Она оперирует информацией из двух и четырех байт. Соответствующая кодировка отлично подойдет для шифрования восточных языков.</p>

75 <h2>Установка UTF-8 в PHP и HTML</h2>

76 <p>HTML умеет работать с упомянутой кодировкой. Для ее установки необходимо воспользоваться специальным тегом - <meta>. Он позволяет объединить в себе в виде атрибутов значения метатегов.</p>

77 <p>Метатеги применяются для:</p>

78 <ul><li>передачи данных;</li>

79 <li>хранения информации, используемой для браузеров и поисковых систем.</li>

80 </ul><p>Кодировку страницы поможет установить атрибут charset. Ниже можно увидеть наглядный пример его использования:</p>

81 <p>Кодировка может быть установлена нескольким отдельным компонентам на той или иной HTML-странице. Для этого тоже используется атрибут charset. Его значение - это нужный стандарт кодирования:</p>

82 <p>Значения могут быть присвоены непосредственно HTTP-заголовкам, передаваемым вместе с ответом на запрос от браузерной стороны к серверной. В соответствующей ситуации UTF-8 будет доминировать над значением, прописанным внутри веб-сайта.</p>

83 <p>Большинство страниц создаются динамически за счет использования серверных языков программирования. Чаще всего таковым является PHP. Каждый разработчик должен знать, какие инструменты и конструкции помогут поменять "на лету" кодировку генерируемой страницы.</p>

84 <p>Для модификации и первичной установки значений заголовка необходимо пользоваться функцией header(). Она предусматривает следующую синтаксическую запись:</p>

85 <p>Для корректного задания UTF 8 в PHP нужно производить вызов функции header() в коде выше всех остальных тегов HTML.</p>

86 <h2>Глобальные настройки</h2>

87 <p>Рассмотренные ранее подходы помогают настраивать UTF 8 на отдельных веб-страницах, а также на небольших сайтах. Иногда пользователям приходится иметь дело с ресурсами, включающими в свой состав огромное количество страниц и десятки разделов. В соответствующем случае предстоит установить UTF-8 для всего сайта сразу.</p>

88 <p>Реализация задачи становится возможной за счет внесения изменений в дополнительный конфигурационный файл выбранного ресурса. Речь идет о документе с названием .htaccess. Его необходимо открыть в любом текстовом редакторе. После этого - добавить новую строку:</p>

89 <p>В виде более глобального метода изменения кодировки рекомендуется рассмотреть пример, базирующийся на любом локальном сервере. Для большей наглядности стоит взять Denwer. Он имеет достаточно широкое распространение.</p>

90 <p>Для изменения кодировки всех ресурсов, размещенных на Apache, требуется отредактировать конфигурационный файл http.conf. Он расположен по пути: usr/local/apache/conf. Здесь необходимо заменить значение AddDefaultCharset на необходимый параметр. А именно - на UTF-8.</p>

91 <h2>Работа с базами данных</h2>

92 <p>UTF-8 может кодировать информацию с помощью разного количества байт. Данная "система" используется в информационных базах. Наиболее распространенной СУБД является MySQL. На ее примере будет рассмотрена установка UTF-8.</p>

93 <p>Чтобы изменить стандарт шифрования информации, необходимо внести корректировки в документ my.ini. Он расположен по пути: usr/local/mysql-5.5.</p>

94 <p>В my.ini необходимо поставить название желаемого стандарта в нескольких полях:</p>

95 <ul><li>character-set-server;</li>

96 <li>default-character-set;</li>

97 <li>init-connect = "set names";</li>

98 <li>default-character-set.</li>

99 </ul><p>Также потребуется добавить новую строку: skip-character-set-client-handshake. Соответствующие изменения могут быть внесены не только для всех баз данных в пределах имеющегося сервера, но и для отдельно взятой БД MySQL в PHP. Добиться желаемого результата поможет пользовательский интерфейс оболочки PHPMyAdmin.</p>

100 <p>Сначала необходимо выяснить, какие стандарты кодирования установлены для БД по умолчанию. Для этого используется следующий SQL-запрос:</p>

101 <p>Если те или иные значения не удовлетворят программиста, их необходимо изменить. Для реализации поставленной задачи предстоит обратиться с запросом к ядру сервера СУБД:</p>

102 <p>В конечном итоге программист получит новые значения переменных:</p>

103 <ul><li>character_set_connection;</li>

104 <li>character_set_client;</li>

105 <li>character_set_results.</li>

106 </ul><p>Внести необходимые изменения в Excel-таблицы более проблематично. Для этого необходимо пользоваться сторонними приложениями перекодировки документов.</p>

107 <p>Теперь понятно, каким может быть размер символа в UTF-8, какие варианты кодирования данных существуют, чем они выделяются. А еще удалось выяснить принципы работы с UTF-8 с базами данных, а также в процессе написания HTML-сайтов. Аналогично получится установить любой другой необходимый стандарт в процессе разработки веб-страниц.</p>

108 <p>Лучше разобраться с изученной темой помогут дистанционные компьютерные курсы. Они рассчитаны на срок от месяца до года. На них пользователи "с нуля" научатся работать с кодировками и подсчитывать байты зашифрованных документов, а также взаимодействовать с серверами и разнообразными операционными системами, настраивать программное обеспечение и писать коды на самых разных языках. Достаточно выбрать подходящее направление. В конце курса каждый получит электронный сертификат, с помощью которого получится подтвердить приобретенные знания.</p>

109 <p><em>Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в <a>Otus</a>!</em> </p>

110