HTML Diff
1 added 1 removed
Original 2026-01-01
Modified 2026-03-10
1 <ul><li><a>Кодирование - это…</a></li>
1 <ul><li><a>Кодирование - это…</a></li>
2 <li><a>Популярные кодировки</a></li>
2 <li><a>Популярные кодировки</a></li>
3 <li><a>Unicode</a><ul><li><a>UTF-32</a></li>
3 <li><a>Unicode</a><ul><li><a>UTF-32</a></li>
4 <li><a>UTF-16</a></li>
4 <li><a>UTF-16</a></li>
5 <li><a>Новый стандарт Unicode</a><ul><li><a>Как закодировать текст</a></li>
5 <li><a>Новый стандарт Unicode</a><ul><li><a>Как закодировать текст</a></li>
6 <li><a>Сравнение с Windows-1251</a></li>
6 <li><a>Сравнение с Windows-1251</a></li>
7 </ul></li>
7 </ul></li>
8 </ul></li>
8 </ul></li>
9 </ul><p>Вся информация в компьютерах и технике представлена в зашифрованной форме. Она непонятна человеку, но хорошо распознается различными устройствами.<a>Кодировки</a>могут быть разными: текста, видео, изображений и так далее.</p>
9 </ul><p>Вся информация в компьютерах и технике представлена в зашифрованной форме. Она непонятна человеку, но хорошо распознается различными устройствами.<a>Кодировки</a>могут быть разными: текста, видео, изображений и так далее.</p>
10 <p>Сегодня нужно познакомиться с кодированием символов. Предстоит выяснить, что это вообще за процедура такая, зачем она нужна, какие особенности имеет. Также нужно ознакомиться с UTF-8.</p>
10 <p>Сегодня нужно познакомиться с кодированием символов. Предстоит выяснить, что это вообще за процедура такая, зачем она нужна, какие особенности имеет. Также нужно ознакомиться с UTF-8.</p>
11 <p>Опубликованная информация рассчитана на широкий читательский круг. Она подойдет как школьникам и обычным ПК-пользователям, так и IT-специалистам. В конце станет ясно, какие варианты символьного шифрования существуют, а также для чего они применяются.</p>
11 <p>Опубликованная информация рассчитана на широкий читательский круг. Она подойдет как школьникам и обычным ПК-пользователям, так и IT-специалистам. В конце станет ясно, какие варианты символьного шифрования существуют, а также для чего они применяются.</p>
12 <h2>Кодирование - это…</h2>
12 <h2>Кодирование - это…</h2>
13 <p><a>Кодирование символов</a>- это процесс, в ходе которого графические символы получают свои собственные номера. Такой вариант "шифрования" характерен символам человеческого языка. Он дает возможность выполнять с алфавитом разнообразные действия:</p>
13 <p><a>Кодирование символов</a>- это процесс, в ходе которого графические символы получают свои собственные номера. Такой вариант "шифрования" характерен символам человеческого языка. Он дает возможность выполнять с алфавитом разнообразные действия:</p>
14 <ul><li>хранить;</li>
14 <ul><li>хранить;</li>
15 <li>преобразовывать;</li>
15 <li>преобразовывать;</li>
16 <li>передавать.</li>
16 <li>передавать.</li>
17 </ul><p>Изучая основы кодирования текстовой информации, необходимо помнить о нескольких ключевых определениях.</p>
17 </ul><p>Изучая основы кодирования текстовой информации, необходимо помнить о нескольких ключевых определениях.</p>
18 <p>К ним относят:</p>
18 <p>К ним относят:</p>
19 <ul><li>кодовые точки - числовые значения, которые составляют кодировку символов;</li>
19 <ul><li>кодовые точки - числовые значения, которые составляют кодировку символов;</li>
20 <li>кодовое пространство (карта символов) - совокупность кодовых точек.</li>
20 <li>кодовое пространство (карта символов) - совокупность кодовых точек.</li>
21 </ul><p>Обычно код символа имеет размер 8 бит. Кодовая страница способна включать в себя 256 символов. Это привело к тому, что сейчас техника использует разнообразные кодировки. Каждая из них позволяет зашифровать разное количество элементов и имеет свои собственные преимущества и недостатки.</p>
21 </ul><p>Обычно код символа имеет размер 8 бит. Кодовая страница способна включать в себя 256 символов. Это привело к тому, что сейчас техника использует разнообразные кодировки. Каждая из них позволяет зашифровать разное количество элементов и имеет свои собственные преимущества и недостатки.</p>
22 <h2>Популярные кодировки</h2>
22 <h2>Популярные кодировки</h2>
23 <p>Сегодня можно встретить несколько стандартов шифрования текста в компьютерах и другой технике. Наиболее распространенными вариантами являются:</p>
23 <p>Сегодня можно встретить несколько стандартов шифрования текста в компьютерах и другой технике. Наиболее распространенными вариантами являются:</p>
24 <ol><li>ASCII (или Аски). Это американский стандарт для информационного обмена. С его помощью можно представить: десятичные цифры, управляющие системные знаки и знаки препинания, латинский и национальный алфавит. Изначально такое шифрование было 7-битным, но позже оно было расширено до 8-бит. Русский алфавит такой стандарт не обрабатывает.</li>
24 <ol><li>ASCII (или Аски). Это американский стандарт для информационного обмена. С его помощью можно представить: десятичные цифры, управляющие системные знаки и знаки препинания, латинский и национальный алфавит. Изначально такое шифрование было 7-битным, но позже оно было расширено до 8-бит. Русский алфавит такой стандарт не обрабатывает.</li>
25 <li>Windows -1251. Первая разработка для Windows, которая позволила работать с русским алфавитом.</li>
25 <li>Windows -1251. Первая разработка для Windows, которая позволила работать с русским алфавитом.</li>
26 <li>Unicode. Стандарт кодирования, который позволяет представлять в технике почти все существующие языки.</li>
26 <li>Unicode. Стандарт кодирования, который позволяет представлять в технике почти все существующие языки.</li>
27 </ol><p>На последнем варианте шифрования стоит остановиться поподробнее. Именно к нему относится UTF-8.</p>
27 </ol><p>На последнем варианте шифрования стоит остановиться поподробнее. Именно к нему относится UTF-8.</p>
28 <h2>Unicode</h2>
28 <h2>Unicode</h2>
29 <p>Unicode (Юникод) - стандарт шифрования текстовой информации, который был представлен в 1991 году. Он появился благодаря некоммерческой организации "Консорциум Юникода".</p>
29 <p>Unicode (Юникод) - стандарт шифрования текстовой информации, который был представлен в 1991 году. Он появился благодаря некоммерческой организации "Консорциум Юникода".</p>
30 <p>С помощью соответствующего стандарта удается закодировать огромное количество символов из разных письменностей, включая китайские и японские иероглифы, математические символы, буквы греческого алфавита, латиницу, кириллицу и так далее. Переключаться между различными кодовыми страницами в случае с Unicode не придется.</p>
30 <p>С помощью соответствующего стандарта удается закодировать огромное количество символов из разных письменностей, включая китайские и японские иероглифы, математические символы, буквы греческого алфавита, латиницу, кириллицу и так далее. Переключаться между различными кодовыми страницами в случае с Unicode не придется.</p>
31 <p>У Юникода есть несколько стандартов:</p>
31 <p>У Юникода есть несколько стандартов:</p>
32 <ul><li>UTF-32;</li>
32 <ul><li>UTF-32;</li>
33 <li>UTF-16;</li>
33 <li>UTF-16;</li>
34 <li>UTF-8.</li>
34 <li>UTF-8.</li>
35 </ul><p>Каждый из них имеет свои ключевые особенности. Сейчас наиболее популярным становится стандарт UTF-8.</p>
35 </ul><p>Каждый из них имеет свои ключевые особенности. Сейчас наиболее популярным становится стандарт UTF-8.</p>
36 <h3>UTF-32</h3>
36 <h3>UTF-32</h3>
37 <p>UTF-32 - первая реализация стандарта Юникод. Цифра в его названии - это количество бит, необходимых для шифрования одного символа/знака. А значит, для кодирования нужно 4 байта.</p>
37 <p>UTF-32 - первая реализация стандарта Юникод. Цифра в его названии - это количество бит, необходимых для шифрования одного символа/знака. А значит, для кодирования нужно 4 байта.</p>
38 <p>UTF-32 является более совершенным стандартом, чем ASCII. При его использовании изначальный<a>вес файла</a>увеличивался в 4 раза. Стандарт начал устаревать. Его сменил UTF-16.</p>
38 <p>UTF-32 является более совершенным стандартом, чем ASCII. При его использовании изначальный<a>вес файла</a>увеличивался в 4 раза. Стандарт начал устаревать. Его сменил UTF-16.</p>
39 <h3>UTF-16</h3>
39 <h3>UTF-16</h3>
40 <p>UTF-16 - разработка Юникода, которая по умолчанию используется для всей компьютерной техники. Для шифрования одного элемента используются 16 бит или 2 байта.</p>
40 <p>UTF-16 - разработка Юникода, которая по умолчанию используется для всей компьютерной техники. Для шифрования одного элемента используются 16 бит или 2 байта.</p>
41 <p>С помощью UTF-16 удалось шифровать 65 536 символов. Именно они формируют базовое пространство всего Unicode. Размер документа с соответствующей схемой кодирования увеличился в 2 раза при преобразовании с ASCII, а не в 4. Несмотря на это, соответствующий вариант все равно не устроил специалистов.</p>
41 <p>С помощью UTF-16 удалось шифровать 65 536 символов. Именно они формируют базовое пространство всего Unicode. Размер документа с соответствующей схемой кодирования увеличился в 2 раза при преобразовании с ASCII, а не в 4. Несмотря на это, соответствующий вариант все равно не устроил специалистов.</p>
42 <p>Обычно проблемы возникали у тех, кто пишет и разговаривает на английском. Если для русского языка UTF-16 подходил очень хорошо, то в случае с англоязычными документами приходилось мириться с увеличением исходного файла в 2 раза.</p>
42 <p>Обычно проблемы возникали у тех, кто пишет и разговаривает на английском. Если для русского языка UTF-16 подходил очень хорошо, то в случае с англоязычными документами приходилось мириться с увеличением исходного файла в 2 раза.</p>
43 <p>Сейчас UTF-16 можно встретить в Windows. Посмотреть данную кодировку предлагается так:</p>
43 <p>Сейчас UTF-16 можно встретить в Windows. Посмотреть данную кодировку предлагается так:</p>
44 <ol><li>Открыть меню "Пуск" и переключиться на службу "Служебные".</li>
44 <ol><li>Открыть меню "Пуск" и переключиться на службу "Служебные".</li>
45 <li>Выбрать пункт "Таблица символов".</li>
45 <li>Выбрать пункт "Таблица символов".</li>
46 <li>В дополнительных параметрах отображения выставить Unicode.</li>
46 <li>В дополнительных параметрах отображения выставить Unicode.</li>
47 - </ol><p>Теперь можно выделить тот или иной элемент, а затем посмотреть пукт UTF-16. Около него будет запись, с помощью которого шифруется тот или иной символ.</p>
47 + </ol><p>Теперь можно выделить тот или иной элемент, а затем посмотреть пункт UTF-16. Около него будет запись, с помощью которого шифруется тот или иной символ.</p>
48 <p>Конечная разработка данного стандарта позволила кодировать около 1 миллиона элементов. Несмотря на это, пришлось снова преобразовывать Юникод. Так, чтобы размер исходных документов после преобразований устраивал пользователей.</p>
48 <p>Конечная разработка данного стандарта позволила кодировать около 1 миллиона элементов. Несмотря на это, пришлось снова преобразовывать Юникод. Так, чтобы размер исходных документов после преобразований устраивал пользователей.</p>
49 <h3>Новый стандарт Unicode</h3>
49 <h3>Новый стандарт Unicode</h3>
50 <p>UTF-8 пришел на смену UTF-16. Данный вариант шифрования является не только новым, но и распространенным. Он позволяет компактно хранить и передавать символы Юникода. У него переменное количество<a>байт</a>. Оно может составлять от 1 до 4.</p>
50 <p>UTF-8 пришел на смену UTF-16. Данный вариант шифрования является не только новым, но и распространенным. Он позволяет компактно хранить и передавать символы Юникода. У него переменное количество<a>байт</a>. Оно может составлять от 1 до 4.</p>
51 <p>UTF-8 полностью совместим с 7-битной Аски. Сейчас он активно используется при веб-разработке, а также в UNIX-подобных<a>операционных</a>системах. Появился UTF-8 в 1992 году.</p>
51 <p>UTF-8 полностью совместим с 7-битной Аски. Сейчас он активно используется при веб-разработке, а также в UNIX-подобных<a>операционных</a>системах. Появился UTF-8 в 1992 году.</p>
52 <p>Если сравнивать этот стандарт с предыдущим в Юникоде, то он имеет больший выигрыш при использовании текста на латинице. Данное явление связано с тем, что латинские буквы без диакритических знаков, цифры и наиболее распространенные знаки препинания будут шифроваться всего одним байтом. Соответствующие коды полностью совпадают с аналогичными символами в ASCII.</p>
52 <p>Если сравнивать этот стандарт с предыдущим в Юникоде, то он имеет больший выигрыш при использовании текста на латинице. Данное явление связано с тем, что латинские буквы без диакритических знаков, цифры и наиболее распространенные знаки препинания будут шифроваться всего одним байтом. Соответствующие коды полностью совпадают с аналогичными символами в ASCII.</p>
53 <h4><em>Как закодировать текст</em></h4>
53 <h4><em>Как закодировать текст</em></h4>
54 <p>UTF-8 позволяет шифровать текст в несколько шагов. Соответствующий принцип стандартизирован в RFC 3629.</p>
54 <p>UTF-8 позволяет шифровать текст в несколько шагов. Соответствующий принцип стандартизирован в RFC 3629.</p>
55 <p>Согласно соответствующему документу, для шифрования информации в UTF-8 необходимо:</p>
55 <p>Согласно соответствующему документу, для шифрования информации в UTF-8 необходимо:</p>
56 <ol><li>Определить, сколько байт (октетов) нужно для шифрования одного элемента. Символьный номер берется из Unicode-стандарта.</li>
56 <ol><li>Определить, сколько байт (октетов) нужно для шифрования одного элемента. Символьный номер берется из Unicode-стандарта.</li>
57 <li>Установить старшие биты октета в соответствие количеству необходимых байт для шифрования, определенных на предыдущем этапе. Для этого используются различные записи: 0xxxxxxx - для одного октета, 110xxxxx - для двух октетов, 1100xxxx - для трех байт, 1110xxx - при использовании 4-х октетов.</li>
57 <li>Установить старшие биты октета в соответствие количеству необходимых байт для шифрования, определенных на предыдущем этапе. Для этого используются различные записи: 0xxxxxxx - для одного октета, 110xxxxx - для двух октетов, 1100xxxx - для трех байт, 1110xxx - при использовании 4-х октетов.</li>
58 <li>При необходимости выделения более одного байта для шифрования в UTF-8 в 2-4 октета два старших бита представлены всегда равными 10xxxxxx. С помощью соответствующего приема получается легко выделить первый бит в потоке.</li>
58 <li>При необходимости выделения более одного байта для шифрования в UTF-8 в 2-4 октета два старших бита представлены всегда равными 10xxxxxx. С помощью соответствующего приема получается легко выделить первый бит в потоке.</li>
59 <li>Установить соответствие значащих битов октетов с номерами символов в Юникоде, представленных в двоичной интерпретации. Заполнять данные нужно с младших битов символьного номера. Они подставляются в младшие биты последнего октета. Свободные биты первого бита заполняются нулями.</li>
59 <li>Установить соответствие значащих битов октетов с номерами символов в Юникоде, представленных в двоичной интерпретации. Заполнять данные нужно с младших битов символьного номера. Они подставляются в младшие биты последнего октета. Свободные биты первого бита заполняются нулями.</li>
60 </ol><p>На практике UTF-8 вручную для шифрования и дешифрования текста не используется. Обычно для этого применяются специализированные программы и конвертеры.</p>
60 </ol><p>На практике UTF-8 вручную для шифрования и дешифрования текста не используется. Обычно для этого применяются специализированные программы и конвертеры.</p>
61 <p>Выше - таблица, помогающая выполнить первый этап в представленном алгоритме. Она способствует определению октетов и дальнейшим необходимым манипуляциям.</p>
61 <p>Выше - таблица, помогающая выполнить первый этап в представленном алгоритме. Она способствует определению октетов и дальнейшим необходимым манипуляциям.</p>
62 <h4><em>Сравнение с Windows-1251</em></h4>
62 <h4><em>Сравнение с Windows-1251</em></h4>
63 <p>UTF-8 и Windows-1251 часто встречаются в Windows OS. Если отличие соответствующего варианта кодирования от UTF-32/16 понятно, то с Windows -1251 все не так просто.</p>
63 <p>UTF-8 и Windows-1251 часто встречаются в Windows OS. Если отличие соответствующего варианта кодирования от UTF-32/16 понятно, то с Windows -1251 все не так просто.</p>
64 <p>UTF-8 является многобайтовой "системой", причем переменной длины. Для шифрования одного элемента могут использоваться как 1, так и 6 байт. В отличие от UTF-8, Windows-1251 является однобайтовой.</p>
64 <p>UTF-8 является многобайтовой "системой", причем переменной длины. Для шифрования одного элемента могут использоваться как 1, так и 6 байт. В отличие от UTF-8, Windows-1251 является однобайтовой.</p>
65 <p>Основным отличием представленных методов кодирования является используемый символьный набор. В UTF-8 для работы доступно их гораздо большее количество. В Windows-1251 допустимо использовать 255 элементов.</p>
65 <p>Основным отличием представленных методов кодирования является используемый символьный набор. В UTF-8 для работы доступно их гораздо большее количество. В Windows-1251 допустимо использовать 255 элементов.</p>
66 <p>Также Юникод используется в веб-разработке: на сайтах и в приложениях. Windows-1251 для этого не подходит.</p>
66 <p>Также Юникод используется в веб-разработке: на сайтах и в приложениях. Windows-1251 для этого не подходит.</p>
67 <p>Теперь понятно, что собой представляет UTF-8, а также какие методы кодирования текста используется в компьютерах. Лучше разбираться в них помогут дистанционные компьютерные курсы.</p>
67 <p>Теперь понятно, что собой представляет UTF-8, а также какие методы кодирования текста используется в компьютерах. Лучше разбираться в них помогут дистанционные компьютерные курсы.</p>
68 <p><em>Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в <a>Otus</a>!</em> </p>
68 <p><em>Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в <a>Otus</a>!</em> </p>
69  
69