Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-02-26

1 <h2>Юникод</h2>

2 Данные программы хранятся в памяти компьютера в виде последовательности нулей и единиц. На этом уровне нет разницы между строками, числами или булевыми значениями. В памяти все выглядит одинаково. Разница появляется только в результате интерпретации.

3 Программа знает, что внутри некоторой переменной хранится строка, поэтому она берет нули и единички и пропускает их сквозь кодовую таблицу. В ней указано, какому числу соответствует какая буква. В результате программист видит строку. В этом уроке мы обсудим, как работают такие кодовые таблицы.

4 В самом начале была только<a>ASCII</a>- кодировка, основанная на английском алфавите.

5 В этой кодировке одному символу соответствует 7 бит, всего в ней закодировано 128 символов:

6 <ul><li>95 печатных символов, включая буквы алфавита в верхнем и нижнем регистрах, цифры и знаки препинания</li>

7 <li>33 непечатных символа (управляющих кода)</li>

8 </ul>Большинство непечатных символов сейчас не актуальны, но некоторые по-прежнему используются - например, перевод строки \n.

9 Символы в ASCII можно перекодировать. Например, символ i в нижнем регистре соответствует:

10 <ul><li>Числу 1101001 в двоичной системе счисления</li>

11 <li>Числу 105 в десятичной системе</li>

12 </ul>Поначалу все было хорошо, но с распространением компьютеров возникла потребность в других алфавитах. Каждая страна решала данную проблему созданием собственной кодировки, большинство из которых совместимы с ASCII:

13 <ul><li>Первые 128 символа полностью соответствовали ASCII</li>

14 <li>Остальные 128 - заполнялись локальным алфавитом</li>

15 </ul>В итоге в таких кодировках было 256 символов, а это 2 в 8 степени.

16 Эти кодировки были однобайтовыми - для хранения одного символа требовался один байт. Но внезапно возникла проблема: попытка открыть в редакторе файл в другой кодировке приводила к появлению<a>"кракозябр"</a>:

17 <blockquote>Øèðîêàÿ ýëåêòðèôèêàöèÿ þæíûõ ãóáåðíèé äàñò ìîùíûé òîë÷îê ïîäú¸ìó ñåëüñêîãî õîçÿéñòâà

18 </blockquote>Возникают они потому, что один и тот же код в разных кодировках соответствует совершенно разным символам, за исключением первых 128. Поэтому текст, использующий английские буквы всегда читался, а в остальном - как повезет. Ситуация усугублялась тем, что даже в рамках одного алфавита создавалось множество разных кодировок, например: Windows-1252, KOI8-R, CP 866, ISO 8859-5.

19 В языках программирования на тот момент все функции для работы со строками создавались из расчета, что один символ - это один байт. По крайней мере, это свойство было общим для всех кодировок.

20 Разные кодировки стали причиной постоянных проблем при взаимодействии людей и программ. Особенно остро эта проблема проявилась с развитием интернета. Такая ситуация не могла продолжаться бесконечно, и в конце концов был создан стандартЮникод(Unicode).

21 Сейчас он содержит более 100 тысяч символов и включает в себя все существующие языки, даже мертвые. Стандарт Юникод не является кодировкой и ничего не говорит о том, как должны храниться символы в памяти, он лишь определяет связь между символом и некоторым числом.

22 Конкретный способ кодирования Юникода определяется соответствующими кодировками, среди которых есть UTF-8, UTF-16 и некоторые другие. В этих кодировках для хранения одного символа уже недостаточно одного байта, они используют больше. UTF-8 ведет себя хитрее: для символов английского алфавита и некоторых других используется один байт, для других алфавитов - два байта.

23 После многих лет популяризации Юникода свершилось чудо, и сейчас подавляющее большинство программного обеспечения использует UTF-8. Этот процесс был болезненный и по-разному отразился на языках программирования. Например, в PHP стандартные функции не поддерживают многобайтовые кодировки:

24 Языки разделились на два лагеря. Одни языки встроили поддержку в уже существующие функции - в итоге переход на UTF-8 никак не отразился на процессе программирования. Среди таких языков есть Java, Ruby, JavaScript.

25 А вот PHP пошел своим путем. Для работы с многобайтовыми кодировками в язык добавили отдельное<a>расширение по работе с многобайтовыми строками</a>. По большей части оно добавляет множество функций для работы со строками, с той лишь разницей, что каждая функция из них имеет префикс mb_ (multibyte):

26 А вот достойной альтернативы взятию конкретного символа в строке по индексу не существует. Такую задачу нужно выполнять с помощью функции mb_substr():

27 <h2>Локализация</h2>

28 Глобализация проявляется во многих аспектах, в том числе в единой системе мер: время, размеры и расстояния, температуры, даты и многое другое.

29 Конечно, есть страны, которые выпадают из общего потока. Например, США - это чуть ли не единственная страна, в которой сохраняется и превалирует<a>английская система мер</a>. США использует мили вместо километров и фунты вместо килограммов. Во многих восточных странах по-другому устроены календари, и где-то сейчас идет четырехтысячный год. Но в целом все унифицировано.

30 Несмотря на эту унификацию, в каждой стране есть свои особенности по способу записи, сравнению и другим аспектам. Например, в США принято в датах первым ставить месяц, а вторым - день. В некоторых странах для вывода вещественных чисел используют точку, а в некоторых - запятую: 1,234.

31 Эти особенности необязательно привязаны к целой стране. Внутри одной страны может быть множество дополнительных разделений. Каждый такой набор особенностей называютлокалью, а процесс адаптации к особенностям конкретной локали -локализацией.

32 Локализация важна в программном обеспечении. Пользователь всегда ожидает, что любой софт или сайт будет работать предсказуемо. В это понятие включается и локализация. Понятно, что самостоятельное решение этой задачи слишком затратно. К счастью, этого делать не нужно. Локализация обычно встроена в сам язык или в специальные библиотеки.

33 В PHP для управления локалью используется функция<a>setlocale()</a>. Эта функция настраивает локаль глобально. Ее вызов влияет на все последующие функции, опирающиеся на локализацию:

34 Первым параметром эта функция принимает название категории (как константу), к которой нужно применить локаль, передающуюся в параметрах дальше:

35 <ul><li>LC_ALL - все нижеперечисленное</li>

36 <li>LC_COLLATE - функции сравнения строк strcoll()</li>

37 <li>LC_CTYPE - функции преобразования и классификации строк, например, strtoupper()</li>

38 <li>LC_MONETARY - для функции localeconv()</li>

39 <li>LC_NUMERIC - задает символ десятичного разделения localeconv()</li>

40 <li>LC_TIME - форматирование даты и времени функцией strftime()</li>

41 </ul>Изучим на примере, как установленная локаль влияет на отображение данных:

42 Попробуем вторым аргументом передать 0 вместо локали: setlocale(LC_ALL, 0). В таком случае функция будет возвращать текущую установленную локаль для категории.

43 <h2>Поиск стартовой позиции</h2>

44 Часто в работе со строками нужно определить, является ли одна строкаподстрокой- частью другой строки. В большинстве языков программирования есть встроенная функция, предназначенная именно для этой задачи.

45 В PHP такая функция появилась лишь в восьмой версии. До этого ее имитировали с помощью функции<a>mb_strpos()</a>. Эта функция ищет позицию первого вхождения одной строки в другую. Пока мы будем использовать именно mb_strpos():

46 В примере выше функция вернет 6, что соответствует индексу буквы М:

47 А в этом примере вернется 0, что соответствует первой букве строки. В этом коде скрыта ошибка, которую часто допускают новички. В PHP 0 рассматривается, как false - значит, условие не выполнится. Правильная проверка выглядит так:

48 Функция mb_strpos() возвращает false, если подстрока не была найдена. Значит, можно воспользоваться строгим сравнением с false.