Rivalry2

HTML Diff

1 added 1 removed

Original 2026-01-01

Modified 2026-02-21

1 <a>#статьи</a>

2 <ul><li>16 авг 2023</li>

3 <li>0</li>

4 </ul>Рассказываем, как компьютеры анализируют изображения, и учим их распознавать лица.

5 Иллюстрация: Оля Ежак для Skillbox Media

6 Журналист, изучает Python. Любит разбираться в мелочах, общаться с людьми и понимать их.

7 Обучая маленьких детей, родители показывают им книжки с яркими цветными картинками: вот кошечка, вот цветочек, а вот машинка. И дети учатся отличать объекты друг от друга.

8 Компьютеры обучают распознавать изображения похожим образом - только изображений показывают в тысячи раз больше. Эта технология называется компьютерным зрением.к

9 <ul><li><a>Как устроено компьютерное зрение</a></li>

10 <li><a>Что такое OpenCV</a></li>

11 <li><a>Где применяют компьютерное зрение и OpenCV</a></li>

12 <li><a>Как работать с OpenCV в Python</a></li>

13 </ul><ul><li><a>Установка OpenCV</a></li>

14 <li><a>Как OpenCV видит изображения</a></li>

15 <li><a>Чтение, режимы отображения и запись</a></li>

16 <li><a>Изменение цвета пикселей</a></li>

17 <li><a>Изменение размера изображения</a></li>

18 <li><a>Обрезка</a></li>

19 <li><a>Поворот</a></li>

20 </ul><ul><li><a>Примеры скриптов OpenCV</a></li>

21 </ul><ul><li><a>Отображение координат точки</a></li>

22 <li><a>Распознавание лиц</a></li>

23 </ul><ul><li><a>Что дальше</a></li>

24 </ul>Компьютерное зрение - область искусственного интеллекта, связанная с получением, обработкой и анализом визуальной информации: изображений и видео.

25 Разберём определение на примере. Взгляните на эту картинку и опишите, что на ней изображено:

26 Кадр: фильм "Матрица" / Warner Bros.Взгляд сразу выхватывает отдельные объекты. Тёмные очки, в одной линзе отражается человек, ладонь, красная таблетка, в другой - тот же человек, другая ладонь, синяя таблетка.

27 Если человек смотрел "Матрицу", он назовёт фильм, узнает персонажей и, возможно, даже вспомнит имена актёров - в зависимости от того, насколько он любит кинематограф и как много смотрел фильмов.

28 Что на этом изображении увидит программа, зависит от её бэкграунда, то есть от информации, которая у неё есть, и уровня сложности кода:

29 <ul><li>Простенькая программа сможет только распознать, что это файл с расширением .jpg - то есть изображение.</li>

30 <li>Программа посложнее откроет файл и поймёт, что он состоит из набора пикселей разного цвета. Она сможет вывести изображение на экран и, возможно, даже отредактировать: изменит цвет части пикселей на другой, обрежет картинку и так далее.</li>

31 <li>Если программа работает с помощью нейронных сетей, то она проанализирует изображение и извлечёт из него дополнительную информацию, помимо технической: определит, где на картинке очки, руки, таблетки, лица, найдёт похожие изображения, узнает, из какого фильма кадр и какие актёры в нём играют. Это и есть компьютерное зрение. Набор извлечённой информации будет зависеть от того, чему программу учили.</li>

32 </ul>Чтобы программа умела смотреть на изображение не как на набор пикселей, а как на набор известных ей объектов, используютмашинное обучение.

33 Помимо компьютерного зрения, есть такжемашинное зрение. По сути, это то же компьютерное зрение, но применяется оно для решения конкретной прикладной задачи. Например, на производстве ставят камеру, которая следит за качеством продукции на конвейере. Если такая камера увидит брак, то она предупредит об этом человека-оператора - и это единственная её задача. В этом случае компьютерное зрение можно назвать машинным зрением.

34 OpenCV (Open Source Computer Vision Library)- это библиотека с открытым исходным кодом для работы с компьютерным зрением. Изначально она была написана на C++, но адаптирована для использования на Python, С, Java и MATLAB.

35 В OpenCV есть встроенные алгоритмы компьютерного зрения на основе машинного обучения в виде отдельных модулей с разной функциональностью. Вот некоторые из них:

36 <ul><li>Core Functionality(основная функциональность) - определяет основные структуры данных и функции библиотеки, которые используются в других модулях.</li>

37 <li>Image Processing(обработка изображений) - позволяет работать со статичными изображениями: простыми картинками в форматах PNG, JPG и других.</li>

38 <li>Video Analysis(анализ видео) - используется для отслеживания движений объектов и работы с фоном.</li>

39 <li>Camera Calibration and 3D Reconstruction(калибровка камеры и 3D-реконструкция)- работает с геометрией объектов, позволяя создавать их 3D-модели на основе нескольких изображений или видео.</li>

40 <li>2D Features Framework(фреймворк двумерных особенностей) - определяет фрагменты изображения, которые отличаются от других, запоминая их контуры, и может находить похожие среди них.</li>

41 <li>Object Detection(обнаружение объектов) - находит объекты, например лица, автомобили, птиц и другое.</li>

42 <li>High-level GUI(высокоуровневый графический интерфейс) - позволяет рисовать графические интерфейсы для выполнения простых операций.</li>

43 <li>Video I/O(ввод и вывод видео) - позволяет считывать и обрабатывать видеофайлы.</li>

44 </ul>Это только часть модулей OpenCV. Подробнее о них и о других возможностях библиотеки можно прочитать в<a>документации</a>.

45 Компьютерное зрение уже повсюду в нашей жизни: роботы-пылесосы и автомобили объезжают препятствия, а соцсети находят фотографии с вами и спрашивают, вы ли это.

46 Компьютерное зрение используют для решения разных задач.

47 Распознавать текст.Например, чтобы перевести этикетку, можно включить на телефоне приложение-переводчик и навести его на текст. Приложение распознает его и переведёт на нужный язык.

48 Искать по изображениям.Можно сфотографировать незнакомый цветок и узнать его название, загрузив фотографию в поисковик Google или "Яндекс".

49 Модерировать контент.Многие форумы и соцсети анализируют контент и автоматически удаляют его, если он нарушает правила платформы.

50 Использовать биометрию.Чтобы вы могли разблокировать телефон или войти в сервис по отпечатку пальца или лицу, ваши данные обрабатываются алгоритмами компьютерного зрения.

51 Создавать 3D-модели.Компьютерное зрение позволяет на основе нескольких фотографий или видео создать 3D-модель объекта или пространства. Это используется для восстановления облика объектов и ландшафта, а в робототехнике - чтобы робот мог ориентироваться в помещениях.

52 Развивать сельское хозяйство.С помощью компьютерного зрения можно считать поголовье скота и следить за посевами: оценивать их состояние, обнаруживать вредителей и болезни до того, как их заметил бы человек.

53 Управлять производством.Вместо того чтобы полагаться в выполнении рутинных задач на людей, компьютерное зрение может анализировать продукцию и процессы самостоятельно. Например, можно установить камеру, которая будет прямо на конвейере выявлять бракованную продукцию. В отличие от человека, такая система не устанет и не отвлечётся.

54 Для создания систем с компьютерным зрением подходят разные инструменты. Один из самых популярных - OpenCV. Его используют Google, Yahoo, Microsoft, Intel, IBM, Sony, Honda, Toyota и другие технологические компании для решения разнообразных задач.

55 Например, с помощью OpenCV в Китае следят за состоянием оборудования в шахтах, а в Японии распознают лица людей. Написать программу, распознающую лица, вы можете и сами. О том, как сделать это,<a>рассказываем ниже</a>.

56 Библиотека OpenCV бесплатна и доступна для использования в личных, образовательных и коммерческих целях. Рассмотрим её базовые функции на примере Python и в итоге напишем скрипт, распознающий лица людей.

57 Чтобы запустить OpenCV, у вас должен быть установлен поддерживаемый ею язык программирования. В нашем случае это Python. Если у вас он ещё не установлен, можете воспользоваться<a>нашим руководством</a>.

58 Скачать библиотеку можно с помощью инструментов вашей IDE или с помощью командной строки:

59 # Windows pip install opencv-python # macOS brew install opencv3 --with-contrib --with-python3 # Linux sudo apt-get install libopencv-dev python-opencvТеперь можно импортировать модуль и приступать к работе:

60 import cv2Перед тем как переходить к практике, остановимся на том, как OpenCV воспринимает изображения. Библиотека работает с ними как с<a>NumPy-массивами</a>.

61 Если изображение в оттенках серого, то массив этот двумерный. Каждый пиксель в изображении представлен в виде числа 0 до 255, где 0 - чёрный, 255 - белый, а всё остальное - оттенки серого между ними.

62 Каждая пиксельная строка объединена в одномерный массив. Например, [255, 255, 77, 77, 77, 255, 255]. Это строка из семи пикселей: двух белых, трёх серых и ещё двух белых.

63 Каждая такая пиксельная строка объединена в массив второго уровня. Например:

64 [[255, 255, 255, 77, 255, 255, 255], [255, 255, 77, 77, 77, 255, 255], [255, 77, 77, 255, 77, 77, 255], [255, 255, 77, 77, 77, 255, 255] [255, 255, 255, 77, 255, 255, 255]]В итоге получается вот такое изображение, только в 100 раз меньше:

65 Изображение: Skillbox MediaЕсли изображение цветное, то потребуется трёхмерный массив. Цвет каждого пикселя описывает не одно, а сразу три числа от 0 до 255 - в соответствии с <a>моделью RGB</a>. Только красный и синий цвет переставлены местами, так что первое число отвечает за синий цвет, второе - за зелёный, третье - за красный: получается BGR.

66 Вот примеры пикселей разного цвета на языке OpenCV:

67 <ul><li>[0, 0, 0] - чёрный.</li>

68 <li>[255, 255, 255] - белый.</li>

69 <li>[255, 0, 0] - синий.</li>

70 <li>[0, 255, 0] - зелёный.</li>

71 <li>[0, 0, 255] - красный.</li>

72 <li>[0, 255, 255] - жёлтый.</li>

73 <li>[203, 192, 255] - розовый.</li>

74 </ul>Таблицу распространённых цветов в RGB можно посмотреть<a>здесь</a>. Только помните, что в OpenCV первый и третий цвета переставлены местами.

75 Как и в случае с изображениями в оттенках серого, массив следующего уровня объединяет строки пикселей, а верхнеуровневый массив - всё изображение.

76 Вот так в OpenCV будет выглядеть массив для изображения из девяти цветных пикселей:

77 [[[0, 0, 255], [0, 255, 255], [0, 255, 0]], [[0, 0, 0], [203, 192, 255], [255, 255, 255]], [[164, 73, 163], [255, 0, 0], [127, 127, 127]]]И само изображение, увеличенное для удобства:

78 Изображение: Skillbox MediaСкачаем любое изображение (желательно яркое и контрастное) и откроем его в нашем коде.

79 Например, вот такое изображение:

80 Изображение: OpenCVПрочитайте изображение и откройте его в отдельном окне:

81 image = cv2.imread('logo.jpg') cv2.imshow('logo', image) cv2.waitKey(0)<ul><li>cv2.imread - "читает" изображение и возвращает NumPy-массив, с которым библиотека может работать. В качестве аргумента получает полный или относительный путь к изображению.</li>

82 <li>cv2.imshow - открывает изображение в отдельном окне операционной системы. Первым аргументом получает название окна, вторым - NumPy-массив, в нашем случае он хранится в переменной image.</li>

83 <li>cv2.waitKey - если не указать эту функцию, то открытое окно тут же закроется. В качестве аргумента получает кнопку, которую нужно нажать, чтобы закрыть окно. Если указать 0, то окно закроется при нажатии любой кнопки.</li>

84 </ul>Можно передать функции cv2.imread необязательный второй аргумент и выбрать режим отображения:

85 <ul><li>cv2.IMREAD_COLOR (по умолчанию) - цветное отображение в формате RGB.</li>

86 <li>cv2.IMREAD_GRAYSCALE - отображение в оттенках серого.</li>

87 </ul>Таким образом, функцию cv2.imread можно использовать, чтобы обесцветить цветное изображение:

88 gray_image = cv2.imread('logo.jpg', cv2.IMREAD_GRAYSCALE) cv2.imshow('logo', gray_image) cv2.waitKey(0)Вот что получится:

89 Изображение: Skillbox MediaЧтобы сохранить новое изображение в отдельный файл, используйте функцию cv2.imwrite:

90 cv2.imwrite('gray_logo.jpg', gray_image)Первым аргументом функция принимает название нового файла с картинкой, вторым - NumPy-массив с данными изображения.

91 OpenCV позволяет обращаться к пикселям по их записи в NumPy-массиве. Так мы можем менять изображение.

92 Для началаполучим доступ к пикселю. Для этого обратимся к нему по координатам. Сначала указываем координаты ширины, потом - высоты. Например:

93 blue, green, red = image[10, 350] print(f'RGB-код пикселя: {red}, {green}, {blue}') >>> RGB-код пикселя: 249, 7, 6Теперьизменим цвет пикселя. Для этого обратитесь к нему по координатам и сделайте его синим. Помните, что синий и красный переставлены местами:

94 image[0, 0] = [255, 0, 0]Если открыть изменённое изображение, то в правом верхнем углу вы увидите чёрную точку размером с один пиксель.

95 При ручной замене полезно знать размеры изображения. Для этого воспользуйтесь функцией image.shape:

96 <ul><li>image.shape[0] - высота изображения в пикселях.</li>

97 <li>image.shape[1] - ширина изображения в пикселях.</li>

98 </ul>Используя циклы, можно изменять цвет сразу множества пикселей. Например, нарисовать для картинки чёрную рамку шириной 10 пикселей.

99 Внешние циклы перебирают каждый пиксель по горизонтали (первый) и вертикали (второй), а внутренние циклы идут от краёв к центру изображения и на каждом витке перекрашивают в чёрный по пикселю.

100 import cv2 image = cv2.imread('logo.jpg') # рисуем верхнюю и нижнюю линии width = image.shape[1] for width_coordinate in range(width): for frame_coordinate in range(0, 10): image[frame_coordinate, width_coordinate] = [0, 0, 0] image[-frame_coordinate, width_coordinate] = [0, 0, 0] # рисуем правую и левую линии height = image.shape[0] for height_coordinate in range(height): for frame_coordinate in range(0, 10): image[height_coordinate, frame_coordinate] = [0, 0, 0] image[height_coordinate, -frame_coordinate] = [0, 0, 0] # создаём новое окно с изменённым изображением cv2.imshow('logo', image) cv2.waitKey(0)В итоге получается такое изображение:

101 Изображение: Skillbox MediaЧтобы изменить размер изображения, используйте функцию cv2.resize. Уменьшим нашу картинку в два раза:

102 reduced_image = cv2.resize(image, (399, 368), cv2.INTER_AREA)<ul><li>image - NumPy-массив изображения, размер которого мы изменяем.</li>

103 <li>(399, 368) - ширина и высота нового изображения.</li>

104 <li>cv2.INTER_AREA - метод интерполяции, то есть алгоритм, по которому OpenVC выбирает, в какие цвета красить пиксели.</li>

105 </ul>Есть несколько методов интерполяции, но в большинстве случаев достаточно двух из них:

106 <ul><li>cv2.INTER_LINEAR - для увеличения изображения. Используется по умолчанию, если не указано иное.</li>

107 <li>cv2.INTER_AREA - для уменьшения картинки.</li>

108 </ul>Чтобы сохранять пропорции изображения и каждый раз не высчитывать их вручную, используйте данные, полученные с помощью метода shape:

109 height = image.shape[0] width = image.shape[1] reduced_image = cv2.resize(image, (int(width/2), int(height/2)), cv2.INTER_AREA)В обоих случаях результат одинаковый:

110 Изображение: Skillbox MediaЧтобы обрезать изображение, укажите диапазоны координат, в которых хотите оставить изображение, - сначала высоту, потом ширину. Например:

111 cropped_image = image[0:368, 200:600]Изображение: Skillbox MediaЧтобы повернуть картинку, используйте сразу две функции:

112 matrix = cv2.getRotationMatrix2D((399, 368), 60, 0.8) rotated_image = cv2.warpAffine(image, matrix, (image.shape[1], image.shape[0]))Функция cv2.getRotationMatrix2D задаёт матрицу, по которой будет повёрнуто изображение. Она получает следующие аргументы:

113 <ul><li>(399, 368) - координаты точки, вокруг которой происходит поворот.</li>

114 <li>60 - угол поворота в градусах.</li>

115 <li>0.8 - коэффициент масштабирования. В нашем случае мы уменьшаем изображение, чтобы части логотипа не вышли за край.</li>

116 </ul>Функция cv2.warpAffine непосредственно поворачивает изображение. Она получает следующие аргументы:

117 <ul><li>image - само изображение.</li>

118 <li>matrix - матрица, созданная функцией cv2.getRotationMatrix2D.</li>

119 <li>(image.shape[1], image.shape[0]) - размеры итогового изображения. В нашем случае мы оставляем те же, что были.</li>

120 </ul>Изображение: Skillbox MediaНапишем пару простых скриптов для работы с изображениями, используя библиотеку OpenCV для Python.

121 OpenCV умеет работать с нажатиями на открытое в окне изображение. Сделаем так, чтобы при нажатии на картинку программа выводила в терминал координаты точки и её цветовой код в формате BGR.

122 Дополнительно будем рисовать данные о точке, на которую нажали, прямо на изображении. Если нажали левую кнопку мыши - координаты, если правую - BGR-код.

123 Напишите функцию click_event, которая будет реагировать на нажатие на картинку:

124 def click_event(event, x, y, flags, params): # если нажата левая кнопка мыши if event == cv2.EVENT_LBUTTONDOWN: pass # заглушка вместо будущего кода # если нажата правая кнопка мыши if event == cv2.EVENT_RBUTTONDOWN: pass # заглушка вместо будущего кодаФункция click_event принимает пять аргументов:

125 <ul><li>event - произошедшее событие (в нашем случае нажатие кнопки мыши).</li>

126 <li>x и y - координаты точки, на которую нажали.</li>

127 <li>flags и params - служебные аргументы, нужные методу, с помощью которого мы будем вызывать эту функцию.</li>

128 </ul>При нажатии любой кнопки мыши мы хотим выводить в терминал координаты и BGR-код точки. Пропишите это:

129 def click_event(event, x, y, flags, params): # если нажата левая кнопка мыши if event == cv2.EVENT_LBUTTONDOWN: # узнаём BGR-код точки и сохраняем в переменные b = img[y, x, 0] g = img[y, x, 1] r = img[y, x, 2] # выводим координаты и BGR-код точки в терминал print(f'Координаты точки: {x}, {y}') print(f'BGR-код точки: {b}, {g}, {r}\n') # если нажата правая кнопка мыши if event == cv2.EVENT_RBUTTONDOWN: # узнаём BGR-код точки и сохраняем в переменные b = img[y, x, 0] g = img[y, x, 1] r = img[y, x, 2] # выводим координаты и BGR-код точки в терминал print(f'Координаты точки: {x}, {y}') print(f'BGR-код точки: {b}, {g}, {r}\n')Дополните первое условие кодом, который будет рисовать координаты точки прямо на изображении, если нажата левая кнопка мыши:

130 # устанавливаем шрифт, которым будем писать надпись font = cv2.FONT_HERSHEY_SIMPLEX # пишем надпись cv2.putText(img, f'{x}, {y}', (x, y), font, 1, (0, 0, 0), 2) # отображаем изменённое изображение cv2.imshow('image', img)Функция cv2.putText принимает следующие аргументы:

131 <ul><li>img - изображение, на которое добавляется надпись.</li>

132 <li>f'{x}, {y}' - надпись, которая добавляется на изображение.</li>

133 <li>(x, y) - координаты точки, из которой выходит надпись.</li>

134 <li>font - шрифт надписи.</li>

135 <li>1 - масштабирование размера текста.</li>

136 <li>(0, 0, 0) - цвет текста.</li>

137 <li>2 - толщина линий.</li>

138 </ul>По аналогии дополните второе условие кодом, который будет рисовать на изображении BGR-код, если нажата правая кнопка мыши:

139 # устанавливаем шрифт, которым будем писать надпись font = cv2.FONT_HERSHEY_SIMPLEX # пишем надпись cv2.putText(img, f'{b}, {g}, {r}', (x, y), font, 1, (0, 0, 0), 2) # отображаем изменённое изображение cv2.imshow('image', img)Наша функция готова. Остаётся только передать изображение и воспользоваться встроенной OpenCV-функцией cv2.setMouseCallback:

140 if __name__ == "__main__": img = cv2.imread('logo.jpg', 1) cv2.imshow('image', img) # устанавливаем реакцию на действия мыши и вызываем функцию click_event cv2.setMouseCallback('image', click_event) cv2.waitKey(0)Итоговый код:

141 - import cv2 # функция реакции на нажатие левой или правой кнопки мыши def click_event(event, x, y, flags, params): # если нажата левая кнопка мыши if event == cv2.EVENT_LBUTTONDOWN: # выводим координаты и BGR-код точки в терминал print(f'Координаты точки: {x}, {y}') b = img[y, x, 0] g = img[y, x, 1] r = img[y, x, 2] print(f'BGR-код точки: {b}, {g}, {r}\n') # рисуем координаты точки на изображении font = cv2.FONT_HERSHEY_SIMPLEX cv2.putText(img, f'{x}, {y}', (x, y), font, 1, (0, 0, 0), 2) cv2.imshow('image', img) # если нажата правая кнопка мыши if event == cv2.EVENT_RBUTTONDOWN: # узнаём BGR-код точки и сохраняем в переменные b = img[y, x, 0] g = img[y, x, 1] r = img[y, x, 2] # выводим координаты и BGR-код точки в терминал print(f'Координаты точки: {x}, {y}') print(f'BGR-код точки: {b}, {g}, {r}\n') # рисуем BGR-код точки на изображении font = cv2.FONT_HERSHEY_SIMPLEX cv2.putText(img, f'{b}, {g}, {r}', (x, y), font, 1, (0, 0, 0), 2) cv2.imshow('image', img) # основной сценарий if __name__ == "__main__": img = cv2.imread('logo.jpg', 1) cv2.imshow('image', img) # устанавливаем реакцию на действия мыши и вызываем функцию click_event cv2.setMouseCallback('image', click_event) cv2.waitKey(0)Опробуйте код. Откройте изображение, нажмите правой кнопкой мыши на каждую из фигур и левой - на пространство между ними. Получится вот такой результа��:

141 + import cv2 # функция реакции на нажатие левой или правой кнопки мыши def click_event(event, x, y, flags, params): # если нажата левая кнопка мыши if event == cv2.EVENT_LBUTTONDOWN: # выводим координаты и BGR-код точки в терминал print(f'Координаты точки: {x}, {y}') b = img[y, x, 0] g = img[y, x, 1] r = img[y, x, 2] print(f'BGR-код точки: {b}, {g}, {r}\n') # рисуем координаты точки на изображении font = cv2.FONT_HERSHEY_SIMPLEX cv2.putText(img, f'{x}, {y}', (x, y), font, 1, (0, 0, 0), 2) cv2.imshow('image', img) # если нажата правая кнопка мыши if event == cv2.EVENT_RBUTTONDOWN: # узнаём BGR-код точки и сохраняем в переменные b = img[y, x, 0] g = img[y, x, 1] r = img[y, x, 2] # выводим координаты и BGR-код точки в терминал print(f'Координаты точки: {x}, {y}') print(f'BGR-код точки: {b}, {g}, {r}\n') # рисуем BGR-код точки на изображении font = cv2.FONT_HERSHEY_SIMPLEX cv2.putText(img, f'{b}, {g}, {r}', (x, y), font, 1, (0, 0, 0), 2) cv2.imshow('image', img) # основной сценарий if __name__ == "__main__": img = cv2.imread('logo.jpg', 1) cv2.imshow('image', img) # устанавливаем реакцию на действия мыши и вызываем функцию click_event cv2.setMouseCallback('image', click_event) cv2.waitKey(0)Опробуйте код. Откройте изображение, нажмите правой кнопкой мыши на каждую из фигур и левой - на пространство между ними. Получится вот такой результат:

142 Изображение: Skillbox MediaПри этом в терминале выводится следующий текст:

143 >>> Координаты точки: 383, 68 >>> BGR-код точки: 1, 1, 255 >>> Координаты точки: 68, 494 >>> BGR-код точки: 1, 255, 1 >>> Координаты точки: 579, 665 >>> BGR-код точки: 255, 1, 1 >>> Координаты точки: 381, 393 >>> BGR-код точки: 255, 255, 255В OpenCV есть и более "умные" инструменты, использующие машинное обучение. Один из них -<a>модель Haar</a>, которая умеет распознавать лица.

144 Чтобы воспользоваться ей, скачайте<a>файл haarcascade_frontalface_default.xml</a>, выложенный OpenCV на GitHub.

145 Также вам понадобится любое изображение с лицами людей. Мы воспользуемся кадром из "Матрицы", который уже показывали в начале этой статьи.

146 Кадр: фильм "Матрица" / Warner Bros.Сохраните эти файлы в папку с вашим скриптом, и тогда к ним можно будет обращаться по имени.

147 Импортируйте OpenCV и создайте по переменной для модели Haar и изображения:

148 import cv2 # создаём переменную с файлом модели face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_default.xml') # читаем изображение image = cv2.imread('matrix.jpg')При работе с распознаванием и сравнением объектов используют обесцвеченные версии изображений. Обесцветим и наше:

149 gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)Чтобы обнаружить на картинке лица, используйте метод detectMultiScale, который применим к модели Haar.

150 faces = face_cascade.detectMultiScale(gray_image, scaleFactor=1.1, minNeighbors=5)Мы передаём методу следующие аргументы:

151 <ul><li>gray_image - обесцвеченное изображение;</li>

152 <li>scaleFactor=1.1 - шаг масштабирования изображения. Дело в том, что в модели хранятся данные о лицах определённого размера. Если лица на изображении больше или меньше, то алгоритм не обнаружит их. Поэтому при анализе размер изображения меняется: чтобы лица на нём в какой-то момент стали того же размера, что и в модели. Чем меньше scaleFactor, тем точнее распознавание, но тем медленнее оно работает;</li>

153 <li>minNeighbors=5 - какое минимальное число совпадений с моделью должно быть на изображении, чтобы признать объект лицом. Чем больше этот аргумент, тем меньше лиц алгоритм будет обнаруживать, но вместе с тем уменьшается шанс принять за лицо какой-либо другой объект.</li>

154 </ul>Метод detectMultiScale возвращает координаты полученных объектов. Используйте эти координаты и функцию cv2.rectangle, чтобы нарисовать вокруг лиц квадраты:

155 or (x, y, w, h) in faces: cv2.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2)В переменной faces хранится список из четырёх элементов. Каждый из них - список с данными всех найденных объектов:

156 <ul><li>x - координаты верхнего левого угла объекта по горизонтали.</li>

157 <li>y - координаты верхнего левого угла объекта по вертикали.</li>

158 <li>w - ширина объекта.</li>

159 <li>h - высота объекта.</li>

160 </ul>Функция cv2.rectangle получает следующие аргументы:

161 <ul><li>image - цветное изображение, на котором мы рисуем квадрат.</li>

162 <li>(x, y) - координаты верхнего левого угла квадрата.</li>

163 <li>(x+w, y+h) - координаты нижнего правого угла квадрата.</li>

164 <li>(0, 0, 255) - цвет квадрата в формате BGR.</li>

165 <li>2 - толщина линии квадрата в пикселях.</li>

166 </ul>Посмотрим на получившееся изображение:

167 cv2.imshow('found_faces', image) cv2.waitKey(0)Итоговый код:

168 import cv2 # создаём переменную с файлом модели face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_default.xml') # читаем изображение image = cv2.imread('matrix.jpg') # обесцвечиваем изображение gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) # находим лица на обесцвеченном изображении faces = face_cascade.detectMultiScale(gray_image, scaleFactor=1.1, minNeighbors=5) # на цветном изображении рисуем квадраты там, где нашли лица на обесцвеченном for (x, y, w, h) in faces: cv2.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2) # открываем изображение в отдельном окне cv2.imshow('found_faces', image) cv2.waitKey(0)Результат:

169 Тук-тук, НеоКадр: фильм "Матрица" / Warner Bros.Всё получилось - лица в отражении обведены рамками.

170 <a>Курс с трудоустройством: "Профессия Data scientist + ИИ" Узнать о курсе</a>