Как видит компьютер

Задумывались ли Вы когда-нибудь, как компьютер находит нужные для обработки объекты из видеопотока? На первый взгляд, это выглядит задачей из разряда высокого программирования с применением огромного количества формул из математического анализа, дискретной математики и т.д., требует огромного количества знаний, чтобы написать хотя бы маленькую программу наподобие Hello, world в мире распознавания образов на видео. А если бы Вам сказали, что на самом деле сейчас осуществить вход в мир компьютерного зрения гораздо проще и после прочтения этой статьи Вы сможете написать свою программу, которая научит Ваш компьютер видеть и детектировать лица? Также в конце статьи Вас ждет бонус, который может повысить безопасность Вашего ПК с помощью компьютерного зрения.

Для того, чтобы Ваш компьютер начал понимать, что Вы ему показываете что-либо похожее на лицо, нам понадобится:

Компьютер;
Web-камера;
Python 3;
Ваш любимый редактор кода (PyCharm, Jupyter и т.д.).

Итак, после того, как Вы собрали всё необходимое по списку выше, мы можем приступить к непосредственному написанию нашей программы для распознавания лиц.

Для начала, качаем необходимые библиотеки Python с помощью команды в Командной строке:

pip install opencv-python; numpy

Коротко о том, зачем они нам нужны:

OpenCV. Эта библиотека основа почти каждого современного проекта по компьютерному зрению. В ней хранятся сотни алгоритмов компьютерного зрения и обработки изображений. Изначально написана на C/C++, но в дальнейшем была переписана и на Python ввиду большой востребованности ее на данном языке.

Numpy. Будет помогать с внутренними вычислениями библиотеки OpenCV.

После окончания установки нужных нам библиотек открываем наш любимый редактор кода и начинаем писать нашу программу:

Присоединяем библиотеку компьютерного зрения OpenCV

import cv2 as cv

2. Захват видеопотока с Web-камеры производим с помощью метода VideoCapture(index), где index порядковый номер нашей Web-камеры в системе. Если камера одна, то параметр будет равен 0.

capture = cv.VideoCapture(0)

3. Для получения видео воспользуемся методом read(), который возвращает нам флаг rtrn -показывает успешность захвата кадра из видеопотока и image кадр нашего видеопотока (numpy-массив). Считывать данные из видеопотока будем непрерывно, пока не будет нажата клавиша Escape.

while True:    rtrn, image = capture.read()    cv.imshow("Capture from Web-camera", image) # Вывод кадра в окно с названием    if cv.waitKey(1) == 27:  # Выход из программы по нажатию Esc        breakcapture.release()cv.destroyAllWindows()

Сохраняем наш файл, запускаем из командной строки с помощью python имя_нашего_файла.py. Теперь наша программа умеет принимать видеопоток с Web-камеры! А это значит, что мы уже на полпути к тому, чтобы компьютер мог распознавать лица.

4. Давайте сделаем так, чтобы наш компьютер также мог записывать видео в файл:

Указываем кодек для сохранения видео, указываем имя для сохраняемого файла, fps и размеры. Для нашей задачи мы берем кодек XVID.

import cv2 as cvcapture = cv.VideoCapture(0)codec = cv.VideoWriter_fourcc(*'XVID')

5. Выводим последовательно кадры в окно video, а после сохраняем результат в переменную output. Затем данные из output, после завершения видеопотока, передадим в файл saved_from_camera.avi:

output = cv.VideoWriter('saved_from_camera.avi ', codec, 25.0, (640, 480))while capture.isOpened():    rtrn, image = capture.read()    if cv.waitKey(1) == 27 or rtrn == False:        break    cv.imshow('video for save', image)    output.write(image)output.release()capture.release()cv.destroyAllWindows()

После того как мы научились брать видео с Web-камеры и сохранять его в файл, то можно приступить к самому интересному распознаванию лиц в видеопотоке. Для нахождения лица на кадрах мы будем использовать так называемые Признаки Хаара. Суть их в том, что если брать прямоугольные области на изображении, то по разности интенсивностей между пикселями смежных прямоугольников можно выделить особенности, присущие лицам.

Например, на изображениях с лицами область вокруг глаз темнее, чем около щек. Поэтому, одним из Признаков Хаара для лиц можно назвать 2 смежных прямоугольника у щек и глаз.

Существует большое количество других, более быстрых и точных методов детекции объектов на изображении, но для понимания общих принципов нам пока будет достаточно знать лишь Признаки Хаара.

Разработчики OpenCV уже провели работы по определению Признаков Хаара и предоставили всем желающим результаты для возможностей обработки видеопотока.

Приступим к написанию детектора лиц с нашей Web-камеры:

6. Первым делом, получим наши Признаки Хаара и определим параметры для захвата видеопотока. Файл с Признаками лежит по пути, где устанавливаются библиотеки Python. По умолчанию, они находятся в папке,

C:/Python3X/Lib/sitepackages/cv2/data/haarcascade_frontalface_default.xml

где X Ваша подверсия Python 3.

import cv2 as cvcascade_of_face = cv.CascadeClassifier('C:/Python3.X/Lib/site-packages/cv2/data/haarcascade_frontalface_default.xml ')capture = cv.VideoCapture(0)capture.set(cv.CAP_PROP_FPS, 25) # Частоту зададим 25 кадров в секунду

7. Далее, в цикле будем поочередно считывать кадры с Web-камеры и передавать его нашему детектору лиц:

while True:    rtrn, image = capture.read()    gr = cv.cvtColor(image, cv.COLOR_BGR2GRAY)    faces_detect = cascade_of_face.detectMultiScale(        image=gr,        minSize=(15, 15),        minNeighbors=10,        scaleFactor=1.2    )    for (x_face, y_face, w_face, h_face) in faces_detect:        cv.rectangle(image, (x_face, y_face), (x_face + w_face, y_face + h_face), (0, 0, 255), 2)    cv.imshow("Image", image)    if cv.waitKey(1) == 27:  # Esc key        breakcapture.release()cv.destroyAllWindows()

8. Теперь объединим всё в одно целое и получим программу, которая захватывает видео с Web-камеры, распознает на нем лица и сохраняет результат в файл:

import cv2 as cvfaceCascade = cv.CascadeClassifier('C:/Users/Zet/Desktop/Python/test_opencv/Lib/site-packages/cv2/data/haarcascade_frontalface_default.xml')capture = cv.VideoCapture(0)capture.set(cv.CAP_PROP_FPS, 25)codec = cv.VideoWriter_fourcc(*'XVID')output = cv.VideoWriter('saved_from_camera.avi', codec, 25.0, (640, 480))while True:    rtrn, image = capture.read()    gr = cv.cvtColor(image, cv.COLOR_BGR2GRAY)    faces_detect = faceCascade.detectMultiScale(        image=gr,        minSize=(15, 15),        minNeighbors=10,        scaleFactor=1.2    )    for (x_face, y_face, w_face, h_face) in faces_detect:        cv.rectangle(image, (x_face, y_face), (x_face + w_face, y_face + h_face), (255, 0, 0), 2)    cv.imshow("Image", image)    output.write(image)    if cv.waitKey(1) == 27:  # Esc key        breakoutput.release()capture.release()cv.destroyAllWindows()

Все! Вы написали программу, которая является первым шагом в понимании того, как видит компьютер. Дальше можно улучшать распознавание лиц, например, чтобы компьютер узнавал определенных людей на видео с помощью обучения нейронных сетей. Также можно написать детектор, настроенный на распознавание более сложных объектов (например, отслеживание дорожного трафика) с возможностью их анализа. А также решать другие, не менее интересные задачи компьютерного зрения.

БОНУС

Применим программу на практике будем отслеживать входы под учетной записью.

1. Зайдем в Планировщик заданий (можно найти через стандартный Поиск Windows);
2. Создадим Простую задачу, дадим ей название и краткое описание;

3. Нажимаем Далее и попадаем в пункт Триггер. Здесь выбираем событие, при котором будет происходить запуск нашего задания. Выбираем При входе в Windows;

4. Далее в действии указываем Запустить программу;

5. В Действии указываем путь до python.exe, а в Параметрах путь до нашей программы:

Готово! В результате, при входе в систему будет записываться лицо вошедшего под учетной записью, а видео будет сохранено. Таким образом, можно отслеживать, кто работал за компьютером в Ваше отсутствие, с сохранением записи доказательств.

Трансформеры за последние несколько лет штурмом захватили мир NLP, а сегодня они с успехом применяются в выходящих за рамки NLP приложениях. Они обладают такими возможностями благодаря модулю внимания, который схватывает отношения между всеми словами последовательностей. Но са

В этой подборке исследуем StoreKit 2, распознаем лица и позы на Android, улучшаем производительность React-приложений, учим сквирклморфизм и многое другое!

Этот дайджест доступен в виде еженедельной

Представьте ситуацию: вам нужно воспользоваться оплаченным (как вы думаете) сервисом и вдруг оказывается, что он отключен за неуплату. Такая неприятность портит впечатление от бренда, снижая поток прибыли, а внезапно отключенный клиент может не вернуться к сервису. К старту ку

Но ученые научились определять, где система дает сбой.

MS TECH | GETTY, UNSPLASH

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и

Для начала хотелось бы упомянуть, что это далеко не первое исследование подобного рода. Начиная с 1960-х готов по настоящее время было разработанно множество программных комплексов и методик, позволяющие решать задачи идентификационного (кем именно была выполнена рукопись, представленная на исследование) и диагностического характера (дифференциации рукописей на мужское и женское, вычисление предполагаемого возраста исполнителя руко

Оракул технологического мира Gartner регулярно и охотно делится с обществом своими наблюдениями относительно текущих трендов. Эксперты компании составили подборку из 10 трендов в сфере данных и аналитики, которые стоит учитывать ИТ-лидерам в 2021 году от искусственного интеллекта до малых д

Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес - проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.

С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта

Задача распознавания семантического следования (textual entailment), или импликации (natural language inference), в текстах на естественном языке состоит в определении того, может ли часть текста (посылка, антецедент) подразумеваться или противоречить (или не противоречить) другому фрагменту текст

Технология распознавания эмоций в речи может может найти применение в огромном количестве задач. В частности, это позволит автоматизировать процесс мониторинга качества обслуживания клиентов call-центров.

Определение эмоций человека по его речи уже относительно насыщенн

Мне давно нравятся Байесовские сети доверия

В этой статье мы рассмотрим, что такое классификатор, поговорим о мультиклассовой классификации с помощью нейронных сетей. Затем, ознакомившись с контекстом перейдем к основному топику поста к Log-Sum-Exp Trick. Напишем формулы и разберемся, как этот трюк помогает избежать переполнения чисел с плавающей то

Меня зовут Денис Власов, я Data Scientist в Учи.ру. С помощью моделей машинного обучения из записей онлайн-уроков мы сделали гифки последовательность из нескольких кадров с наиболее яркими эмоциями учеников. Эти гифки получили их родители в e-mail-рассылке. Вместе с Data Scientist @DariaV Дашей Васюковой расскажем, как без экспертизы в Computer Vision, а только с помощью открытых библиотек и готовых моделей сделать MVP, в ос

Настройка программного обеспечения

Без промедления начнём. Нам нужно установить следующее ПО:

Windows 10
Anaconda 3 (Python 3.8)
Visual Studio 2019 (

Управляемые складки одежды и морщины, фотореалистичные симуляции вождения, естественное освещение объектов при смене фона, китайский аналог DALL-E и многое другое: встречайте подборку самых интересных исследований и нейросетевых моделей, которые появились в прошедшем месяце.

Привет!

Я Жека Никитин, Head of AI в компании Celsus. Больше трех лет мы занимаемся разработкой системы для выявления патологий на медицинских снимках.

Несмотря на то, что медицинским ИИ давно уже никого не удивишь, актуальной и структурированной информации о п

3D сегментация зубов от поиска данных до конечного результата. Почти.

Дисклеймер

Данная статья не является обучающей в любом понимании этого термина и носит сугубо информативный характер. Автор статьи не несет ответственности за время, потраченное на ее чтение.

Об авторе

Добрый - всем, зовут Андрей(27). Постараюсь коротко. Почему программирование? По образованию - бакалавр элект

Некоторое время назад мы искали оптимальное аппаратное и программное обеспечение для исполнения нейронных сетей в ЦОД и "на краю" (edge computing). В рамках нашего исследования мы протестировали множество устройств, от процессоров до встроенной графики iGPU и GPGPU различных производителей. С результатами исследования можно ознакомиться

Привет, Хабр!

Меня зовут Алексей Жуков. Более 10 лет вместе с командой разработчиков я занимаюсь созданием и дизайном приложений и интернет-платформ. В статье хочу поделиться своим видением трендов на рынке видеоконтента. Разберемся в том, что будет после пандемии и что учесть при создании приложения для зумеров.

В 2020 году видеоконтент стал важнейшей частью интернет-потребления. Его популярность отчасти связана с ми

Задумывались ли Вы когда-нибудь, как компьютер находит нужные для обработки объекты из видеопотока? На первый взгляд, это выглядит задачей из разряда высокого программир

Как видит компьютер

Сейчас читают

Искусственный интеллект

Перевод Наглядно о том, почему трансформеры работают настолько хорошо

Дайджест интересных материалов для мобильного разработчика 398 (14 20 июня)

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Перевод ИИ все еще не умеет модерировать хейт-спич

О том как мы научили машину определять пол человека по его почерку

Перевод ТОП-10 трендов в сфере данных и аналитики 2021. Версия Gartner

Машинное обучение

Стоит ли смотреть в сторону Data science?

Перевод Учимся понимать таблицы на меньшем объеме данных

Распознавание эмоций в записях телефонных разговоров

БСД, или как легко объяснить финансистам их же задачи в терминах машинного обучения

Перевод Оптимизация платежей в Dropbox при помощи машинного обучения

Log-Sum-Exp Trick как свойства функций делают работу классификаторов реальной

Computer vision

Как мы построили Computer Vision из подручных материалов, чтобы сделать гифки

Управляем звуком ПК от активности пользователя с помощью Python

Настройка программного обеспечения

Нейродайджест главное из области машинного обучения за май 2021

Разработка Computer Vision в онкологии почему всегда нужно еще больше сил, времени и денег

3D teeth instance segmentation. В темноте, но не один

Дисклеймер

Как мы сделали акселератор инференса нейронных сетей для ЦОД с 64 чипами Intel Movidius

Обработка видео

Разработка приложения для обработки видео на что обратить внимание и при чем тут зумеры

Как видит компьютер

Категории

Последние комментарии

	Русский
	English