Как работает технология распознавания лиц в смартфоне? Как технология распознавания лица помогает бизнесу и спецслужбам Метод гибкого сравнения на графах распознавание лиц

Юбилейный iPhone X получил одну из самых неординарных фишек среди конкурентов. Флагман умеет распознавать лицо владельца, а вместо Touch ID и кнопки «Домой» инженеры интегрировали камеру TrueDepth и функцию Face ID.

Быстро, моментально и без необходимости вводить пароли. Так можно разблокировать iPhone X уже сегодня.

Apple известна тем, что всегда смотрит в технологическое будущее намного раньше, чем очередная функция становится стандартом. В случае с iPhone X и сканером лица компания уверена, что за распознаванием лиц будущее.

Разберемся, заблуждается ли Apple или наши лица – это верный пропуск в цифровое будущее.

😎 Рубрика «Технологии» выходит каждую неделю при поддержке re:Store .

Так как работает распознавание лиц?

Для работы технологии распознавания лиц нужно несколько составляющих. Во-первых, сам сервер, на котором будет храниться и база данных, и подготовленный алгоритм сравнения.

Во-вторых, продуманная и натренированная нейросеть, которой скормили миллионы снимков с пометками. Обучают такие сети просто. Загружают снимок и представляют его системе: «Это Виктор Иванов», затем следующий.

Нейронная сеть самостоятельно распределяет векторы признаков и находит геометрические закономерности лица таким образом, чтобы затем самостоятельно узнать Виктора из тысяч других фотографий.

В той же технологии FaceN, о которой мы поговорим ниже, используется около 80 различных числовых признаков-характеристик.

Почему про распознавание лиц внезапно заговорили?

В середине 2016 года интернет буквально взорвало приложение и одноименный . Используя нейронные сети, разработчики сумели воплотить в жизнь самую смелую мечту пользователей социальных сетей.

Увидев человека на улице, вы могли сфотографировать его на смартфон, отправить фото в FindFace, и через несколько секунд найти его страничку во «ВКонтакте». Алгоритм совершенствовался, допиливался и все лучше и лучше распознавал лица.

А начиналось все с распознавания пород собак по фотографии. Автор технологии распознавания FaceN и приложения Magic Dog, Артем Кухаренко. Парень быстро смекнул, что за этой технологией будущее и приступил к разработке.

После успеха приложения FindFace, основатель компании-разработчика N-Tech.Lab Кухаренко в очередной раз убедился в том, что распознавание лиц интересно практически в любой отрасли:

  • пограничные службы
  • казино
  • аэропорты
  • любые места скопления людей
  • маркеты
  • парки развлечений
  • спецслужбы
  • В мае 2016 года N-Tech.Lab приступило к тестированию сервиса совместно с правительством Москвы. По всей территории столицы разместили десятки тысяч камер, которые в режиме реального времени опознавали прохожих.

    Трустори. Вы просто проходите по двору, в котором установлена подобная камера. К ней подключена база преступников и пропавших людей. В случае, если алгоритм определяет, что вы схожи с подозреваемым, сотрудник полиции тут же получает предупреждение.

    Разумеется, человека тут же можно найти в социальной сети и пробить по любым базам. А теперь представьте, что такие камеры установлены по периметру всего города. Скрыться злоумышленнику не удастся. Камеры есть везде: во дворах, на подъездах, на трассах.

    А как дела с распознаванием лиц в России

    Вы удивитесь, но с середины 2016 года градоначальники Москвы активно внедряют систему распознавания лиц по всей территории города.

    На сегодняшний день только на подъездах московских многоэтажек установлено более 100 тысяч камер , умеющих распознавать лица. Более 25 тысяч установлены во дворах. Разумеется, точные цифры засекречены, но можете сомневаться – активный контроль распространяется быстрее, чем вы можете себе представить.

    В столице системы распознавания лиц устанавливаются повсеместно: от площадей и мест большого скопления людей, до общественного транспорта. Со дня установки систем удалось задержать более десяти преступников, но это только по официальным данным.

    Все камеры постоянно обмениваются информацией с Единым вычислительным центром Департамента информационных технологий. Подозрительные оповещения тут же проверяются правоохранительными органами.

    И это только начало. В конце прошлого года аналогичную систему контроля стали тестировать и на улицах Санкт-Петербурга. Удобство предложенной FindN технологии в том, что вовсе необязательно устанавливать какие-то специальные камеры.

    Изображение со стандартных камер видеонаблюдения поступает на обработку «умному» алгоритму и настоящая магия происходит уже там. По актуальным данным точность распознавания FindFace сегодня варьируется в пределах 73% – 75%. Разработчики уверены, что смогут добиться результата в 100% уже в ближайшее время.

    Как вообще появилось распознавание лиц?

    Изначально любой тип биометрической идентификации использовался исключительно внутри правоохранительных органов и служб, где безопасность в приоритете. Буквально за несколько лет измерение анатомических и физиологических характеристик для идентификации личности стало стандартом практически во всех потребительских гаджетах.

    Типов биометрической аутентификации масса:

  • по ДНК
  • по радужной оболочке глаза
  • по ладони
  • по голосу
  • по отпечатку пальца
  • по лицу
  • И именно последняя технология особенно интересна, поскольку имеет сразу несколько преимуществ перед другими.

    Прообразом технологии распознавания лиц в XIX веке служили сперва «портреты по описанию», а позже – фотографии. Так полиция могла идентифицировать преступников. В 1965 году специально для правительства США была разработана полуавтоматическая система распознавания лиц. В 1971 к технологии вернутся, обозначив основные маркеры, необходимые для распознавания лиц, но ненадолго.

    С тех пор в качестве главного биометрического идентификатора спецслужбы все же предподчитают проверенную технологию снятия отпечатков пальцев.

    А все потому, что технологии не позволяли как-либо взаимодействовать с чертами лица человека. Ультраточных лазеров, инфракрасных датчиков и мощных процессоров, как и самих систем распознавания, на тот момент не было.

    С появлением мощных компьютеров, практически все ведомства возвращаются к идентификации посредством сканирования лица. Бум на технологию в ведомствах и спецучреждениях приходится на середину 2000-х годов, а в прошлом году технология стала впервые использоваться и в потребительских устройствах.

    Где сегодня используют технологию распознавания лиц

    В смартфонах

    Популяризация технологии распознавания лиц началась с флагмана Apple. iPhone X задал тренд на последующие годы и OEM-производители активно приступили к интеграции аналогов Face ID в свои устройства.

    В банках

    Биометрическое распознавание лиц уже не первый год используется в США. Теперь же технология добралась и до России. Только за 2017 год благодаря внедрению данной системы удалось предотвратить более 10 тысяч мошеннических сделок и сохранить сумму в размере 1,5 млрд рублей.

    Распознавание лиц используется для идентификации клиента и принятия решения по возможности выдачи кредита.

    В магазинах

    Сегмент ритейла используют технологию по-своему. Так, если вы покупали какую-либо бытовую технику в магазине, а спустя какое-то время вернулись в него за очередными покупками, система распознавания лиц тут же идентифицирует вас еще на входе. Продавец тут же получит информацию из базы и узнает не только ваше имя, но и историю покупок. Дальнейшее поведение продавца предугадать несложно.

    В жизни городов

    Это именно то, ради чего разрабатывается и развивается технология. От стадионов до кинотеатров – везде, где огромное количество людей, идентификация особо важна. Сегодня технология распознавания лиц позволяет предотвратить массовые беспорядки и террористические акты.

    Какие компании интересуются распознаванием лиц

    Google, Facebook, Apple и прочие IT-гиганты сейчас занимаются активной скупкой проектов от разработчиков, занимающихся распознаванием лиц. Все они видят в технологии огромный потенциал.

    Это лишь часть официально анонсированных сделок. На деле их намного больше. Помимо интеграции Face ID и аналогов технологии в смартфоны, у ведущих IT-компаний намного большие виды на использование распознавания лиц.

    Как будет выглядеть будущее с распознаванием лиц

    С тем, какие преимущества открывает технология сканирования лица в смартфонах и электронных устройствах, мы уже разобрались, то давайте заглянем в недалекое будущее и представим один день из жизни человека, который попал в город, где повсеместно установлены камера распознавания лиц.

    Доброе утро! Улыбочку, на вас смотрит система «умный» дом. Мда, хозяин, выпито вчера было немало – по лицу вижу, с трудом опознала. Так, рядом супруга, в прихожей доедает вечерний корм Барсик. Посторонних нет. Замечательно.

    Один взгляд на кофеварку на расстоянии «чуть ближе обычного» и ваш американо средней крепости со слегка теплым молоком готовится. Оп, кто-то у дверей! Ах, это же любимая теща. Проходите, для вас дверь открыта – ваше лицо не забудет ни одна система распознавания в мире.

    Вы собрались и подходите к лифту. Нет-нет, это система распознавания уже в курсе, что вы предпочитаете садится в крайний лифт, поэтому он уже вызван.

    Завидев вас издалека, 500-сильный электрокар автоматически подстроил вылет руля и подкорректировал положение кресла. Дверь открыта – присаживайтесь.

    Пока производители систем автопилота безуспешно пытаются убедить законодательство в необходимости внедрения беспилотных автомобилей, старайтесь не нарушать ПДД. Камеры наблюдения повсюду, а оплата штрафа неизбежна. Ведь за рулем точно вы, и, как только вы вдавите педаль акселератора в пол, с вашей банковской карты спишется штраф за превышение скорости.

    Наконец, мы у здания офиса той самой компании, которая занимается внедрением технологии распознавания лиц в инфраструктуру городов России. Да, это ваша работа. Контроль жесткий, но вам не стоит переживать – пока вы парковали машину, камеры уже узнали вас.

    Работать стало сложнее: по всему периметру офиса камеры распознавания, которые «видят» кто и чем занимается, а заодно умеют читать эмоции. Короче, валять дурака на рабочем месте не выйдет.

    Открыл новую эпоху. Технология распознавания лиц - основная его «фишка». И никто не сомневается в том, что такой способ разблокировки будет внедряться и во многие другие смартфоны.

    Ещё в 1960-ых годах проводились специальные опыты, в ходе которых компьютер должен был научиться распознавать лицо человека. Тогда это ни к чему не привело, так как любая эмоция приводила к сбою. Также изобретенная система боялась изменения условий освещения.

    Лишь в самом конце XX века появились системы, которые научились определять лица людей по фотографиям, запоминая их. При этом они перестали сбоить при появлении усов, бороды, очков и прочих «помех». Активнее всего подобные системы начали внедряться в цифровые фотоаппараты. Также они нашли себе место в охранном секторе.

    У систем распознавания лиц долгое время был один существенный недостаток. Они сильно зависели от освещения и ракурса. Впрочем, в охранных сканерах эта проблема не была заметна. К ним лицо прикладывалось почти вплотную, освещаясь затем лампами. Избавиться же от вышеупомянутого недостатка помогло внедрение стереосъемки. Две камеры понимают глубину сцены, в связи с чем точность показаний вырастает в несколько раз.

    Как работает технология распознавания лиц?

    Постепенно новая функция начала появляться в смартфонах. Здесь биометрическая идентификация пользователя внедряется для того, чтобы разблокировать устройство не мог посторонний человек. В идеале получить доступ к персональной информации может только близнец. Переживать по этому поводу не стоит. Вряд ли кто-то будет всерьез скрывать что-то от родного брата или сестры. Да и никто не мешает установить для чтения каких-то особо секретных данных дополнительный пароль.

    Работу системы распознавания лиц в смартфонах можно условно разделить на четыре этапа:

    1. Сканирование лица. Оно осуществляется при помощи фронтальной камеры или, как в случае с iPhone X, специального сенсора. Сканирование является трехмерным, поэтому фокус с показом фотографии срабатывать не будет.
    2. Извлечение уникальных данных. Система ориентируется на набор особенностей сканируемого лица. Чаще всего это контуры глазниц, форма скул и ширина носа. В продвинутых системах также могут «замечаться» шрамы.
    3. Извлечение из памяти шаблона с ранее полученными данными.
    4. Поиск соответствий. Финальный этап, на котором система решает, разблокировать ли дисплей. Мощности современных процессоров позволяют тратить на «размышление» всего доли секунды.

    Функция распознавания лиц может быть реализована даже при помощи фронтальной камеры - лишь бы она имела два объектива. Однако в таком случае работа данной функции окажется нестабильной. Дело в том, что лишь специальные датчики обеспечат сканирование лица даже в темноте, тогда как «фронталке» требуется яркое освещение. Также особые датчики виртуально выводят на лицо большее количество точек, поэтому они срабатывают даже при появлении бороды, очков и других помех. Словом, в каком-нибудь DOOGEE Mix 2 система точно будет работать заметно хуже, чем в iPhone X. Другое дело - юбилейный продукт Apple стоит гораздо дороже, чем все остальные смартфоны с функцией распознавания лица.

    За технологией будущее?

    Нужные для сканирования лица датчики требуют идеальной установки. Сдвиг на сотые доли миллиметра приведет к тому, что работа функции перестанет быть идеальной - поэтому при производстве смартфона может наблюдаться повышенный выход брака, а это приводит к росту его стоимости. Да и сами датчики стоят весьма дорого, неспроста их использует только компания Apple, хотя никаких патентов на них у неё нет.

    Одним словом, пока функцию распознавания лиц производители «андроидов» будут реализовывать посредством фронтальной камеры. Уже сейчас её можно встретить в Samsung Galaxy S8 и Note 8. Но владельцы этих устройств подтвердят вам, что работает она не лучшим образом - легче использовать сканер отпечатков пальцев . Поэтому пока о будущем функции ничего сказать нельзя. Нужно ждать, будет ли Apple внедрять соответствующие датчики в более доступные смартфоны, а также появятся ли они в устройствах на базе Android.

    Заключение

    Переживать по поводу сохранения ваших идентификационных данных не стоит. Созданный при сканировании лица шаблон находится в отдельном разделе памяти - чтение этого сектора компьютером или сторонними программами невозможно. Впрочем, это касается и отпечатков пальцев. А каким видом идентификации пользоваться удобнее - это выбирать только вам.

    Держали ли вы когда-нибудь в руках смартфон, умеющий распознавать лицо? И ждете ли вы массового внедрения данной функции? Поделитесь своим мнением в комментариях, мы будем этому рады!

      Что говорить, если в одной только Москве уже работает сеть из более 150 000 камер наружного видеонаблюдения. От них никуда не скрыться, и это заставляет людей задумываться, но масштабы «слежки» не настолько велики. Сеть использует мощную систему распознавания лиц, но для ее работы необходимо много энергии, поэтому в режиме реального времени работают всего 2-4 тысячи камер. Массовым слежением за населением пока только пугают, поэтому стоит сосредоточиться на реальных плюсах работы данной технологии. Но обо всем по порядку.

      Как работает система распознавания лиц?

      Никогда не задумывались о том, как вы сами узнаете лицо, распознаете его? А как это делает компьютер? Конечно, у человеческих лиц есть определенные свойства, которые легко описать. Расстояние между глазами, положение и ширина носа, форма надбровных дуг и подбородка - все эти детали вы подмечаете бессознательно, когда смотрите на другого человека. Компьютер же делает все это с определенной эффективностью и точностью, потому что, совмещая все эти метрики, получает математическую формулу человеческого лица.

      Итак, насколько хорошо работает система распознавания лиц в настоящее время? Вполне неплохо, но иногда ошибается. Если вы когда-нибудь сталкивались с ПО, распознающим лица на Facebook или на другой платформе, вы наверняка замечали, что забавных результатов бывает столько же, сколько и точных. И все же, хотя технология работает не со 100-процентной точностью, она достаточно хороша, чтобы найти широкое применение. И даже заставить понервничать.

      Пол Хоуи из NEC говорит, что их система распознавания лиц сканирует лица на предмет индивидуальных идентификаторов:

      «К примеру, многие считают расстояние между глазами уникальной характеристикой. Или же это может быть расстояние от подбородка до лба и другие компоненты. Мы, в частности, учитываем 15-20 факторов, которые считаются важными, а также другие факторы, уже не настолько значимые. Создается трехмерное изображение головы человека, поэтому даже если она частично будет закрыта, мы все равно сможем получить точное соответствие. Затем система берет сигнатуру лица и пропускает ее через базу данных».

      Стоит ли переживать о программах, распознающих лица?

      Прежде всего, распознавание лиц - это данные. Данные можно собирать и хранить, зачастую без разрешения. Как только информация собрана и сохранена, она открыта и для взлома. Платформы с ПО, распознающим лица, пока не подвергались серьезным взломам, но по мере распространения технологий ваши биометрические данные оказываются в руках все большего числа людей.

      Существуют также вопросы владения. Большинство людей не знают, что когда они регистрируются в социальных медиаплатформах вроде Facebook, их данные с этого момента принадлежат этой самой Facebook. Поскольку число компаний, использующих распознавание лиц, постоянно растет, очень скоро даже не придется загружать собственные фотографии в Интернет, чтобы оказаться скомпрометированным. Они уже там хранятся, и хранятся давно.

      Говоря о программном обеспечении, все они работают по-разному, но в основе своей используют похожие методы и нейросети. У каждого лица есть множество отличительных признаков (в мире невозможно найти два идентичных лица, а ведь сколько их было за всю историю человечества!). К примеру, программное обеспечение FaceIt определяет эти признаки как узловые точки. Каждое лицо содержит примерно 80 узловых точек, схожих с теми, что мы упоминали прежде: расстояние между глазами, ширина носа, глубина глазных впадин, форма подбородка, длина челюсти. Эти точки измеряются и создают числовой код - «отпечаток лица» - который затем попадает в базу данных.

      В прошлом распознавание лиц опиралось на двумерные снимки для сравнения или идентификации других двумерных снимков из базы данных. Для пущей эффективности и точности изображение должно было быть лицом, прямо смотрящим в камеру, с небольшой дисперсией света и без особого выражения лица. Конечно, работало это чертовски плохо.

      В большинстве случаев снимки не создавались в подходящей среде. Даже небольшая игра света могла снизить эффективность системы, что приводило к высоким показателям отказа.

      На смену 2D пришло 3D-распознавание. Эта недавно появившаяся тенденция в программном обеспечении использует 3D-модель, обеспечивающую высокую точность распознавания лица. Запечатлевая трехмерное изображение поверхности лица человека в реальном времени, ПО выделяет отличительные черты - где больше всего выдаются жесткие ткани и кость, например, кривые глазного гнезда, носа и подбородка - для идентификации субъекта. Эти области уникальны и не меняются со временем.

      Используя глубину и ось измерения, на которые не влияет освещение, система трехмерного распознавания лиц может даже использоваться в темноте и распознавать объекты под разными углами (даже в профиль). Подобное программное обеспечение проходит через несколько этапов, идентифицируя человека:

    • Обнаружение : получение снимка при помощи цифрового сканирования существующей фотографии (2D) или видео для получения живой картинки субъекта (3D).
    • Центровка : определив лицо, система отмечает положение головы, размер и позу.
    • Измерение : система измеряет кривые на лице с точностью до миллиметра и создает шаблон.
    • Репрезентация : система переводит шаблон в уникальный код. Этот код задает каждому шаблону набор чисел, представляющих особенности и черты лица.
    • Сопоставление : если снимок в 3D и база данных содержит трехмерные изображения, сопоставление пройдет без изменений снимка. Но если же база данных состоит из двумерных снимков, трехмерное изображение раскладывается на разные составляющие (словно сделанные под разными углами двумерные снимки одних и тех же черт лица), и они конвертируются в 2D-изображения. И затем находится соответствие в базе данных.
    • Верификация или идентификация : в процессе верификации снимок сравнивается только с одним снимков в базе данных (1:1). Если целью же стоит идентификация, снимок сравнивается со всеми снимками в базе данных, что приводит к ряду возможных совпадений (1:N). Применяется тот или иной другой метод по необходимости.

    Где используются системы распознавания лиц?

    В прошлом системы распознавания лиц находили применение в основном в сфере правоохранения, поскольку органы использовали их для поиска случайных лиц в толпе. Некоторые правительственные учреждения также использовали подобные системы для безопасности и для устранения мошенничества на выборах.

    Однако есть много других ситуаций, в которых такое программное обеспечение становится популярным. Системы становятся дешевле, их распространение растет. Теперь они совместимы с камерами и компьютерами, которые используются банками и аэропортами. Туристические агентства работают над программой «бывалого путешественника»: с ее помощью они проводят быстрый скрининг безопасности для пассажиров, которые добровольно предоставляют информацию. Очереди в аэропортах будут продвигаться быстрее, если люди будут проходить через систему распознавания лиц, сопоставляющую лица с внутренней базой данных.

    Другие потенциальные применения включают банкоматы и терминалы выдачи наличных денег. Программное обеспечение может быстро проверить лицо клиента. После разрешения клиента банкомат или терминал делает снимок лица. Программное обеспечение создает отпечаток лица, защищающий клиента от кражи личных данных и мошеннических транзакций, - банкомат просто не выдаст деньги человеку с другим лицом. Даже ПИН-код не потребуется.

    Волшебство? Технологии!

    Особенно важным и интересным может быть развитие технологии распознавания лиц в сфере банковских переводов. На днях российский банк «Открытие» представил собственное уникальное решение, разработанное под технологическим брендом Open Garage: перевод денег по фотографии в мобильном приложении «Открытие.Переводы» . Вместо того чтобы вбивать номер карты или телефона, достаточно просто сфотографировать человека, которому нужно сделать перевод. Система распознавания лиц сравнит фото с эталонным (делается, когда банк выдает карту) и подскажет имя и фамилию. Останется только выбрать карту и ввести сумму. Что особенно важно, клиенты сторонних банков также могут использовать эту функцию для переводов клиентам «Открытия» - отправитель переводов может пользоваться картой любого российского банка.

    «Использование фотографии клиента вместо номера банковской карты - это принципиально новый подход к онлайн-переводам, основанный на использовании нейросетевой системы распознавания лиц, которая позволяет с высокой степенью точности идентифицировать клиента по его биометрическим данным, - говорит начальник Управления развития партнерских систем банка «Открытие» Алексей Матвеев. - Сервис открывает для пользователей совершенно новые жизненные сценарии для выполнения денежных переводов. В настоящее время ни один из участников финансового рынка в мире не предлагает подобного сервиса своим клиентам».

    Мобильное приложение «Открытие. Переводы» можно .

    Колонка

    Она ставит под угрозу безопасность и гражданские права человека, поэтому частичное её регулирование должно быть заменено полным запретом. Пока весь мир увлечён преимуществами технологии распознавания лиц, некоторые специалисты по безопасности считают, что она таит в себе большое зло для человечества. Преподаватель права и информатики Вудроу Хартцог и преподаватель философии Эван Селинджер изложили свою точку зрения на методы контроля технологии в статье на Medium.

    Жители Трои были бы в восторге

    Очень легко поддаться внешне заманчивому, но в действительности ошибочному мнению о том, каким будет будущее человечества в мире, раскрывшем весь скрытый потенциал технологии распознавания лиц. Люди смогут мгновенно получать информацию о незнакомцах, им больше не придётся запоминать массу паролей или бояться забыть кошелёк. Можно будет запросто находить события с определённым человеком в архивах фотографий и видео, оперативно разыскивать пропавших людей или преступников, сделать безопасными общественные места.

    Казалось бы, технология несёт одни только плюсы, в мире воцарится абсолютная справедливость, реализуются самые невероятные идеи человечества. Но ни один из изобретённых человечеством механизмов наблюдения не несёт в себе такой опасности, как технология распознавания лиц.

    Соблазняясь этим утопическим видением, люди будут впускать технологию распознавания лиц в своё жилище и открывать доступ к своим устройствам, позволяя ей занять центральное место во всё новых аспектах жизни. Это будет означать, что ловушка захлопнулась, а после придёт неприятное осознание того, что технология была своего рода троянским конём. Этот идеальный инструмент притеснения слишком хорош, чтобы им не воспользовались правительства для установления авторитарного контроля и всеобъемлющих режимов, которые уничтожат понятие личной жизни.

    Этот троянский конь не должен проникнуть в город.

    Текущие обсуждения

    Американский союз защиты гражданских свобод совместно с 70 другими правозащитными организациями потребовал от Amazon прекратить предоставлять технологию распознавания лиц правительству, а также призвал Конгресс ввести мораторий на её использование правительством. К ним подключились и СМИ, выразили свою обеспокоенность. Например, редколлегия Washington Post считает , что Конгресс обязан немедленно вмешаться в ситуацию. У парламентариев тоже есть веский повод задуматься: некоторых из них программа по распознаванию лиц Amazon с преступниками.

    Не остались в стороне и редакторы The Guardian. Президент Microsoft Брэд Смит обратился в своём блоге к правительству США с просьбой ввести регулирование технологии распознавания лиц:

    «Единственный надёжный способ контролировать использование технологии правительством - это чтобы оно самостоятельно и с учётом возможных обстоятельств контролировало её использование. Мы считаем, что сегодня существует острая необходимость в правительственной инициативе по контролю за правомерным применением технологии распознавания лиц, основанной на решении двухпартийной комиссии экспертов»

    Мнение лидеров компаний имеет немаловажное значение, как и законодательные акты, ограничивающие использование технологии. Но лишь частичной поддержки и тщательно прописанных инструкций никогда не будет достаточно. Законы могли бы принести большую пользу, но их, скорее всего, начнут вводить тогда, когда технология станет в разы дешевле и проще в использовании. Смит подчёркивает, что Microsoft призывала к созданию национального закона в этой области ещё в 2005 году. Прошло более десяти лет, но подобный закон Конгресс так и не принял.

    Если технологию распознавания лиц продолжат разрабатывать и внедрять в жизни, возникнет гигантская инфраструктура, которая поглотит человечество. Как показывает история, широкое внимание к успехам, страх не обеспечить должного уровня безопасности и пьянящее чувство власти могут приводить к обману, сдвигу корпоративных ценностей и в конечном счёте систематическом злоупотреблению технологией.

    Благополучие человечества в будущем возможно только в том случае, если технология распознавания лиц будет запрещена, прежде чем слишком прочно укрепится в жизни человека.

    Почему нужен запрет

    Необходимость полного запрета систем распознавания лиц - чрезвычайна. Но некоторые талантливые учёные, вроде Джудит Донат , считают эту позицию неверной. Они предлагают более нейтральную с технологической точки зрения тактику: запрет на конкретные действия, а также обозначение ценностей и прав, которые нужно защитить. Этот подход вполне разумен почти для всех цифровых технологий.

    Но ни один из изобретённых человечеством механизмов наблюдения не несёт в себе такой опасности, как технология распознавания лиц. Это недостающий элемент уже опасной инфраструктуры наблюдения за людьми, разработанный потому, что эта инфраструктура нужна правительствам и частному бизнесу. И если технологии становятся опасными в такой степени, а соотношение пользы и вреда - настолько искажённым, пришло время задуматься о категорических запретах. На законодательном уровне уже запрещены некоторые виды опасных цифровых технологий, например шпионского ПО . Технология распознавания лиц несёт в себе гораздо большие риски, и её не мешало бы удостоить особого юридического внимания. Нужен конкретный запрет на основе надежной, целостной, основанной на ценностях и в значительной степени нейтральной с точки зрения технологий нормативной базы. Такая система поможет избежать нормативных ситуаций, когда законодатели пытаются догонять технические тенденции.

    Наблюдение с использованием систем распознавания лиц по своей сути деспотично. Существование таких систем, которые сами часто скрыты от глаз человека, - нарушение гражданских свобод, потому что люди ведут себя иначе, если подозревают, что за ними наблюдают. Даже законы, которые гарантируют строгие защитные меры, не предотвратят гнетущее ощущение того, что будут ущемлены возможности самовыражения человека.

    Вот примеры злоупотребления и разрушительных действий технологии распознавания лиц:

    • непропорциональное внимание к людям небелого цвета кожи , другим меньшинствам и незащищённым народам ;
    • замена презумпции невиновности на принцип «люди, чья вина пока что не доказана»;
    • распространение насилия и жестокости;
    • отрицание фундаментальных прав и возможностей, например защиты от произвольного отслеживания правительствами передвижения, привычек, отношений, интересов и мыслей человека;
    • беспрерывная «работа» закона - как постоянная мера пресечения;
    • уничтожение концепции хранения информации «practically obscure », когда данные находятся в открытом доступе, но хранятся в различных источниках и найти их чрезвычайно сложно;
    • распространение «капитализма надзора ».

    Как отмечает исследователь технологии распознавания лиц Клэр Гарви, ошибки в ней могут иметь фатальные последствия:

    «Что произойдёт, если подобная система даст сбой? В случае ошибки системы видеонаблюдения будут преследовать, допрашивать или могут даже арестовать и обвинить в преступлении невинного человека. Или портативные камеры с системой распознавания лиц у полицейских: если система укажет на человека, который якобы может представлять опасность для общества, полицейский должен будет мгновенно решить, применять ли ему оружие. В результате ложного оповещения могут пострадать невинные люди».

    В числе прочих есть два доклада, которые подробно затрагивают многие из этих проблем: весьма ценная работа об использовании правоохранителями распознавания лиц, опубликованная старшим юристом Electronic Frontier Foundation Дженнифер Линч, а также исследование специалистов Center on Privacy & Technology университета Джорджтауна.

    Несмотря на описанные в докладах проблемы, не все убеждены, что запрет действительно необходим. Ведь другие технологии представляют не меньшую угрозу: геолокационные данные, информация из профилей в соцсетях, результаты поисковых запросов и многие другие источники информации о пользователях можно использовать, чтобы составить их детальный портрет. Но распознавание лиц всё же несёт опасность иного характера и стоит особняком даже по сравнению с биометрическими данными: отпечатками пальцев, образцами ДНК или сканированием сетчатки глаза.

    Системы, обрабатывающие изображения лиц, имеют пять отличительных особенностей, которые дают все основания для их запрета. Во-первых, лицо трудно скрыть или изменить. Лица нельзя зашифровать, как данные на цифровых носителях, в электронных или текстовых сообщениях. Их можно снимать с помощью удалённых камер, а стоимость самой технологии и хранения изображений в облаке постоянно снижается, что приводит к всё более широкому применению таких систем мониторинга.

    Во-вторых, существуют базы данных имён и лиц, например для водительских удостоверений, или аккаунты в соцсетях, к которым можно очень легко получить доступ.

    В-третьих, в отличие от типичных систем наблюдения, которые часто требуют дорогостоящее оборудование или новые источников данных, входные данные для распознавания лиц находятся повсюду и поступают непосредственно в момент съёмки камерами.

    В-четвёртых, переломный момент. Любая база данных лиц для идентификации арестованных или попавших в поле зрения камер личностей с помощью нескольких строчек кода может «сравниваться» с любой другой базой в режиме реального времени, подключаясь к портативным камерам полицейских или системам видеонаблюдения. Губернатор штата Нью-Йорк Эндрю Куомо точно подметил причины распространения технологии распознавания лиц, утверждая, что простое сканирование номерных знаков автомобилей покажется мелочью по сравнению с возможностями применения камер со встроенной технологией: «Система считывает номерной знак, чтобы вычислить нарушителя, но штрафы - далеко не самая большая польза от этой аппаратуры. Мы переходим на технологию распознавания лиц, и теперь система сможет сканировать лицо водителя и проверять его по базам данных, что открывает абсолютно новые перспективы».

    В-пятых, лицо, в отличие от отпечатков пальцев, походки или снимков сетчатки, - центральный элемент идентичности человека. Лицо - это посредник между виртуальной и реальной жизнью человека, связующее звено между действиями, которые человек выполняет анонимно, под своим или чужим именем. Может легко показаться, что обеспечивать конфиденциальность лиц, как любой другой частной информации, не нужно, потому что в жизни люди обычно не закрывают лица. За исключением стран, где женщины обязаны носить паранджу, люди со скрытым лицом вызывают подозрения.


    Обеспечивать конфиденциальность лица человека действительно необходимо, потому что в прошлом люди вырабатывали институты и ценности, связанные с защитой частной информации в те периоды, когда опознать незнакомых людей в основном было достаточно сложно. По причине биологических особенностей память человека ограничена, и без технологической надстройки он может запомнить лишь небольшое количество лиц. А с учётом численности и распределения населения за свою жизнь человек встретит не так уж много новых людей. Эти ограничения создают своего рода «белые пятна», благодаря чему у людей были хорошие шансы затеряться в толпе.

    Недавние решения Верховного суда США касательно четвёртой поправки (которая запрещает необоснованные обыски и задержания, а также требует выдачи ордеров на обыск судом при наличии достаточных оснований) свидетельствуют о том, что борьба за защиту конфиденциальности в общественных местах по-прежнему актуальна. Этим летом в одном из процессов суд решил, что геолокационные данные с мобильных телефонов подпадают под действие Конституции, а информация, которую человек желает сохранить в тайне, даже если она оказывается доступна публично, может охраняться Конституцией.

    Почему технология распознавания лиц не поддаётся правовому регулированию

    В связи с тем, что технология распознавания лиц представляет огромную угрозу, общество не может пустить её регулирование на самотёк. Потенциальная прибыльность подтолкнёт к появлению идей по реализации максимальных возможностей технологии, и отдельные компании будут продвигать свои интересы в этом направлении.

    Общество также не может ждать подъёма популистов. Технологию распознавания лиц продолжат «продавать» как часть самых новых и продвинутых приложений и устройств. Apple уже называет Face ID лучшей функцией последнего iPhone. То же самое касается новостных репортажей с идеологической подоплёкой, в которых технологию распознавания лиц провозглашают решением всех проблем.

    Наконец, обществу не следует излишне рассчитывать на традиционные методы регулирования. Особенности технологии распознавания лиц не позволяют удержать её в рамках мер, которые определяют законные и незаконные способы применения и пытаются уместить в ней потенциальную полезность для общества и устрашающий фактор для злоумышленников. Это - один их немногих примеров, когда необходимо ввести полный запрет.

    На данный момент существует очень немного проектов по контролю технологии распознавания лиц и ещё меньше - по её ограничению. Есть достойные законы о биометрических данных в штатах Иллинойс и Техас, но они придерживаются общепринятой стратегии регулирования, согласно которой субъекты, собирающие и использующие эти данные, должны выполнять ряд базовых информационных практик и протоколов конфиденциальности. Сюда относятся требование получать информированное согласие на сбор биометрических данных, их обязательная защита и ограничение на срок хранения, запрет на их использование с целью получения прибыли, ограничение прав передачи третьим лицам и частные основания для подачи иска в случае нарушения этих норм.

    Предлагаемые законы в области распознавания лиц похожи на них. Федеральная комиссия по торговле США рекомендует ввести такой же механизм в отношении технологии: предупреждать человека о её применении, давать ему выбор и честно ограничивать использование его данных. Доклад Electronic Frontier Foundation, в котором упор сделан на проведение этих законов в жизнь, содержит аналогичные, хотя и более глубокие предложения. Например, создать чёткие правила использования, распространения и обеспечения безопасности данных; ввести ограничения на сбор и хранение данных; запрет на включение нескольких видов биометрических данных в одну базу; обязательное уведомление, проведение проверок и независимого надзора. В своём проекте закона о распознавании лиц Center on Privacy & Technology университета Джорджтауна предлагает значительно ограничить доступ правительства к базам лиц, а также использование технологии распознавания лиц в реальном времени.


    К сожалению, большинство действующих и предлагаемых требований носят процедурный характер. И в конечном счёте не остановят распространение самой технологии и развитие соответствующей инфраструктуры. Прежде всего нужно отметить ложность некоторых исходных допущений относительно согласия, уведомления и выбора, которые присутствуют в существующих законах. Информированное согласие как механизм регулирования наблюдения и обработки данных полностью бесполезно. Даже если бы людям всецело принадлежало право контролировать свои данные, они бы всё равно не смогли им воспользоваться в полной мере.

    И всё же законодатели и сама отрасль пытаются сдвинуться с мёртвой точки. Но в этих нормах, как и в большинстве норм конфиденциальности цифровой эры, есть много пробелов. Одни законы касаются только сбора или хранения данных и не затрагивают то, как они используются. Другие применимы лишь к компаниям или правительству и настолько неоднозначны, что позволяют избежать последствий за различные противоправные действия. И чтобы прочувствовать преимущества технологии распознавания лиц, которую так расхваливают, потребуется больше камер, лучшая инфраструктура и необъятные базы данных.

    Будущее технологии распознавания лиц

    Технология распознавания лиц открывает безграничные возможности отслеживать информацию о личности и перемещениях человека. А также практически мгновенно сохранять, распространять и анализировать её. Развитие этой технологии в будущем может привести к тому, что конфиденциальность частной информации человека будет постоянно нарушаться. Благополучие человечества возможно лишь в том случае, если будет введён запрет на технологии распознавания лиц, прежде чем эти системы слишком прочно войдут в повседневную жизнь. Иначе людям будет знаком только мир, в котором при каждом появлении в общественном месте их будут автоматически идентифицировать, заносить информацию в профиль и, возможно, использовать её. В таком мире те, кто выступает против технологии распознавания лиц, будут дискредитированы, вынуждены замолчать или устранены.

    Задача выделения лица человека в естественной или искусственной обстановке и последующей идентификации всегда находилась в ряду самых приоритетных задач для исследователей, работающих в области систем машинного зрения и искусственного интеллекта. Тем не менее, множество исследований, проводящихся в ведущих научных центрах всего мира в течение нескольких десятилетий, так и не привело к созданию реально работающих систем компьютерного зрения, способных обнаруживать и распознавать человека в любых условиях. Несмотря на близость задач и методов, используемых при разработке альтернативных систем биометрической идентификации человека таких, как идентификация по отпечатку пальца или по изображению радужной оболочки, системы идентификации по изображению лица существенно уступают вышеперечисленным системам.

    Серьезной проблемой, стоящей перед системами компьютерного зрения, является большая изменчивость визуальных образов, связанная с изменениями освещенности, окраски, масштабов, ракурсов наблюдения. Кроме того, люди имеют привычку ходить по улицам и в помещении одетыми, что приводит к существенной изменчивости изображений одного и того же человека. Однако наиболее сложной задачей компьютерного зрения является проблема устранения неоднозначности, возникающей при проектировании трехмерных объектов реального мира на плоские изображения. Цвет и яркость отдельных пикселов на изображении также зависит от большого количества трудно прогнозируемых факторов. В число этих факторов входят:

    1. число и расположение источников света;
    2. цвет и интенсивность излучения;
    3. тени или отражение от окружающих объектов.

    Задача обнаружения объектов на изображении осложняется также огромным объемом данных, содержащихся в изображении. Изображение может содержать тысячи пикселов, каждый из которых может иметь важное значение. Полное использование информации, содержащейся в изображении, требует анализа каждого пиксела на принадлежность его объекту или фону с учетом возможной изменчивости объектов. Такой анализ может потребовать высоких затрат в требуемой памяти и производительности компьютера.

    Решение этой проблемы лежит в правильном выборе описания объектов, для обнаружения и распознавания которых создается система. Описание объекта должно его учитывать наиболее характерные особенности и быть достаточно представительным, чтобы отличать данный объект от остальных элементов окружающей сцены. Чтобы избежать субъективности при выборе нужного описания, можно использовать методы автоматического выбора подходящих характеристик объекта, которые реализуются в генетических алгоритмах и при обучении искусственных нейронных сетей. В то же время существует ряд параметров в описании объекта, которые в настоящее время должен выбрать исследователь, разрабатывающий систему обнаружения и распознавания. К такому выбору относятся:

    1. выбор между 2D и 3D-представлением сцены и объекта. Алгоритмы, использующие 2D-представление, обычно более простые, чем 3D- алгоритмы, но в то же время требуют большого числа различных описаний, соответствующих представлению объекта в различных условиях наблюдения;
    2. выбор между описанием объекта как единого целого или как системы, состоящей из некоторого множества взаимосвязанных элементов;
    3. выбор между системой признаков, основывающихся на геометрических или иных описывающих специфику объекта характеристиках.

    В самом общем случае алгоритм решения задачи обнаружения и идентификации человека по изображению его лица состоит из следующих очевидных шагов:

    1. обнаружение факта присутствия человека на анализируемой сцене;
    2. выделение фигуры человека;
    3. выделение головы;
    4. определение ракурса наблюдения головы (анфас, профиль);
    5. выделение лица;
    6. сравнение с эталонами и идентификация.

    В зависимости от конкретных условий структура и реализация отдельных шагов алгоритма могут различаться. В наиболее сложном случае, при использовании системы обнаружения и идентификации человека по изображению его лица в сильно изменяющейся обстановке, с большим потоком входных данных (работа на городских улицах с интенсивным движением, в метро, аэропортах и т. д.), требуется использование максимально доступной информации для достижения удовлетворительных результатов работы алгоритма. Алгоритм должен уметь эффективно отсекать статические и медленно изменяющиеся элементы сцены, работать в различных условиях освещенности, опознавать фигуру человека под различными ракурсами, отслеживать передвижение множества людей и автоматически выбирать момент, подходящий для выполнения идентификации данного человека (например, когда можно получить фронтальное изображение лица с достаточным разрешением). Для обеспечения таких возможностей алгоритма необходима определенная аппаратурная насыщенность системы, включающая многокамерный обзор и анализ сцены с возможностью выделения 3D-структуры сцены, скоростной ввод видеопотока для фильтрации элементов сцены по параметрам движения, использование цвета для выделения элементов сцены. Кроме того нужны камеры с высоким разрешением и хорошей оптикой для обеспечения возможно большей дальности достоверной идентификации. В более простых случаях, при статичной сцене и ограниченном потоке событий (появлений людей), возможно использование более простой структуры аппаратного обеспечения и алгоритма, например, стереопары или одной камеры и заранее подготовленной модели сцены может быть достаточно для достоверного определения факта нахождения человека в зоне контроля, выделения его фигуры и идентификации. Задача определения факта присутствия человека на сцене, требует от алгоритма определенного уровня интеллекта. Это не должна быть система, реагирующая просто на факт изменения сцены. Алгоритм обнаружения человека не должен давать ложные тревоги при изменениях освещенности, движении теней от статических объектов, появлении в зоне контроля животных и т. д. В случае, когда это необходимо, появляется проблема создания адекватного описания сцены. Это описание может представлять трехмерную модель сцены, вероятностную модель распределения цветов или яркостей элементов сцены или систему признаков, отличающую элементы сцены от объектов распознавания (в нашем случае - человеческих фигур). Отношения между элементами сцены, считающимися фоном, или элементам переднего плана могут изменяться. Та же фигура человека, если ее изображение меньше некоторого порогового значения, определяемого разрешением оптической системы, может быть отнесена к элементам фона, так как ее анализ является непродуктивным для выполнения основной задачи - идентификации человека.

    Выбор алгоритма, используемого для идентификации человека по изображению его лица, также зависит от конкретных условий его применения. Например, с задачей распознавания в строго ограниченном коллективе легко справляется многослойная нейронная сеть. В то же время задача обнаружения конкретного человека в толпе (с неопределенным составом) требует применения изощренных методов для снижения уровня ложных тревог. Скорее всего, в этом случае потребуется многоуровневая система, содержащая множество анализаторов, работающих в разных признаковых пространствах, с принятием решения методом голосования. На начальных этапах работы система идентификации должна отсекать заведомо неподходящих кандидатов и использовать оставшееся множество кандидатов для принятия окончательного решения об идентификации.

    Ниже представлен обзор по существующим методам обнаружения и идентификации человека по изображению его лица. В обзор включались только те методы, которые, по мнению авторов, наиболее широко используются в современных алгоритмах обнаружения человека и его персональной идентификации по изображениям лица в естественной обстановке.

    При всем многообразии различных алгоритмов и методов распознавания изображений, типичный метод распознавания состоит из трех основных компонент:

    1. преобразование исходного изображения в стандартное представление;
    2. выделение ключевых характеристик;
    3. механизм классификации (моделирования): кластерная модель, метрика, нейронная сеть и т. п.

    Кроме этого, построение метода распознавания опирается на априорную информацию о предметной области (в данном случае - характеристики лица человека) и корректируется экспериментальной информацией, появляющейся по ходу разработки метода.

    Метод главных компонент.

    Метод главных компонент (Principal Component Analysis, {PCA}) применяется для сжатия информации без существенных потерь информативности. Он состоит в линейном ортогональном преобразовании входного вектора $\textbf{x}$ размерности $N$ в выходной вектор $\textbf{y}$ размерности $M$, $N>M$. При этом компоненты вектора $\textbf{y}$ являются некоррелированными и, следовательно, общая дисперсия после преобразования остается неизменной. Матрица $\textbf{X}$ состоит из всех примеров изображений обучающего набора. Решив уравнение $\boldsymbol\Lambda = \boldsymbol{\Phi}^T \boldsymbol{\Sigma}\boldsymbol{\Phi} $, получаем матрицу собственных векторов $\boldsymbol{\Phi}$, где $\boldsymbol{\Sigma}$ - ковариационная матрица для $\textbf{x}$, а $\boldsymbol{\Lambda}$ - диагональная матрица собственных чисел. Выбрав из $\boldsymbol{\Phi}$ подматрицу $\boldsymbol{\Phi}_M$, соответствующую $M$ наибольшим собственным числам, получим, что преобразование $\textbf{y} = \boldsymbol{\Psi}_M^T \widetilde{\textbf{x}}$, где $\widetilde{\textbf{x}} = \textbf{x} - \overline{\textbf{x}}$ - нормализованный вектор с нулевым математическим ожиданием, характеризует большую часть общей дисперсии и отражает наиболее существенные изменения $\textbf{x}$. Выбор первых $M$ главных компонент разбивает векторное пространство на главное (собственное) пространство $F = \left\{\boldsymbol{\Phi}_i\right\}_{i=1}^M$, содержащее главные компоненты, и его ортогональное дополнение $F = \left\{\boldsymbol{\Phi}_i\right\}_{i=M+1}^{N}$. В качестве индикаторов принадлежности в методе главных компонент используют:

    DIFS - distance in feature space, расстояние от образа анализируемого изображения в собственном пространстве, до эталонного образа;

    DFFS - distance from feature space, расстояние от представления анализируемого изображения в пространстве наблюдения до проекции эталона в собственном пространстве.

    Пример изображений собственных векторов (собственные лица)

    Применение для задачи распознавания человека по изображению лица имеет следующий вид. Входные векторы представляют собой отцентрированные и приведенные к единому масштабу изображения лиц. Собственные векторы, вычисленные для всего набора изображений лиц, называются собственными лицами (eigenfaces). Метод главных компонент в применении к изображениям лиц также называют методом собственных лиц (рис. 1). С помощью вычисленных ранее матриц входное изображение разлагается на набор линейных коэффициентов, называемых главными компонентами. Сумма $N$ первых главных компонент, умноженных на соответствующие собственные векторы, является аппроксимацией изображения порядка $N$ (рис. 2).

    Нормализованное изображение лица ($\textit{а}$) и его реконструкция по $85$ главным компонентам ($\textit{б}$)

    Для каждого изображения лица вычисляются его главные компоненты. Обычно берется от $5$ до $200$ главных компонент. Остальные компоненты кодируют мелкие различия между лицами и шум. Процесс распознавания заключается в сравнении главных компонент неизвестного изображения с компонентами всех остальных изображений. Для этого обычно применяют какую-либо метрику (простейший случай - Евклидово расстояние). Дополнительное повышение надежности достигается за счет дополнительного применения анализа главных компонент к отдельным участкам лица таким, как глаза, нос, рот.

    Также метод главных компонент применяется для обнаружения лица на изображении. Для лиц значения компонент в собственном пространстве имеют большие значения, а в дополнении собственного пространства - близки к нулю. По этому факту можно обнаружить, является ли входное изображение лицом. Для этого проверяется величина ошибки реконструкции; чем больше ошибка, тем больше вероятность, что это не лицо. При наличии в наборе изображений лиц вариаций таких, как раса, пол, эмоции, освещение, будут появляться компоненты, величина которых в основном определяется этими факторами. Поэтому по значениям соответствующих главных компонент можно определить, например, расу или пол человека. Основные недостатки PCA таковы. Метод собственных лиц требует для своего применения идеализированных условий таких, как единые параметры освещенности, нейтральное выражение лица, отсутствие помех вроде очков и бород. При несоблюдении этих условий главные компоненты не будут отражать межклассовые вариации. Например, при различных условиях освещенности метод собственных лиц практически неприменим, поскольку первые главные компоненты преимущественно отражают изменения освещения, и сравнение выдает изображения, имеющие похожий уровень освещенности.

    Вычисление набора собственных векторов отличается высокой трудоемкостью. Один из способов - это свертка изображений по строкам и столбцам; в такой форме представление изображения имеет на порядок меньший размер, вычисления и распознавание происходит быстрее, но восстановить исходное изображение уже невозможно.

    Линейный дискриминантный анализ.

    Линейный дискриминантный анализ (линейный дискриминант Фишера Linear Discriminant Analysis, {LDA}) использует такую проекцию пространства изображений на пространство признаков, которая минимизирует внутриклассовое и максимизирует межклассовое расстояние в пространстве признаков. В этих методах предполагается, что классы линейно разделимы.

    Матрица $\textbf{W}$ для проецирования пространства изображения на пространство признаков выбирается из следующего условия: $$ \textbf{W}_{\textrm{opt}}= \textrm{arg} \max_\textbf{W} \frac{\textbf{W}^T \textbf{S}_\textbf{B} \textbf{W}}{\textbf{W}^T \textbf{S}_\textbf{W} \textbf{W}}, $$ где $\textbf{S}_{\textbf{B}}$ - матрица межклассовой дисперсии, $\textbf{S}_{\textbf{W}}$ - матрица внутриклассовой дисперсии.

    Может существовать до $c-1$ векторов составляющих базис пространства признаков, где $c$ - общее число классов. С помощью этих векторов пространство изображений переводится в пространство признаков.

    Поскольку работа непосредственно с матрицей $\textbf{S}_\textbf{W} \in {R}^{n\times n} $ затруднительна из-за ее размерности, используется предварительное уменьшение размерности с помощью метода главных компонент, и затем вычисления производятся в пространстве меньшей размерности: $$ \textbf{W}_\textrm{fld}=\textrm{arg} \max_\textbf{W} \frac{\textbf{W}^T \textbf{W}_{\textrm{pca}}^T \textbf{S}_\textbf{B} \textbf{W}_{\textrm{pca}} \textbf{W}}{\textbf{W}^T \textbf{W}_{\textrm{pca}}^T \textbf{S}_\textbf{W} \textbf{W}_{\textrm{pca}} \textbf{W}}, $$ где $\textbf{W}_{\textrm{pca}}$ - матрица для проецирования в пространство меньшей размерности (пространство главных компонент).

    Обычно тренировочный набор содержит изображения лиц при нескольких базовых условиях освещенности, на основе которых при помощи линейных комбинаций можно получить любые другие условия освещенности. Этот метод дает высокую точность распознавания (около 96{\%}) для широкого диапазона условий освещенности, различных выражений лица и наличия или отсутствия очков. Однако остаются невыясненными вопросы, применим ли этот метод для поиска в больших базах данных, может ли метод работать, когда в тренировочной выборке для некоторых лиц имеется изображение только в одних условиях освещенности. Для задачи детектирования лица с помощью LDA-классы лиц и "не лиц" разбивают на подклассы. Вышеописанный метод основывается на предположении о линейной разделимости классов в пространстве изображений. В общем случае такое предположение несправедливо. Инструмент для построения сложных разделяющих поверхностей предлагают нейросетевые методы.

    Синтез объектов линейных классов.

    Данный метод позволяет синтезировать новые изображения объекта (и в частности, изображения лица) для разных ракурсов. Имеется тренировочный набор изображений лиц и только одно изображение нового объекта в определенном ракурсе. Тренировочный набор состоит из изображений объектов того же класса (класс лиц в данном случае), что и новый объект, и включает в себя изображения различных лиц, причем для каждого лица имеются его изображения в широком диапазоне ракурсов. Для нового объекта, имеющего изображение $X^{A}$ в ракурсе $A$, осуществляется линейное разложение на изображения объектов из тренировочного набора в том же ракурсе, с вычислением коэффициентов $\alpha_i: X^A = \sum_{i=1}^{q}\alpha_i X_i^A , $ где $q$ - количество объектов в тренировочном наборе. Синтез изображения $X^{B}$ в новом ракурсе $B$ для нового объекта осуществляется сложением изображений из тренировочного набора в ракурсе $B$ с теми же коэффициентами: $X^B = \sum_{i=1}^{q}\alpha_i X_i^B $. Таким образом, метод позволяет синтезировать изображения нового объекта в различных ракурсах по изображению в одном ракурсе без привлечения сложных трехмерных моделей. Данный метод является перспективным для синтеза изображений в новых ракурсах без привлечения сложных трехмерных моделей, однако вопрос о качестве и количестве примеров в тренировочном наборе остается открытым.

    Гибкие контурные модели лица.

    В данных методах распознавание производится на основе сравнения контуров лица. Контуры обычно извлекаются для линий головы, ушей, губ, носа, бровей и глаз. Контуры представлены ключевыми позициями, между которыми положение точек, принадлежащих контуру, вычисляются интерполированием. Для локализации контуров в различных методах используется как априорная информация, так и информация, полученная в результате анализа тренировочного набора. Обычно ключевые точки размещаются вручную на наборе тренировочных изображений. При поиске контуров нового лица используется метод симуляции отжига с целевой функцией из двух составляющих. Для первой из них ищется максимум при соответствии интенсивностей пикселов, извлеченных на перпендикулярной контуру линии, аналогичным пикселам из тренировочной выборки, для второй - при совпадении контура с формой контуров тренировочных примеров. Таким образом, извлекается контур черт лица. Для сравнения изображений используются значения главных компонент, вычисленные на наборе векторов, представляющих собой координаты ключевых точек. Главной задачей при распознавании по контурам является правильное выделение этих контуров. В общем виде эта задача по сложности сравнима непосредственно с распознаванием изображений.

    Сравнение эластичных графов.

    В этом методе (Elastic Bunch Graph Matching) лицо представляется в виде графа, вершины которого расположены на ключевых точках лица таких, как контуры головы, губ, носы, и их крайних точках. Каждая грань помечена расстояниями между ее вершинами. В каждой такой точке вычисляются коэффициенты разложения по функциям Габора для пяти различных частот и восьми ориентаций. Набор таких коэффициентов $\textbf{J} = \{J_j\}$ называется $\textit{джетом}$ (jet). Джеты характеризуют локальные области изображений и служат для двух целей: во-первых, для нахождения точек соответствия в заданной области на двух различных изображениях; во-вторых - для сравнения двух соответствующих областей различных изображений. Каждый коэффициент $J_j = a_j \exp (i \phi_j)$ для точек из одной области различных изображений характеризуется амплитудой $a_j$, которая медленно меняется с изменением положения точки, и фазой $\phi_j$, которая вращается со скоростью, пропорциональной частоте волнового вектора базисной функции. Поэтому в простейшем случае для поиска на новом изображении точки с аналогичными характеристиками в функции подобия фазу не учитывают: $$ S_a(\textbf{J}, \textbf{J}") = \frac{\sum_j a_ja_j^{\prime}}{\sqrt{\sum_j a_j^2 \sum_j a_j^{\prime 2}}} .$$ Функция подобия с одним джетом в фиксированной позиции и другим с переменной позицией является достаточно гладкой, для того чтобы получить быструю и надежную сходимость при поиске с применением простейших методов таких, как диффузия или градиентный спуск. Более совершенные функции подобия привлекают информацию о фазе. Для различных ракурсов соответствующие ключевые точки отмечаются вручную на тренировочном наборе. Кроме того, чтобы для одного и того же лица представить различные вариации его изображения в одном и том же графе, для каждой точки используются несколько джетов, каждый из которых может соответствовать различным локальным характеристикам данной точки, например, открытому и закрытому глазу. Процесс распознавания неизвестного лица состоит в сравнении графа изображения лица $G^I$ со всеми остальными графами из набора $B$ при помощи функции подобия $$ S_B (G^I , B)= \frac{1}{N} \sum_n \max_m S_{\phi}(J_n^I , J_n^{Bm})- \frac{\lambda}{E}\sum_e \frac{(\Delta \textbf{x}_e^I - \Delta \textbf{x}_e^B)^2}{(\Delta \textbf{x}_e^B)^2}. $$

    Левая сумма характеризует подобие джетов, вычисленное с применением фазочувствительной функции, правая - топографическое соответствие, которое пропорционально квадрату разности расстояний между соответствующими вершинами сравниваемых изображений, $N$ - количество вершин, $E$ - количество граней, $\lambda$ - коэффициент относительной важности топографической информации.

    В представленном выше виде метод способен достаточно надежно распознавать при изменениях ракурса до $20$° ; при больших углах точность распознавания резко уменьшается, функция подобия оказывается более чувствительной к ракурсу, чем к межклассовым различиям. Дальнейшее развитие метода заключается в извлечении коэффициентов важности на основе анализа обучающей выборки. Для каждого джета симплекс-методом вычисляется коэффициент важности, который затем используется в функции подобия. Коэффициенты важности вычисляются из условия максимизации функции подобия для одного и того же лица и минимизации - для различных лиц. Существуют также более ранние разновидности этого метода, которые не используют изначально определенные ключевые точки и структуры графа. Одни из них используют для сравнения решетки джетов, наложенные на изображение, рис. 3. В неизвестном изображении отыскиваются точки соответствия, и затем по найденным точкам строится искаженная решетка и измеряется мера ее искажения для определения наиболее похожего изображения. В других методах точки извлечения джетов изначально образуют решетку, а затем наименее пригодные для распознавания точки отсеиваются в процессе обучения.

    Наложенная на изображение эластичная решетка и ее искаженная версия

    Методы, основанные на геометрических характеристиках лица.

    Один из самых первых методов - это анализ геометрических характеристик лица. Изначально он применялся в криминалистике и был там детально разработан. Потом появились компьютерные реализации этого метода. Суть его заключается в выделении набора ключевых точек (или областей) лица и последующем выделении набора признаков. Каждый признак является либо расстоянием между ключевыми точками, либо отношением таких расстояний. В отличие от метода сравнения эластичных графов, здесь расстояния выбираются не как дуги графов. Наборы наиболее информативных признаков выделяются экспериментально.

    Ключевыми точками могут быть уголки глаз, губ, кончик носа, центр глаза и т. п. рис. 4. В качестве ключевых областей могут служить прямоугольные области, включающие в себя: глаза, нос, рот.

    В процессе распознавания сравниваются признаки неизвестного лица с признаками, хранящимися в базе. Задача нахождения ключевых точек приближается к трудоемкости непосредственно распознавания, и правильное нахождение ключевых точек на изображении во многом определяет успех распознавания. Поэтому изображение лица человека должно быть без помех, мешающих процессу поиска ключевых точек. К таким помехам относят очки, бороды, украшения, элементы прически и макияжа. Освещение желательно равномерное и одинаковое для всех изображений. Кроме того, изображение лица должно иметь фронтальный ракурс, возможно, с небольшими отклонениями. Выражение лица должно быть нейтральным. Это связано с тем, что в большинстве методов нет модели учета таких изменений.

    Таким образом, данный метод предъявляет достаточно строгие требования к условиям съемки и нуждается в надежном механизме нахождения ключевых точек для общего случая. Кроме того, требуется применение более совершенных методов классификации или построения модели изменений. В общем случае этот метод не является самым оптимальным, однако для некоторых специфических задач все же перспективен. К таким задачам можно отнести документный контроль, когда требуется сравнить изображение лица, полученного в текущий момент, с фотографией в документе. При этом других изображений этого человека не имеется, и, следовательно, механизмы классификации, основанные на анализе тренировочного набора, недоступны.

    Идентификационные точки и расстояния: $\textit{а}$ - используемые при криминалистической экспертизе; $\textit{б}$ - наиболее часто применяемые при построении автоматизированных систем идентификации

    Сравнение шаблонов.

    Сравнение шаблонов (Template Matching) заключается в выделении областей лица на изображении рис. 5, и последующем сравнении этих областей для двух различных изображений. Каждая совпавшая область увеличивает меру сходства изображений. Это также один из исторически первых методов распознавания человека по изображению лица. Для сравнения областей используются простейшие алгоритмы вроде попиксельного сравнения.

    Недостаток этого метода заключается в том, что он требует много ресурсов как для хранения участков, так и для их сравнения. Ввиду того, что используется простейший алгоритм сравнения, изображения должны быть сняты в строго установленных условиях: не допускается заметных изменений ракурса, освещения, эмоционального выражения и пр.

    Области, входящие в шаблон лица

    Скрытые Марковские модели.

    Марковские модели являются мощным средством моделирования различных процессов и распознавания образов. По своей природе Марковские модели позволяют учитывать непосредственно пространственно-временные характеристики сигналов, и поэтому получили широкое применение в распознавании речи, а в последнее время - изображений (в частности, изображений лиц). Каждая модель $\lambda = \langle \textbf{A}, \textbf{B}, \boldsymbol\pi \rangle$, представляет собой набор $N$ состояний $S = \{S_1 , S_2 , \ldots , S_N\}$, между которыми возможны переходы. В каждый момент времени система находится в строго определенном состоянии. В наиболее распространенных Марковских моделях $\textit{первого порядка}$ полагается, что следующее состояние зависит только от текущего состояния. При переходе в каждое состояние генерируется наблюдаемый символ, который соответствует физическому сигналу с выхода моделируемой системы. Набор символов для каждого состояния $V = \{v_1 , v_2 , \ldots, v_M \}$, количество символов $M$. Выход, генерируемый моделью, может быть так же непрерывным. Существуют так же модели, в которых набор символов для всех состояний одинаков. Символ в состоянии $q_t = S_j$ в момент времени $t$ генерируется с вероятностью $b_{j k} = P (v_{k} | q_i = S_j)$. Набор всех таких вероятностей составляет матрицу $\textbf{B}= \{b_{j k}\}$.

    Матрица $\textbf{A} = ||a_{ij}||$ определяет вероятность перехода из одного состояния в другое: $a_{ij} = P (q_{i+1} = S_j | q_i = S_i)$, $1\le i, j \le N$. Считается, что $A$ не зависит от времени. Если из каждого состояния можно достичь любого другого за один переход, то все $a_{ij} > 0$, и модель называется эргодической. Модель имеет вероятность начальных состояний $\boldsymbol\pi = \{ \pi_i \}$, где $\pi_i = P (q_1 = S_i)$. Обычно в реальных процессах последовательность состояний является скрытой от наблюдения и остается неизвестной, а известен только выход системы, последовательность наблюдаемых символов $O = O_1 O_2 \ldots O_T$, где каждое наблюдение $O_t$ - символ из $V$, и $T$ - число наблюдений в последовательности. Поэтому такие модели называют $\textit{скрытыми}$ Марковскими моделями (Hidden Markov Models, $\textit{HMM}$).

    Модель $\boldsymbol\lambda = \langle \textbf{A}, \textbf{B} , \boldsymbol\pi \rangle$ с настроенными параметрами может быть использована для генерирования последовательности наблюдений. Для этого случайно, в соответствии с начальными вероятностями $\boldsymbol\pi$ выбирается начальное состояние, затем на каждом шаге вероятность $\textbf{B}$ используется для генерации наблюдаемого символа, а вероятность $\textbf{A}$ - для выбора следующего состояния. Вероятность $P$ генерирования моделью $\lambda$ последовательности состояний $O$: $$ P(O|Q, \lambda) = \prod_{t-1}^T b_{q_t} (O_t) $$ где $Q = q_1 q_2 \ldots q_T$ - последовательность состояний. Предполагается, что наблюдения статистически независимы.

    В распознавании образов скрытые Марковские модели применяются так. Каждому классу $i$ соответствует своя модель $\lambda_i$. Распознаваемый образ (речевой сигнал, изображение и т. д.) представляется в виде последовательности наблюдений $O$. Затем для каждой модели $\lambda_i$ вычисляется вероятность того, что эта последовательность могла быть сгенерирована именно этой моделью. Модель $\lambda_i$, получившая наибольшую вероятность, считается наиболее подходящей, и образ относят к классу $j$.

    В связи с этим появляются несколько вопросов, называемых тремя основными задачами скрытых Марковских моделей.

    $O = O_1 O_2 \ldots O_T$ и настроенную модель $\boldsymbol\lambda = \langle\textbf{A}, \textbf{B}, \boldsymbol\pi\rangle$, как оценить вероятность $P(O|\lambda)$ генерации этой моделью данной последовательности наблюдений? Эта задача называется задачей распознавания.

    1. Имея последовательность наблюдений

    $O = O_1 O_2 \ldots O_T$ и настроенную модель $\boldsymbol\lambda = \langle\textbf{A}, \textbf{B}, \boldsymbol\pi\rangle$, как подобрать последовательность состояний $Q = q_1 q_2 \ldots q_T$, чтобы она была оптимальной (в соответствии с некоторым критерием, аналитически эта задача неразрешима)? Другими словами, это задача объяснения. Она нужна для последующей коррекции параметров модели.

    1. Каким образом корректировать параметры модели

    $\lambda$, для того чтобы максимизировать $P(O|\lambda)$? То есть как сделать так, чтобы модель больше соответствовала своему классу, одним из образов которого является данная последовательность наблюдений (или несколько различных последовательностей)? Это задача обучения.

    Первая задача имеет точное аналитическое решение, называемое процедурой прямого-обратного прохода. Последующие две задачи не имеют точного аналитического решения. Для решения второй задачи используется алгоритм Витерби, для третей - алгоритм Баума - Вельча. Оба этих метода являются разновидностями градиентного спуска и решаются оптимизационными методами.

    Линейная Марковская модель

    Для того чтобы сократить вычисления, в распознавании речи используются линейные модели рис. 6. В таких моделях каждое состояние имеет только одно последующее, так же переход возможен обратно в то же состояние. Такие модели учитывают временн ые характеристики речевого сигнала: определенный порядок следования участков сигнала, их взаимное расположение, возможность локальных растяжений или сжатий. Это позволяет их применять и в распознавании изображений.

    Суть двумерных Марковских моделей заключается в том, что, в отличие от одномерных линейных СММ, они позволяют моделировать искажения изображения и взаимное расположение участков не отдельно по горизонтали или вертикали, а в обоих направлениях одновременно. Для уменьшения вычислительной сложности применяются псевдодвумерные СММ (Pseudo-2D Hidden Markov Models, $\textit{P2D-HMM}$). Такая модель состоит из нескольких линейных вертикальных моделей нижнего уровня и одной линейной горизонтальной модели верхнего уровня, на вход которой поступают выходы моделей нижнего уровня, рис. 7. Каждое

    Псевдодвумерная скрытая Марковская модель

    Извлечение участков-образцов наблюдения

    состояние модели верхнего уровня включает в себя последовательность состояний соответствующей модели нижнего уровня. Модели нижнего уровня не связаны между собой. Изначально в модели верхнего уровня были вертикальными. В последующих работах модели верхнего уровня были сделаны горизонтальными (как это и изображено на рисунке), для того чтобы вертикальные модели нижнего уровня могли учесть тот факт, что глаза могут находиться на разной высоте. Таким образом, псевдодвумерная модель позволяет учесть локальные деформации и взаимное расположение участков изображений. Но в отличие от оптических потоков и других методов сопоставления деформациями, псевдодвумерная модель учитывает характер деформаций, а то, какими именно могут быть возможные деформации, псевдодвумерные СММ усваивают в процессе обучения. Другими словами, участок, соответствующий глазу, никогда не будет сопоставлен, например, участку на месте рта.

    Пример функционирования СММ. Входом СММ являются квадратные участки изображений (рис. 8). Было обнаружено, что участки, извлекаемые с 75{\%} перекрытием друг с другом, дают наилучшую точность распознавания.

    Для СММ важное значение имеет начальная инициализация модели. В качестве начальной инициализации всех моделей используются все изображения из тренировочного набора. Затем модель каждого класса настраивается на свои изображения.

    Недостатком СММ является то, что СММ не обладает различающей способностью, т. е. алгоритм обучения только максимизирует отклик каждой модели на свои классы, но не минимизирует отклик на другие классы и не выделяются ключевые признаки, отличающие один класс от другого. Таким образом, похожие классы могут оказаться слабо различимыми и при увеличении объема базы или использования в более широких условиях СММ может оказаться ненадежными.

    Многослойные нейронные сети.

    Архитектура многослойной нейронной сети (МНС) состоит из последовательно соединенных слоев, где нейрон каждого слоя своими входами связан со всеми нейронами предыдущего слоя, а выходами - следующего. НС с двумя решающими слоями может с любой точностью аппроксимировать любую многомерную функцию. НС с одним решающим слоем способна формировать линейные разделяющие поверхности, что сильно сужает круг задач, ими решаемых, в частности, такая сеть не сможет решить задачу типа "исключающее или". НС с нелинейной функцией активации и двумя решающими слоями позволяет формировать любые выпуклые области в пространстве решений, а с тремя решающими слоями - области любой сложности, в том числе и невыпуклой. При этом МНС не теряет своей обобщающей способности. Обучаются МНС при помощи алгоритма обратного распространения ошибки, являющегося методом градиентного спуска в пространстве весов с целью минимизации суммарной ошибки сети. При этом ошибки (точнее, величины коррекции весов) распространяются в обратном направлении от входов к выходам, сквозь веса, соединяющие нейроны. Простейшее применение однослойной НС (называемой автоассоциативной памятью) заключается в обучении сети восстанавливать подаваемые изображения. Подавая на вход тестовое изображение и вычисляя качество реконструированного изображения, можно оценить, насколько сеть распознала входное изображение. Положительные свойства этого метода заключаются в том, что сеть может восстанавливать искаженные и зашумленные изображения, но для более серьезных целей он не подходит. МНС также используется для непосредственной классификации изображений - на вход подается или само изображение в каком-либо виде, или набор ранее извлеченных ключевых характеристик изображения, на выходе нейрон с максимальной активностью указывает принадлежность к распознанному классу (рис. 9).

    Нейрон с максимальной активностью (здесь первый) указывает принадлежность к распознанному классу. Если эта активность ниже некоторого порога, то считается, что поданный образ не относится ни к одному из известных классов. Процесс обучения устанавливает соответствие подаваемых на вход образов с принадлежностью к определенному классу. Это называется "обучением с учителем". В применении к распознаванию человека по изображению лица такой подход хорош для задач контроля доступа небольшой группы лиц. Он обеспечивает непосредственное сравнение сетью самих образов, но с увеличением числа классов время обучения и работы сети возрастает экспоненциально, и поэтому для таких задач, как поиск похожего человека в большой базе данных, требует извлечения компактного набора ключевых характеристик, на основе которых можно производить поиск.

    В частности, МНС может использоваться для классификации изображений лиц на основе таких характеристик, как расстояния между некоторыми специфическими частями лица (нос, рот, глаза). Также существуют гибридные системы, например объединение с марковской моделью. В классической МНС межслойные нейронные соединения полносвязны, и изображение представлено в виде одномерного вектора, хотя оно двумерно. Архитектура сверточной НС направлена на преодоление этих недостатков. В ней используются локальные рецепторные поля (обеспечивают локальную двумерную связность нейронов), общие веса (обеспечивают детектирование некоторых черт в любом месте изображения) и иерархическая организация с пространственными подвыборками (spatial subsampling). Сверточная НС (СНС) обеспечивает частичную устойчивость к изменениям масштаба, смещениям, поворотам, искажениям. Архитектура СНС состоит из многих слоев, каждый из которых имеет несколько плоскостей, причем нейроны следующего слоя связаны только с небольшим числом нейронов предыдущего слоя из окрестности локальной области (как в зрительной коре человека). Веса в каждой точке одной плоскости одинаковы (сверточные слоя). За сверточным слоем следует слой, уменьшающий его размерность путем локального усреднения. Затем опять сверточный слой, и так далее. Таким образом, достигается иерархическая организация. Более поздние слои извлекают более общие характеристики, меньше зависящие от искажений изображения. Обучается СНС стандартным методом обратного распространения ошибки. Сравнение МНС и СНС показало существенные преимущества последней как по скорости, так и по надежности классификации. Полезным свойством СНС является и то, что характеристики, формируемые на выходах верхних слоев иерархии, могут быть применимы для классификации по методу ближайшего соседа (например, вычисляя евклидово расстояние), причем СНС может успешно извлекать такие характеристики и для образов, отсутствующих в обучающем наборе. Для СНС характерны высокая скорость обучения и работы. Тестирование СНС на базе данных ORL, содержащей изображения лиц с небольшими изменениями освещения, масштаба, пространственных поворотов, положения и различными эмоциями, показало приблизительно 98{\%} точность распознавания, причем для известных лиц предъявлялись варианты их изображений, отсутствующие в обучающем наборе. Такой результат делает эту архитектуру перспективной для дальнейших разработок в области распознавания изображений пространственных объектов. МНС применяются и для обнаружения объектов определенного типа. Помимо этого, любая обученная МНС в некоторой мере может определять принадлежность образов к "своим" классам, ее можно специально обучить надежному детектированию определенных классов. В этом случае выходными классами будут классы, принадлежащие и не принадлежащие к заданному типу образов.


    Многослойная нейронная сеть для классификации изображений

    Сети Габоровых вейвлетов (GWN).

    Данный метод предназначен для слежения за лицом в реальном времени с помощью Gabor wavelet template (GWT), представляющего собой дискретную линейную комбинацию Габоровых вэйвлетов. Важно отметить, что точность представления лица регулируется числом Габоровых вэйвлетов в GWN, допуская представления множества лиц одним GWT. Такое представление допускает произвольные аффинные преобразования и быструю оценку аффинных параметров методом градиентного спуска. Тем самым, выполняя слежение за лицом, метод определяет и его ориентацию, однако с ограничением на повороты: допускаются, в основном, повороты в плоскости и незначительные пространственные вокруг вертикальной оси.

    Нейронные сети Хопфилда.

    НС Хопфилда (НСХ) является однослойной и полносвязной (связи нейронов на самих себя отсутствуют), ее выходы связаны со входами. В отличие от МНС, НСХ является релаксационной - т. е. будучи установленной в некое начальное положение функционирует до тех пор, пока не достигнет стабильного состояния, которое и будет являться ее выходным значением. НСХ применяются в качестве ассоциативной памяти и для решения оптимизационных задач. В первом случае НСХ обучается без учителя (например, по правилу Хебба), во втором случае веса между нейронами изначально кодируют решаемую задачу. НСХ бывают синхронными, когда одновременно пересчитываются все нейроны, и асинхронными, когда пересчитывается случайно выбранный нейрон. Для исследования динамики функционирования НСХ используются методы Ляпунова. Асинхронная НСХ всегда сходится к устойчивым точкам, а аттракторами синхронной НСХ являются устойчивые стационарные точки и предельные циклы длины два. Таким образом, НСХ из начального состояния сходится к ближайшему локальному минимуму энергии сети, состояние нейронов в котором и будет восстановленным образом для задач распознавания, и решением - для оптимизационных задач. Для поиска глобального минимума применительно к оптимизационным задачам используют стохастические модификации НСХ.

    Применение НСХ в качестве ассоциативной памяти позволяет точно восстанавливать образы, которым сеть обучена, при подаче на вход искаженного образа. При этом сеть "вспомнит" наиболее близкий (в смысле локального минимума энергии) образ, и распознает его. Такое функционирование также можно представить как последовательное применение автоассоциативной памяти. В отличие от автоассоциативной памяти, НСХ идеально точно восстановит образ.

    Хотя разработка систем идентификации по изображениям человеческих лиц ведется уже несколько десятилетий, задача создания эффективного алгоритма идентификации по изображениям человеческих лиц еще далека от завершения.

    Для большинства современных систем автоматического распознавания лиц основной задачей является задача сравнения данного изображения лица с набором изображений лиц из базы данных. Характеристики систем автоматического распознавания лиц в этом случае оцениваются путем определения вероятностей ошибочного отказа в распознавании (для изображения лица, присутствующего в базе, принимается решение как о неопознанном лице) и ошибочного распознавания. В дополнение к вероятностям ошибок для оценки системы автоматического распознавания лиц часто используется оценка устойчивости к возмущению изображений, вызываемая комбинацией со сложными фонами, изменчивостью освещения, изменению прически, и т. д.

    Выбор алгоритма или группы алгоритмов идентификации лиц для создания практических систем автоматического распознавания лиц должен основываться на системе оценок рабочих характеристик конкретной системы, соответствующей ограничениям, связанным с условиями эксплуатации данной конкретной системы, и определяется непосредственно на этапе проектирования.