Диагностика распознавания своих эмоций

Введение в задачу распознавания эмоций

Распознавание эмоций – горячая тема в сфере искусственного интеллекта. К наиболее интересным областям применения подобных технологий можно отнести: распознавание состояния водителя, маркетинговые исследования, системы видеоаналитики для умных городов, человеко-машинное взаимодействие, мониторинг учащихся, проходящих online-курсы, носимые устройства и др.

В этом году компания ЦРТ посвятила этой теме свою летнюю школу по машинному обучению. В этой статье я постараюсь дать краткий экскурс в проблему распознавания эмоционального состояния человека и расскажу и подходах к ее решению.

Что такое эмоции?

Эмоция – это особый вид психических процессов, которые выражают переживание человеком его отношения к окружающему миру и самому себе. Согласно одной из теорий, автором которой является российский физиолог П.К. Анохин, способность испытывать эмоции была выработана в процессе эволюции как средство более успешной адаптации живых существ к условиям существования. Эмоция оказалась полезной для выживаемости и позволила живым существам быстро и наиболее экономно реагировать на внешние воздействия.

Эмоции играют огромную роль в жизни человека и межличностном общении. Они могут быть выражены различными способами: мимикой, позой, двигательными реакциями, голосом и вегетативными реакциями (частота сердечных сокращений, артериальное давление, частота дыхания). Однако наибольшей выразительностью обладает лицо человека.

Каждый человек выражает эмоции несколько по-разному. Известный американский психолог Пол Экман, исследуя невербальное поведение изолированных племен в Папуа-Новой Гвинее в 70-х годах прошлого века, установил, что ряд эмоций, а именно: гнев, страх, печаль, отвращение, презрение, удивление и радость являются универсальными и могут быть поняты человеком, независимо от его культуры.

Люди способны выражать широкий спектр эмоций. Считается, что их можно описать как комбинацию базовых эмоций (например, ностальгия – это что-то среднее между печалью и радостью). Но такой категориальный подход не всегда удобен, т.к. не позволяет количественно охарактеризовать силу эмоции. Поэтому наряду с дискретными моделями эмоций, был разработан ряд непрерывных. В модели Дж. Рассела водится двумерный базис, в котором каждая эмоция характеризуется знаком (valence) и интенсивностью (arousal). Ввиду своей простоты модель Рассела в последнее время приобретает все большую популярность в контексте задачи автоматической классификации выражения лица.

Итак, мы выяснили, что если вы не пытаетесь скрыть эмоциональное возбуждение, то ваше текущее состояние можно оценить по мимике лица. Более того, используя современные достижения в области deep learning возможно даже построить детектор лжи, по мотивам сериала «Lie to me», научной основой которого послужили непосредственно работы Пола Экмана. Однако эта задача далеко не так проста. Как показали исследования нейробиолога Лизы Фельдман Барретт, при распознавании эмоций человек активно использует контекстную информацию: голос, действия, ситуацию. Взгляните на фотографии ниже, это действительно так. Используя только область лица, правильное предсказание сделать невозможно. В связи с этим для решения этой задачи необходимо использовать как дополнительные модальности, так и информацию об изменении сигналов с течением времени.

Здесь мы рассмотрим подходы к анализу только двух модальностей: аудио и видео, так как эти сигналы могут быть получены бесконтактным путем. Чтобы подступиться к задаче в первую очередь нужно раздобыть данные. Вот список наиболее крупных общедоступных баз эмоций, известных мне. Изображения и видео в этих базах были размечены вручную, некоторые с использованием Amazon Mechanical Turk.

Название Данные Разметка Год выпуска
OMG-Emotion challenge aудио/видео 7 категорий, valence/arousal 2018
EmotiW challenge aудио/видео 6 категорий 2018
AffectNet изображения 7 категорий, valence/arousal 2017
AFEW-VA видео valence/arousal 2017
EmotioNet challenge изображения 16 категорий 2017
EmoReact aудио/видео 17 категорий 2016

Классический подход к задаче классификации эмоций

Наиболее простой способ определения эмоции по изображению лица основан на классификации ключевых точек (facial landmarks), координаты которых можно получить, используя различные алгоритмы PDM, CML, AAM, DPM или CNN. Обычно размечают от 5 до 68 точек, привязывая их к положению бровей, глаз, губ, носа, челюсти, что позволяет частично захватить мимику. Нормализованные координаты точек можно непосредственно подать в классификатор (например, SVM или Random Forest) и получить базовое решение. Естественно положение лиц при этом должно быть выровнено.

Простое использование координат без визуальной компоненты приводит к существенной потере полезной информации, поэтому для улучшения системы в этих точках вычисляют различные дескрипторы: LBP, HOG, SIFT, LATCH и др. После конкатенации дескрипторов и редукции размерности с помощью PCA полученный вектор признаков можно использовать для классификации эмоций.

Однако такой подход уже считается устаревшим, так как известно, что глубокие сверточные сети являются лучшим выбором для анализа визуальных данных.

Классификация эмоций с применением deep learning

Для того чтобы построить нейросетевой классификатор достаточно взять какую-нибудь сеть с базовой архитектурой, предварительно обученную на ImageNet, и переобучить последние несколько слоев. Так можно получить хорошее базовое решение для классификации различных данных, но учитывая специфику задачи, более подходящими будут нейросети, используемые для крупномасштабных задач распознавания лиц.

Итак, построить классификатор эмоций по отдельным изображениям достаточно просто, но как мы выяснили, мгновенные снимки не совсем точно отражают истинные эмоции, которые испытывает человек в данной ситуации. Поэтому для повышения точности системы необходимо анализировать последовательности кадров. Сделать это можно двумя путями. Первым способом является подача высокоуровневых признаков, полученных от CNN, классифицирующей каждый отдельный кадр, в рекуррентную сеть (например, LSTM) для захвата временной составляющей.

Второй способ заключается в непосредственной подаче последовательности кадров, взятых из видео с некоторым шагом, на вход 3D-CNN. Подобные CNN используют свертки с тремя степенями свободы, преобразующие четырехмерный вход в трехмерные карты признаков.

На самом деле в общем случае эти два подхода можно объединить, сконструировав вот такого монстра.

Классификация эмоций по речи

На основе визуальных данных можно с высокой точностью предсказывать знак эмоции, но при определении интенсивности предпочтительнее использовать речевые сигналы. Анализировать аудио немного сложнее ввиду сильной вариативности длительности речи и голосов дикторов. Обычно для этого используют не исходную звуковую волну, а разнообразные наборы признаков, например: F0, MFCC, LPC, i-вектора и др. В задаче распознавания эмоций по речи хорошо себя зарекомендовала открытая библиотека OpenSMILE, содержащая богатый набор алгоритмов для анализа речи и музыкальных сигналов. После извлечения, признаки могут быть поданы в SVM или LSTM для классификации.

Однако в последнее время сверточные нейронные сети стали проникать и в область анализа звука, вытесняя устоявшиеся подходы. Для того чтобы их применить, звук представляют в виде спектрограмм в линейной или mel-шкале, после чего с полученными спектрограммами оперируют как с обычными двумерными изображениями. При этом проблема произвольного размера спектрограмм по временной оси элегантно решается при помощи статистического пулинга или за счет включения в архитектуру рекуррентной сети.

Аудиовизуальное распознавание эмоций

Итак, мы рассмотрели ряд подходов к анализу аудио- и видеомодальностей, остался заключительный этап – объединение классификаторов для вывода окончательного решения. Простейшим способом является непосредственное объединение их оценок. В этом случае достаточно взять максимум или среднее. Более сложным вариантом является объединение на уровне эмбеддингов для каждой модальности. Для этого часто применяют SVM, но это не всегда корректно, так как эмбеддинги могут иметь различную норму. В связи с этим были разработаны более продвинутые алгоритмы, например: Multiple Kernel Learning и ModDrop.

Ну и конечно стоит упомянуть о классе так называемых end-to-end решений, которые могут обучаться непосредственно на сырых данных от нескольких датчиков без всякой предварительной обработки.

В целом задача автоматического распознавания эмоций еще далека от решения. Судя по результатам прошлогоднего конкурса Emotion Recognition in the Wild, лучшие решения достигают точности порядка 60%. Надеюсь, что представленной в этой статье информации будет достаточно, для того чтобы попытаться построить собственную систему распознавания эмоций.

Источник

Исследование рынка систем распознавания эмоций

Ученые уже много лет работают не покладая рук, чтобы мощные вычислительные системы были способны адекватно уловить и идентифицировать мимику. В наши дни есть большие успехи, и дело не только лишь в совершенстве предложенных методов и алгоритмов, но и в разработке более новых. Уже достаточно много компаний предлагают программное обеспечение собственной разработки, поэтому я захотел узнать побольше о предоставляемых продуктах по распознаванию эмоций на лице человека.
Под катом много текста и картинок.

Распознавание эмоций является частью большого пласта науки, объединенного в названия «Распознавание образов» и «Обработка визуальной информации». В наши дни технологии по распознаванию перестают быть недосягаемыми и формируется новое веяние, влекущее за собой всех заинтересованных в методах идентификации и обработки найденных объектов и их признаков. Они плавно перетекают из области фантастики в реальную жизнь.

Существующие системы распознавания эмоций

Из коммерческих решений на рынке систем распознавания эмоций (emotion-recognition systems) наиболее совершенным и более интересным для рассмотрения в контексте задачи распознавания эмоций на сегодняшний день является продукт FaceReader голландской компании Noldus Information Technology.

1. FaceReader

Программа может верно интерпретировать такие выражения лица, как «счастливое», «грустное», «сердитое», «удивленное», «испуганное», «недовольное» и «нейтральное», как видно на рисунке. Кроме того, FaceReader способен по лицам людей определять их возраст, пол и этническую принадлежность. FaceReader не нуждается в обучении и дополнительной настройке.
В программе реализованы технологии компьютерного зрения. В частности, это метод Active Template, заключающийся в наложении на изображение лица деформируемого шаблона:

Также, реализован метод Active Appearance Model, с помощью которого можно создавать искусственную модель лица с учетом контрольных точек и деталей поверхности, и сравнивать ее с образцами, заложенными в память.
Классификация происходит методами нейронных сетей с тренировочным набором в 2 000 фотографий.

Возможности программы:

• средний процент распознавания эмоций равен 89%. Для некоторых эмоций он выше, для некоторых ниже;
• наклон лица может быть любым в плоскости, его система обнаружит;
• программа работает с загружаемым видео в форматах с кодеками MPEG1, MPEG2, XviD, DivX4, DivX5, DivX6, DV-AVI и uncompressed AVI, причем определять эмоции можно пофреймно, либо полностью при просмотре всего видео. Также, FaceReader может работать со статичными изображениями, а также в реальном времени, если у пользователя подключена веб-камера;
• программа прекрасно визуализирована: всегда можно посмотреть гистограммы, диаграммы, процентаж выражаемых эмоций. А на таймлайне видны проявления микровыражений в определенный промежуток времени;
• FaceReader генерирует два текстовых файла, один – это лог проявления эмоций, а другой – статический, для сопряженной с данной программой уникальной системы управления визуальными данными The Observer XT, разработанной этой же компанией.

Недостатки программы:

• FaceReader не натренирован для распознавания детей до 5ти лет;
• Если человек в очках, то распознавание эмоций неточное, либо классификация не ведется;
• Люди с разным цветом кожи по-разному воспринимаются системой, программа не до конца адаптирована;
• Повернутое лицо не детектируется.

2. eMotion Software и GladOrSad

Система eMotion Software известна тем, что ее основатели распознали эмоции на картине «Мона Лиза». Результат показал, что она была на 83% счастливой, 9% отображали отвращение, 6% страх и всего на 2% Мона Лиза сердилась.
А еще система известна тем, что это, по сути, первое коммерческое платное «коробочное» решение. Наряду с данным решением, группа разработчиков запустила сайт GladOrSad.com – соответственно, Visual Recognition взяла первенство и в открытии веб-ресурса, посвященного онлайн-распознаванию эмоций.

Первым известным пользователем eMotion Software стала компания Unilever, внедрившая систему распознавания в аппарат по продаже мороженого – Unilever Share Happy. Люди улыбаются автомату, автомат дает за улыбки бесплатное мороженое!

Если человек проявляет эмоции, улыбается, хмурится или корчит гримасу, тысячи мелких мышц лица находятся в работе. Система распознавания эмоций, или ERS (Emotion-recognition system), создает 3D — модель лица, с выявлением 12 ключевых областей, таких как уголки глаза и уголки рта.
В данных программах отслеживающий алгоритм идентифицирует те же самые эмоции, их здесь шесть: гнев, печаль, страх, удивление, отвращение и счастье, а также седьмая – это их смешение.
Программное обеспечение не особо требовательно к вычислительной машине по техническим характеристикам. О деталях реализации алгоритма неизвестно, т.к. технология держится в секрете, брошюр с пояснениями я также не нашел, к сожалению.

3. MMER_FEASy — the FacE Analysis System

Опять же, в разработке использована методология наложения на лицо определенной деформируемой маски, Active Appearance Model methodology, которая позволяет высчитывать нужные параметры в реальном времени. Работа с маской продемонстрирована на рисунке ниже:

Система использует три подключаемых модуля – MMER_Lab, MMER_GPU и MMER_Locate.
MMER_Locate обеспечивает нахождение лица на изображении, ММER_Lab классифицирует некоторые признаки данного изображения, а MMER_GPU обеспечивает эффективную работу всей системы:

Программа распознает шесть базовых эмоций, также предоставляет услуги по нахождению по лицам людей возраста, пола и этнической принадлежности. Также система идентифицирует персону если при этом когда-либо ранее эталонная фотография была загружена в базу.
В дополнительные возможности программы входит подключение к другим программам ее как модуля для удаленных ассистентов, ассистентов водителей, маркетинговых исследований и домашних мультимедиа – сервисов.
Недостатками программы можно считать не полный охват загружаемых данных, т.к. работать можно только с веб-камерой. Плохие результаты и по выгрузке данных, где можно просмотреть только «аватаризацию» лица, т.е. вместо маски подставляется это же лицо, но с другой мимикой.

4. FaceSecurity
FaceVACS-DBScan with Examiner:

Разработка предназначена для обработки уникальных баз и банков данных какой-либо категории людей, к примеру, сотрудников по работе.
Данный продукт представляет собой воплощение биометрической идентификации по эталону образцов из базы.
В новой версии программы система использует новый алгоритм сравнения B5T8 вкупе со старым A14T8, призванный улучшить определяемое сходство.
Кроме того, новый компонент Examiner допускает автоматические преобразования изображения для сравнения в галерее. Это позволяет разработанным операторам смотреть списки потенциальных партнеров при сохранении полного аудита для каждого шага в процессе.
Также данная разработка помогает следователям идентифицировать лица в местах преступления по фотографии и видеонаблюдению путем сопоставления изображений лиц в хранилище агенств.
FaceVACS-Examiner также предоставляет набор инструментов, которые помогают инспекции идентифицировать лицо своевременно, что позволяет следователям действовать в соответствии с результатами поиска в самый минимальный отрезок времени после совершения преступления.

Особенности:

• Кластерная конфигурация для многомиллионной обработки базы данных людей;
• Гибкое и удобное управление списком, который позволяет сортировать его, просматривать и фильтровать;
• Пакетное и интерактивное обучение, идентификация;
• Глубокое и гибкое управление связанных данных;
• Перенастраиваемые логи;
• Прегенерация баз данных (т.е. предварительная быстрая преднастройка перед выдачей результата);
• Доступны множества различных поисковых выборок по базе.

FaceVACS-PortraitAcquisition:

Создание и оценка цифровых портретов для фотодокументов, удостоверяющих личность. Работа компонента иллюстрирована рисунке:

Данный компонент упрощает производство портретов высокого качества для фото на паспорт, водительские права и прочие документы, которые подходят для распознавания лиц.
Графический пользовательский интерфейс продукта специально подстроен для визуального управления и оперирования процессом обработки таких мелочей как фронтальная поза, равномерное освещение, очки и зажмурившиеся глаза. Программное обеспечение специально настроено для оценки на соответствие изображения обязательным требованиям и лучшим практическим рекомендациям стандарта ISO 19794-5 фронтального типа изображения. Программа поддерживает интеграцию с помощью веб-служб (SOAP) для облегчения выдачи сделанного документа.

Особенности:

• Полное соответствие стандартам ISO 19794-5;
• Надежный и автоматизированный процесс сбора информации;
• Проверка фронтальной позы, наличия очков, равномерного освещения, размера головы, размеров изображения, открытия рта, поворота головы, проверка на тонированные стекла, на красные глаза, фронтальный взгляд глаз, экспозиции, цвета кожи, горячих точек, резкости;
• Удобный графический интерфейс пользователя;
• Настраиваемые параметры и пороговые значения;
• Поддерживается формат цифровых зеркальных фотокамер от Nikon (D5000) и Canon (EOS 1000D и 1100D EOS);
• Гибкая обрезка, при необходимости;
• Настраиваемое изображение при предпросмотре (размер, тип изображения, формат изображения);
• Гибкая интеграция с веб-сервисами.

FaceVACS-VideoScan:

Новое поколение компьютерного видеонаблюдения автоматически сканирует входящий видеопоток, обнаруживает несколько лиц и проверяет наличие возможных совпадений в «контрольном списке». Если соответствие найдено, операторы получают уведомления в реальном времени.
Приложение включает в себя не только выявление нежелательных людей в общественных местах, а также идентификацию высокопоставленных клиентов.

Особенности:

• Автоматическая слежка за лицом в реальном времени на нескольких видеопотоках;
• В режиме реального времени лицо сравнивается с эталонами «контрольного списка»;
• Регистрации при неподвижном изображении или при живом потоке видео в ручном и автоматическом режиме;
• Применение С++ API и Web Services API;
• Возможность масштабируемости в пределах «контрольного списка»: размер, количество видеопотоков и число видимых лиц на изображении.

Возможности программ Cognitec:

• Чрезвычайно высокая обработка сравнений по образцам (900 000 сравнений в базе за секунду на среднем по силе процессоре);
• Интеграция с веб-камерами, http – камерами, цифровыми фотоаппаратами, видеокамерами, а также поддержка изображений в распространенных форматах;
• Объемные базы данных, интеграция с Oracle, IBM DB2, MSSQL Server.

Недостатки:

• Вычисления практически во всех компонентах применимы только к фронтально расположенным лицам (возможны отклонения на 15 градусов, но не больше);
• Свет играет большую роль – к примеру, изображение лица в тени компоненты не распознают.

Нельзя не упомянуть о нашумевшем web-решении на базе FaceVACS-SDK и FaceVACS-DBScan, портале MyHeritage.com, где можно строить свое семейное дерево на основе распознавания лица, а также сравнить себя со знаменитостями, сделать морфинг лица, а также распознать и обозначить себя на фото.
Помимо Web-приложений, Cognitec предоставляет API для цифровых рекламных щитов — билбордов (billboard) с целью показа рекламы для целевых аудиторий.
Как уже упоминалось выше, Cognitec участвует и в машиностроении, системы данной компании применяются в автомобилях для анализа лиц водителей и попутчиков, а также безопасности, например, путем выявления позиции головы, обнаружения рассеяного взгляда, обнаружения закрытых глаз.
Еще одним выгодно выделяющим моментом Cognitec среди других компаний является наличие своего собственного SDK для мобильных телефонов.

5. Продукты Affective Computing Research Group

Компания Розалинды Пикард, Affectiva, известна в первую очередь поставляемыми носимыми биосенсорами Q-Sensor. Но не только этим богата компания. Есть огромный опыт внедрения технологий среди Affective computing, или эмоциональных вычислительных систем, разработки идут с 1995 года. Проектов очень много. Это самая старейшая группа разработчиков, занимающаяся данными технологиями.
Есть, например, проект AffQuake на базе продукта ID Software Quake 3. Суть в том, чтобы игра реагировала на эмоциональные сигналы игрока. Геймера обвешивают датчиками, и если ему становится страшно, модифицированный Quake получает «физиологические сигналы» пользователя и заставляет точно так же бояться виртуальное воплощение игрока – оно в страхе отступает.
Или, к примеру, разработана игрушка «Эмоциональный тигр» (Affective Tigger). Данный робот может идентифицировать пять эмоциональных состояний играющего с ним ребёнка и выразить в ответ свою эмоцию. Если ребёнок прыгает, весело тискает и целует игрушку, то система распознавания эмоций и сенсорная система «тигра» это физическое воздействие фиксируют, после чего демонстрируется счастье: Affective Tigger смеётся и улыбается.
Есть занимательное решение для Web. Это инновационный продукт компании Affectiva, сбор данных об эмоциональном состоянии людей во всемирной паутине, Affdex. По большей части он используется для маркетинговых исследований.
Одним из способов распознавания эмоционального состояния по лицу в данных разработках является запись в реальном времени с последующим компьютерным анализом — методами сравнения с заложенными образцами (SURF и на основе SIFT- дескрипторов), а также вейвлет-методами. Работа данных методов применяется в такой программе как Pupeteer, оценивающей поведение и эмоциональное состояние учеников. Демонстрация работы программы:

В ходе эксперимента по данному методу шесть базовых эмоций компьютер определяет с 96-процентной точностью.
Решение примечательно еще тем, что распознает вкупе с эмоциями движения головы, такие как кивок или качание, мотания из стороны в сторону. Используются процессы Байесовского машинного обучения для классификации эмоций, а также для вычисления статистики и вычисления смешанных состояний, когда нельзя точно выразить, какая именно эмоция превалирует.
О самом программном обеспечении можно не многое сказать, так как технологии закрыты. Разработка ведется на С++, Objective C для iPhone. Графически оформляется через обычные инструменты, такие как timeline (или шкала времени), графики и диаграммы, что видно на следующем рисунке:

Среди особенностей можно заметить, что все решения хорошо прорисованы и адаптированы под заказчика, а из недостатков, пожалуй, наибольшим является наличие вычислительной машины с неслабым процессором (выше Core i5) для комфортной работы с приложениями.

Сравнение компаний и промежуточные итоги

Рассмотрены решения лишь некоторых игроков данного бизнеса. Остальные компании предоставляют свои продукты, предназначенные немного для иных задач, но разрабатываемые ими системы так или иначе интересны, потому что могут быть легко усовершенствованы до уровня распознавания эмоций. Это программы и решения, выполняющие такие задачи как:
верификация лица (системы безопасности и контроля доступа);
трекинг и отслеживание лица (системы видеонаблюдения);
сравнение людей по образу и подобию своему (системы поиска);
анимация лица и его преобразование (системы морфинга);
преобразование лица в 3D – модели (системы моделирования);
определение расы, возраста и пола человека (системы гендерной классификации);
многое другое.

Причем большинство компаний, разрабатывающих данные программы, предоставляют свой инструментарий (SDK – Software Development Kit) любому разработчику.
Ключевым критерием применения таких продуктов является их стоимость, а также стоимость предоставляемого SDK. Она колеблется от 5$ до 2 000$. Наиболее дорогостоящие продукты вряд ли будут применяться в небольших компаниях, где разработки такого рода не являются условием работы всей компании.
Ниже, в таблице, привожу список таких программ и комплексов программ. Конечно же, список со временем будет расширяться, но по состоянию на ноябрь 2011 года он актуален:


Актуальна деятельность компаний, ориентированных на web-разработки и технологии. Таковыми являются Google, Twitter, FaceBook и многие другие. Google Inc. применяет технологии распознавания лиц и эмоций для более умного поиска, Twitter оценивает настроение пишущих в онлайн-блогах людей, FaceBook недавно представил обществу новую фичу (усовершенствование) под названием Tagger, которая автоматически распознает, отмечает и подписывает лица друзей пользователя социальной сети.
Разработчики компании Face.com известны своими разработками, а также своей собственной SDK на JavaScript, которую использует PhotoTagger.
Недавно данной компанией была представлена технология, которая позволяет идентифицировать людей по фотографиям, опубликованным на Интернет-сайтах. Программа PhotoFinder анализирует цифровые изображения, найденные на страницах глобальной сети и сравнивает их с эталонным изображением искомого лица, подлинность которого не вызывает сомнения. Для обработки эталона используется алгоритм, который основывается на уникальном расположении различных частей лица — глаз, носа и рта. Вроде ничего нового, но такое программное обеспечение позволяет сконструировать огромнейшую базу пользователей сети Интернет. Данная технология реализована в виде виджетов и может встраиваться создателями web-порталов на их сайты. Поиск ведется как по фотографиям, так и по видео. Данный сервис уже оценили такие компании как Flickr и YouTube. Сторонники технологии считают, что разработка упростит поиск и установление личности. Но есть политика конфиденциальности, которую нарушать нельзя.
Не отступают и компании, представляющие данные инновации в своих продуктах, таких как цифровые фото- и видеокамеры. Таких компаний очень много, среди них Ricoh, Fujifilm, Canon, Nikon и другие.

Разобраны многие продукты компаний, есть достоинства программного обеспечения компаний, а также и недостатки. На основе данной информации мной было принято решение построить таблицу соответствия продуктов определенным критериям, главным для распознавания и выяснить сильные и слабые стороны таких модулей распознавания эмоций:

Выводы

Хотя некоторые компании утверждают, что их продукт чтения эмоций лица является наиболее правильным, важно отметить тот факт, что на сегодняшний день технологии есть, но они распознают только черты, присущие и наиболее подходящие данному выражению лица. Но далеко не всегда можно сказать, действительно такое чувство испытывает человек или же это просто натренированная улыбка, к примеру. Если же добиваться результата такого, чтобы внешнее выражение соответствовало внутренним чувствам пользователя программы, то, на мой взгляд, важно убедиться, что участнику действительно удобно и комфортно выражать свои чувства изнутри и проявлять их на своем лице, и что он этого хочет. Это достигается с использованием полного комплекса технологий, каковыми являются распознавание эмоций, распознавание выражения лица, распознавание речи и интонаций во время разговора данного человека, определение смысловой нагрузки и эмоциональных переживаний при письме и компьютерной переписке – всё это очень влияет на конечный результат. Также, можно использовать датчики.
Как видно из обзора, продукты представлены многими компаниями и в разном виде: от коробочных версий программного обеспечения до веб-решений на основе модели SaaS (Software as a Service – программное обеспечение как услуга) и применений в различных видах техники. Выявлены особенности и недостатки.
В финансовом плане спектр услуг сильно разнится, но подавляющее большинство мультифункциональных решений стоит дорого. Тем не менее, востребованность таких систем растет.

Спасибо за внимание! Пожалуйста, не пинайте автора слишком сильно, это мой первый топик на Хабре… но продолжение следует.

Источник

Читайте также:  Радость горю не попутчик значение
Оцените статью