Искусственные интеллектуальные системы распознавания эмоций

Содержание
  1. Цена улыбки: зачем системы искусственного интеллекта учатся распознавать эмоции
  2. Хороший, плохой, злой: возможен ли эмоциональный искусственный интеллект
  3. Владимир Ильин
  4. С каждым годом разработки в сфере искусственного интеллекта становятся все совершеннее — технология распознавания лиц, (действительно) толковые голосовые помощники и даже искусство, созданное алгоритмами, становятся частью нашей жизни. Остается подождать, когда искусственный интеллект возьмет последний рубеж человеческих возможностей и научится испытывать эмоции, а сценарий фильма «Она» станет реальностью. Возможно ли это на самом деле? Или машины так и останутся послушными, но холодными слугами человека? T&P разбираются, как искусственный интеллект обучают чувствам, почему эти разработки так необходимы для нашей повседневности и что обещает будущее, где машины сравняются с человеком.
  5. Сакральное против познания
  6. Наладить коммуникацию
  7. Научить эмоциям
  8. Эволюционная гонка

Цена улыбки: зачем системы искусственного интеллекта учатся распознавать эмоции

Всплеск публичного и научного интереса к теме детекции и распознавания эмоций, а также бум опирающихся на эти данные технологических решений пришлись на вторую половину 2000 — начало 2010-х годов, пиковых значений эти процессы достигли к рубежу 2015-2016 годов. Тогда сразу два технологических гиганта — корпорации Microsoft и Google — сделали доступными для обычных пользователей свои пилотные проекты. Демоверсия программы Microsoft (Project Oxford), например, быстро стала популярной игрушкой. Идея состоит в том, что вы загружаете онлайн фотографию, а программа пытается с какой-то степенью вероятности детектировать эмоцию по микроэкспрессиям лица, выбирая из шести базовых: презрение, отвращение, страх, счастье, грусть, удивление или фиксируя нейтральное состояние.

Еще один глобальный игрок — корпорация Apple — приобрела стартап Emotient, у истоков которого стоял один из первопроходцев и наиболее известных популяризаторов науки об эмоциях Пол Экман. При этом часто на рынке появлялись интересные продукты от небольших компаний, уже заявившие о себе на рынке. Например, Аффектива (Affectiva), которая выросла из стен лаборатории эмоциональных вычислений (affective computing) Массачусетского технологического института. Еще в 2013-м в американском Forbes называли продукт Affectiva одной из пяти самых прорывных технологий. Похожий проект — Emotient — делают выпускники калифорнийского института в Сан-Диего, а инвестор у них — Intel.

За прошедшее время алгоритмы стали лучше, но по-прежнему актуален вопрос о практической пользе технологий. Как применить тегирование эмоций друзей на фотографии в Facebook или трансформацию улыбки в персонализированный смайлик-эмодзи? Можно довольно успешно использовать такие технологии в нейромаркетинговых целях. Например, та же Affectiva позиционирует один из своих продуктов сугубо для проведения маркетинговых исследований. Однако есть значимая проблема. Все эти продукты, будь то платформенные или облачные, как правило, детектируют эмоции человека по мимике на его лице. Грубо говоря, выбирается определенное количество точек на лице и сравнивается с банком фотографий, на которых эмоция уже распознана. Однако этого недостаточно.

Многоканальные эмоции

Если смотреть видео без звука, то можно четко считать одну конкретную эмоцию. Едва включаешь звук, картина может измениться: восприятие эмоции будет уже совсем иным. Один канал информации задает достаточно жесткие ограничения и до тех пор, пока программа для распознавания эмоций остается больше в статусе «игрушки», ошибки не так критичны. Если же мы претендуем на результат максимально близкий к 100% и хотим сделать бесконтактный детектор эмоций, поведенческих паттернов и физиологических реакций организма, то нам нужны дополнительные источники информации о впечатлениях человека. Та же ложь — это отчасти сокрытие эмоций. И если мы поймем, какие именно эмоции пытается спрятать от глаз собеседника или объектива камеры человек, тогда сумеем выявить, когда он прямо врет, уходит от ответа или же что-то недоговаривает. Представьте себе топ-менеджера или политика, выступающего на пресс-конференции. Он может декламировать с трибуны с абсолютно каменным лицом, но интонации голоса, движения его глаз или тела почти наверняка в какой-то момент выдадут его.

Для корректного распознавания эмоций требуется гораздо больше каналов, во всяком случае не менее четырех, анализируемых синхронно. Первый — собственно, лицо человека. Мимика распознается достаточно четко — регулярно проходят международные соревнования и хакатоны, где сборные команды из разных стран показывают свои решения. Обычно строится 3D-модель головы, и на ней отлавливаются микродвижения мышц. Второй канал — глазодвигательная активность. Отслеживание движений глаз, саккад и фиксаций, дает очень много важной информации, ведь визуальное восприятие действительности — в каком-то смысле главное для человека. Третий — движения тела, включая мелкую моторику, едва заметную невооруженным взглядом: руки, пальцы, колени, ступни и так далее. Ну а четвертый канал — голос. И здесь тоже колоссальное поле для работы: ведь можно не только распознавать интонацию, но и вычленять эмоциональную окраску речи, смотреть, что и как говорит человек.

Читайте также:  Не допускайте плохого настроения

На самом деле существуют и другие каналы, в частности физиология. Например, ускорив видеозапись и отследив колебания головы, можно измерить пульс. И установить, учащается ли он в какой-то ситуации или нет. Выражения «тень пробежала по лицу» или «лицо побелело от ужаса» воплощаются в реальности — это можно увидеть на видеозаписи, но она должна быть идеального качества. Уже сейчас имеются примеры технологий, отслеживающих изменение цвета пикселей на лице человека — так можно понять, как сосуды наполняются кровью. Такие эксперименты еще в 2012 году делали ученые из MIT, и на своем демовидео они показали, как можно измерять пульс, например, у спящего ребенка. Но пока это единичные случаи, и широкого применения такие технологии не получили.

Примеров не хватает

Использование дополнительных каналов ведет к неизбежным трудностям — резко возрастает вариативность. Но это расплата за точность распознавания эмоции. Решить эту проблему можно с помощью глубокого обучения нейросетей, направления, которое развивается сравнительно недавно, но уже позволило индустрии по распознаванию эмоций подняться на принципиально иной уровень. Дальше казалось бы все просто: нейросеть берет картинку в реальном времени и сравнивает ее с огромной базой эталонных видео, где искомые эмоции найдены и известны. И алгоритм справляется с задачей на хорошем уровне. Но тут следует учесть одно обстоятельство: подобных датасетов (наборов) мало, а по ряду каналов они порой не существуют вовсе. Создать большой датасет дорого и трудоемко, поэтому в сети даже попадаются научные работы на тему работы с маленькими датасетами — получения максимум выгоды из маленького набора.

Для распознавания эмоций по изображениям нужен массив фотографий, для распознавания эмоций по видео — соответственно, набор видеороликов. Таких состоятельных с научной точки зрения датасетов в нашем распоряжении не так уж и много, поэтому специалисты нередко вынуждены оперировать одними и теми же выборками, параллельно пополняя их и двигая тем самым вперед всю отрасль. Создание датасета — процесс трудоемкий, требующий значительных ресурсов. Во-первых, необходимо продумать сценарии для актеров или других вовлеченных лиц, чтобы в диалоге с экспериментатором они испытывали, а значит так или иначе выражали различный спектр эмоций. И чем ближе условия коммуникации к естественным, повседневным, тем лучше.

В ходе беседы эмоции сменяют друг друга или даже смешиваются, добавляются различные оттенки. Переход может быть резким или плавным, меняется интенсивность экспрессии и иные параметры. После того, как материал отснят, с ним начинает работать аннотатор — специалист, вручную размечающий присутствующие на записи эмоции. Сколько аннотаторов нужно привлечь для получения качественной разметки? Одного-двух? На самом деле не менее десяти. Причем многое зависит от того, каким образом аннотатор размечает эмоции. Он может просто указывать временной промежуток отдельной эмоции или же отмечать ее интенсивность. Помимо общепризнанных базовых эмоций, с которыми все более-менее ясно, требуется дополнительный классификатор, охватывающий промежуточные эмоции и их сочетания. Еще один аспект — голос. Когда усиливается эмоциональность общения, люди нередко перебивают друг друга, перехватывают очередность реплик или же говорят одновременно, а то и внахлест. Распознавать голос в этом случае сложнее — по сути, надо разделить две-три аудиодорожки и вычленить нужную, а уже потом работать с ней. Этот фактор, к слову, надо учитывать и при составлении сценариев съемки.

Итак, лаборатория записала датасет, аннотаторы его разметили, нейросеть научилась работать с ним. Все готово? К сожалению, не совсем. Классификаторы приходится порой переучивать, а то и обучать заново, принимая во внимание этнокультурные и языковые особенности. Впрочем, в современном мире многие вещи универсализируются, сглаживаются, хотя и не до конца. Например, индиец, выросший в США, будет выражать эмоции схожим с коренными американцами способом, но могут быть и нюансы. Люди неизбежно адаптируются к среде, перенимают жесты, манеры, способы, правила и нормы выражения эмоций. И они, разумеется, порой зримо отличаются. Попробуйте понаблюдать со стороны за деловыми переговорами американцев с китайцами, и вы получите ценнейший материал для сравнительного анализа

Объем рынка

Создание системы, которая приблизится к человеческому уровню распознавания эмоций, — это амбициозная цель и захватывающе интересный процесс. Что стоит на кону? Среди лидеров индустрии наиболее заметны корпорации, — например, Google и Facebook — зарабатывающие на данных о поведении человека во всемирной сети. Они обладают максимально полной информацией о том, на какие сайты мы заходим, в каких местах бываем, что нам нравится или нет, каков наш круг общения. Все это конвертируется в таргетированную, «умную» рекламу. Но с каждым годом объемы данных растут. Рано или поздно мы сможем узнавать человека по походке, отслеживать уровень его стресса, досконально понимать его эмоции. Системы детекции и распознавания эмоций, эмоциональные вычисления, востребованы во многих отраслях — от робототехники до биометрии, от цифровой медицины до интеллектуального транспорта, от интернета вещей до игровой индустрии, не говоря уже об образовании и AR/VR.

Читайте также:  Сильный стресс при беременности последствия для ребенка

Сегодня в гонку вовлечены как гиганты рынка, так и стартапы, они и конкурируют, и органично дополняют друг друга. Вместе с тем эмоциональные технологии на базе нейросетей и машинного обучения — все еще молодое направление (new emerging market, по мнению большинства аналитиков), и, как ни крути, все подобные проекты экспериментальны.

Оценки объемов рынка распознаваний эмоций разнятся. Относительно систематизированные отчеты выпущены фактически только на рубеже 2016-2017 гг. Например, Markets&Markets считают, что объем рынка детекции эмоций вырастет с $6,72 млрд в 2016 году до $36,07 млрд к 2021 году, а годовой темп роста составит 39,9%. А по оценкам Orbis Research глобальный рынок распознавания эмоций в 2016 году оценивался в $6,3 млрд, и к 2022 году достигнет $19,96 млрд.

Задачи на будущее

Проблемой распознавания эмоций компании занимаются уже давно. Какие сейчас есть вызовы в этой сфере? Бум искусственного интеллекта (AI) и машинного обучения, который начался буквально пару лет назад, пришел и сюда. Все крупные игроки пытаются научиться применять AI и при распознавании эмоций. Например, в январе 2017-го Google заявила, что планирует встраивать распознавание лиц и эмоций на основе AI в «умные» платы для робототехники Raspberry Pi. Недавно Microsoft объявила, что научила искусственный интеллект распознавать эмоциональную окраску текста.

Машинное обучение потенциально способно решить проблему, но требует большие выборки для обучения, а они не всегда в наличии, поэтому надо придумывать новые способы получения «сырья» для обучения системы. К тому же в Affectiva правильно утверждают, что с применением машинного обучения возрастают затраты. И надо придумывать, как их снижать, но при этом не терять в точности распознавания.

Однако, главный вызов для ученых и разработчиков сейчас — суметь увязать все элементы системы в единое целое.

Источник

Хороший, плохой, злой: возможен ли эмоциональный искусственный интеллект

Владимир Ильин

С каждым годом разработки в сфере искусственного интеллекта становятся все совершеннее — технология распознавания лиц, (действительно) толковые голосовые помощники и даже искусство, созданное алгоритмами, становятся частью нашей жизни. Остается подождать, когда искусственный интеллект возьмет последний рубеж человеческих возможностей и научится испытывать эмоции, а сценарий фильма «Она» станет реальностью. Возможно ли это на самом деле? Или машины так и останутся послушными, но холодными слугами человека? T&P разбираются, как искусственный интеллект обучают чувствам, почему эти разработки так необходимы для нашей повседневности и что обещает будущее, где машины сравняются с человеком.

Сакральное против познания

В обывательском представлении искусственный интеллект никогда не сможет приблизиться к человеческой эмоциональности из-за нашей особой душевной организации, которую невозможно трансплантировать в машину. Однако сложности с созданием эмоционального ИИ, напротив, связаны с тем, что люди не так уж хороши в эмпатии. Мы совсем не похожи на идеальные эмоциональные машины, которые могут с легкостью расшифровать чувства окружающих. Наша эмпатия серьезно ограничена уникальным опытом, усваиваемыми стереотипами и индивидуальными психоэмоциональными реакциями. Так, европеец из среднего класса вряд ли поймет, какие чувства выражает вождь африканского племени, и наоборот.

С одной стороны, мы полагаем, что эмоциональность — сакральный дар, исключительная привилегия людей. С другой — знаем о ней слишком мало, рассказывает специалист по ИИ и машинному обучению и основатель портала 22century.ru Сергей Марков. По его мнению, отказ от восприятия эмоциональности как священного позволит найти новые методы для изучения эмпатии. С помощью обратной разработки (исследование готового устройства или программы с целью понять принцип его работы и обнаружить неочевидные возможности. — Прим. T&P) исследования нейронных сетей и машинного обучения можно узнать что-то принципиально новое о человеческой эмоциональности. «Машинное обучение позволяет в ряде случаев, что называется, поверить гармонию алгеброй — на смену догадкам и гипотезам приходит более надежное знание, основанное на статистике больших данных», — полагает Марков.

Читайте также:  Архипелаг гулаг самые эмоциональные отрывки

Наладить коммуникацию

Возможно, мы бы и не пытались научить машины эмпатии просто из любопытства, но растущее число автоматизированных систем (от голосовых помощников до самоуправляемых автомобилей) делает эмоциональный ИИ насущной необходимостью. Главная задача, которая стоит перед специалистами по машинному обучению, — упростить работу с разными интерфейсами и на уровне ввода, и в процессе вывода информации. Частота общения с компьютерами очевидно растет, но сами сервисы и системы пока не понимают, почему мы трясем телефоном: от злобы или от смеха.

Эмоциональный интеллект уже сейчас востребован во многих бизнес-проектах. От рекламы, которая, подстраиваясь под эмоциональное состояние потенциального клиента, увеличивает продажи, до технологий распознавания, которые, обнаружив самого нервного человека в толпе, помогут поймать преступника.

Исследователям предстоит поработать с эмоциональным интеллектом и из соображений безопасности. «Решения, которые принимаются компьютерами, не должны казаться психопатическими. Если машина действует в мире, где живут люди, она должна уметь принимать во внимание „человеческие обстоятельства“, то есть быть способной к эмпатии. Стандартный пример: робот-диагност, отправляющий пожилого человека на сложную операцию, должен учитывать риски, связанные со стрессом. Беспилотный автомобиль, начисто лишенный эмпатии, в определенном контексте тоже может натворить бед», — считает философ Кирилл Мартынов.

Алармисты вроде философа и специалиста по антропоцену Ника Бострома, отмечает Мартынов, утверждают, что проблема «потери чувствительности» у сверхразума, резко выделяющегося на фоне человеческого уровня, вполне реальна. Эту проблему пытаются предотвратить уже сейчас при помощи юридических ограничений. При таком подходе создателей ИИ законодательно обяжут наделять разработки элементами эмоционального разума, необходимыми для эмпатии.

Научить эмоциям

Нетривиальная задача создания эмоционального ИИ упрощается с появлением новых инструментов вроде машинного обучения. Сергей Марков описывает этот процесс следующим образом: «Можно взять несколько сотен тысяч аудиозаписей человеческих высказываний и попросить группу людей-разметчиков сопоставить с каждой из этих фраз набор маркеров „эмоционального алфавита“. Затем случайным образом отбираются 80% фраз — на этой выборке нейросеть обучают угадывать эмоциональные маркеры. Оставшиеся 20% можно использовать, чтобы убедиться в исправной работе искусственного интеллекта». В другой модели обучения, которую описывает Марков, нейросеть получает бо́льшую самостоятельность. В ней ИИ сам категоризирует фразы по схожей эмоциональной окраске, темпу речи и интонации, а позже учится синтезировать свои высказывания на основе полученных категорий. Так или иначе, главным ресурсом для обучения искусственного интеллекта становятся большие массивы данных.

Эволюционная гонка

Говоря о машинном обучении и удобных интерфейсах, мы концентрируемся на практических задачах и их решениях. Но как насчет появления «настоящей» (как у людей) эмоциональности у искусственного интеллекта? Сможет ли машина любить, грустить и злиться? «Тот факт, что мы переживаем наши собственные эмоции как „настоящие“, связан лишь с тем, что так настроена наша когнитивная система, возникшая в ходе эволюции. Особи, способные испытывать эмоции и контролировать свое поведение, получали преимущество в эволюционной гонке. Компьютеры вряд ли смогут приблизиться к моделированию реальной эволюции приматов — в этом смысле их эмоции не будут „реальными“», — полагает Мартынов.

Ключевой вопрос, говорит Мартынов: можно ли смоделировать субъективные переживания эмоций, то, что Аристотель назвал бы душой, а Декарт — cogito? Прямого ответа на этот вопрос наука до сих пор не дает, а философы собирают конференции о природе квалиа (нередуцируемых элементов субъективного опыта). Хотя есть и оптимисты вроде философа и когнитивиста Дэниела Деннета, которые утверждают, что в конечном счете субъективный опыт — это способность рассказывать себе и окружающим о том, что вы почувствовали. Убедительные вербальные отчеты об эмоциях мы, конечно, получим от машин в ближайшее время, думает Мартынов.

Но с большой вероятностью, полагает Сергей Марков, наше совместное будущее с эмоциональным искусственным интеллектом примет формы, которые невозможно вообразить сегодня со стереотипным противопоставлением людей и машин: «Скорее в будущем люди и машины будут объединены в гетерогенные синтетические системы, в которых вы уже не сможете провести даже условную черту, разделяющую человека и продукт его технологий. В таком сценарии эмоциональному интеллекту уготована большая роль».

Источник

Оцените статью