Как определить эмоции по голосу

Содержание

Эмоции человека в голосе и пении — появление и распознавание
Краткая расшифровка эмоций
Эмоции в пении
Изучение внутреннего состояния собеседника по голосу и манере говорить
Введение в задачу распознавания эмоций
Что такое эмоции?
Классический подход к задаче классификации эмоций
Классификация эмоций с применением deep learning
Классификация эмоций по речи
Аудиовизуальное распознавание эмоций

Эмоции человека в голосе и пении — появление и распознавание

Голос – это маркер психоэмоционального состояния, отношения к тому или иному явлению, событию. Специалисты фоноскопической экспертизы по голосу могут рассказать о темпераменте и характере человека. Голос и эмоции связаны очень тесно. В состоянии возбуждения, грусти, шока люди редко контролируют звучание своего голоса. Существует даже понятие «психосоматика отсутствия голоса». Когда осиплость, охриплость, потерю голоса вызывает страх что-то сказать или спросить.

Краткая расшифровка эмоций

Внутреннее состояние человека меняет голосовой тембр и интонацию. Это доказанный факт, который используют для определения лжи при исследовании на полиграфе. Если человек не стремиться сознательно скрыть переживания — распознать эмоций по голосу несложно. Недовольные люди разговаривают отрывисто и раздраженно, грустные – тихо и медленно, счастливые – бодро и оживленно. Тон зависит от настроения и личности собеседника. Поэтому голос наделяют разными эпитетами — «воркующий», «металлический», «вздрагивающий», «упавший». Проявление эмоций в голосе отражается и на высоте звука:

высокими нотами передают радость, страх, гнев;
ультравысокими – тревогу, беспокойство;
низкими – страсть, желание.

Форсирование звука свидетельствует о напряжении и лжи. К акустическим невербальным средствам относится:

свист, сопровождающий внутреннюю неуверенность;
спазм, характеризующий сильное напряжение;
покашливание, указывающее на беспокойство, попытку обмана собеседника.

Внимательное отношение к эмоциям в голосе других людей помогает интуитивно оценить их внутреннее состояние. И от этого будет зависеть степень доверия к человеку.

Эмоции в пении

Голосовая эмоциональность в вокале – это проводник, передающий глубину чувств, заложенных в мелодиях и текстах песен. Не являясь величиной материальной, эмоционально окрашенный голос может оказывать физическое воздействие. Когда, слушая песню, человек испытывает приятное чувство «бегущих по телу мурашек» Этот феномен называется сенсорная меридиональная реакция или «фриссон».

Для самого исполнителя пение и эмоции должны сочетаться гармонично, без перегибов. Излишняя возбужденность собьет дыхание, помешает грамотному звуковедению, применению вокальных техник. В результате певец может сорвать связки. Педагоги по вокалу рекомендуют творчески воплощать чувства, но не переживать их в действительности.

Бережное отношение к здоровью голосового аппарата – важное условие в обучении пению. Хорошим помощником в сохранении вокальных данных станут таблетки «Гомеовокс». В состав препарата входит 10 лекарственных растений, защищающих связки гортани от вирусов и повреждений.

Источник

Изучение внутреннего состояния собеседника по голосу и манере говорить

Голос и манера говорить содержат для внимательного собеседника первичную незамаскированную информацию о партнере по общению. По громкости речи, ее скорости, отчетливости, высоте голоса и окраске его звучания можно понять внутреннее состояние того, с кем вы разговариваете, а это для делового общения очень важно.

Громкость речи служит хорошим показателем жизненной энергии и происходящей от нее уверенности. Сильные изменения громкости свидетельствуют о повышенной эмоциональности, волнении, сопереживании собеседника. Нерегулярные колебания слабой громкости голоса — показатель нехватки стойкости, склонности к быстрой сдаче позиций при первых же трудностях.

Однако судить собеседника по громкости голоса надо осторожно. Громкий голос может быть специально «сделан» для сокрытия слабого духа, и его обладателя в таком случае можно уподобить путнику в ночном лесу, который от страха начинает громко петь. Чрезмерная громкость голоса может быть и проявлением недостаточной критичности к себе, невладением своими эмоциями, например, у пьяных или в припадке гнева. В то же время слишком тихий голос может быть маскировкой для достижения тайных целей, особенно при общем напряжении говорящего.

Скорость речи всегда соответствует темпераменту и так называемому темпу жизни человека. Если он говорит быстро, напористо, завершая мысль, значит, он энергичен, реактивен, из тех, кто сначала делает, а потом думает. А если человек говорит медленно, как бы взвешивая каждое слово, — он нетороплив, обстоятелен, тщательно анализирует ситуацию, обдумывает каждый свой шаг. Это свойство ученых и политиков. Обратите внимание — среди политиков, за редким исключением, нет быстроговорящих.

Оживленная, бойкая речь, когда ее течение равномерно, характеризует подвижного, легкого на подъем, уверенного в себе человека. Ускоряющийся темп речи (и соответственно жестикуляции) является свидетельством того, что собеседник все больше вдохновляется, погружаясь в то, о чем говорит. Однако, когда такая речь сопровождается нарушением ритма, это свидетельствует о робости (возможно, только в данной ситуации) и неуверенности собеседника. А в тех случаях, когда оживленная речь становится скачкообразной, к тому же сопровождаемой чрезмерной жестикуляцией, мы имеем дело с возбужденным, торопливым, непостоянным, неуправляемым человеком.

Люди, произносящие слова скороговоркой, глотающие окончания, не связывающие фразы логически, по характеру, интеллекту и по жизни — самая неприятная категория. Если только это не «речевая маска», как у Талейрана. Этот умнейший дипломат и политик специально говорил невнятно, бормоча себе под нос, чтобы потом иметь возможность отказаться от своих слов и сказать, что его просто неправильно поняли.

Замедляющаяся скорость речи (и жестикуляции) — свидетель наступления задумчивости, потери уверенности, включения внутренних тормозов по поводу сказанного.

Если у собеседника прослеживаются заметные колебания скорости речи — перед вами, скорее всего, легко возбудимый, недостаточно уравновешенный человек.

Высота голоса, так же, как его громкость и скорость речи, является показателем внутреннего состояния собеседника. Когда у него высокий пронзительный голос, то это может означать, что он испытывает волнение или страх. Низкий тон голоса, наоборот, говорит о спокойствие и достоинстве собеседника, который знает себе цену.

Следует обращать внимание и на отчетливость речи собеседника. Ясное и четкое произнесение им слов (четкие движения нижней челюсти) свидетельствует о его внутренней дисциплине и потребности точно выразить другому свое мнение. Наоборот, нечеткое, неразборчивое произношение (нижняя челюсть двигается мало) служит показателем внутреннего неуважения к собеседнику. Такой человек даже не заботится о том, чтобы другим было легко его понять.

Окраска звучания голоса, как и другие характеристики речи, содержит для внимательного собеседника большую первичную, плохо поддающуюся маскировке информацию о партнере по общению. Это объясняется тем, что интонации, отражающие психологические черты, так же индивидуальны, как узоры на пальцах. Только актеры могут управлять своими интонациями. У остальных же они безошибочно выдают, что собой представляет человек: добрый он или злой, скромен или чванлив, уважает людей или относится к ним свысока.

Мозговые центры, ответственные за восприятие эмоциональной окраски речи, начинают работать чуть не с момента рождения. Двухнедельный малыш безошибочно реагирует на эмоциональную окраску обращенной к нему речи, хотя значение слов начинает понимать гораздо позже. Дети не подойдут к взрослому, если услышат в его речи неприязненный тон, как бы тщательно тот ни пытался его скрыть. Поэтому дети так безошибочно точно делят людей на плохих и хороших.

Голос связан с анатомией и физиологией: он зависит от строения тела и органов голосообразования. Глотка, носоглотка, рот, полость носа — это верхние резонаторы, а трахея, бронхи и легкие — нижние. У каждого человека органы голосообразования имеют индивидуальные особенности, поэтому и голоса так несхожи между собой. И стопроцентно подделать чужой голос практически невозможно.

В криминалистике в этой области развивается целое научное направление. В первую очередь — для составления фотороботов телефонных террористов, шантажистов и прочих преступников по голосу. Так, по голосу можно составить следующие характеристики человека:

Рост. Чем больше гортань и длиннее и толще голосовые связки, тем ниже голос, следовательно, обладателем такого голоса является высокий человек. У высоких также в голосе больше обертонов. Низкорослого человека выдают слабые резонаторы. Бывают, правда, исключения из правил: природа может наградить низкорослого человека большой гортанью или мощными резонаторами.
Возраст. У детей голосовые связки более эластичные, у взрослых — более жесткие, у пожилых — дряблые, голос у них подсевший. Старики говорят медленнее, чем молодые. Обычно человеческое ухо способно определить возраст по голосу с ошибкой в 5–7 лет, эксперт же может ошибиться всего на два года.
Размер рта. Эксперты способны определить его с точностью до миллиметра: тембр голоса у людей с большим и маленьким ртом сильно отличается.
Вес. Люди к старости полнеют, и это отражается на звучании их голоса. Щеки у полных людей пухлые, поэтому тембр голоса у них более мягкий.

Голос можно сымитировать, но нельзя скопировать интонации. Это позволяет создавать, например, компьютеры, открывающие информацию только на голос хозяина. В крупнейших банках мира сейфы запрограммированы не только на парольную фразу, но и на сам голос. И если вы охрипли и ваши интонации изменились — «сезам» не откроется.

Окраска голоса складывается из смешения «головных» и «грудных» тонов. Их соотношение зависит от степени эмоционального участия: когда властвует разум — преобладает «головной» тон, когда человек во власти эмоций — «грудной». Замечено, что голос человека становится благозвучным, когда он удачно разрешит свою личную проблему, поэтому по изменению окраски голоса собеседника можно судить, добились ли мы своей цели, сумели ли его успокоить и помочь. Всем известно, что голос может восприниматься как «мягкий» или «твердый», «теплый» или «холодный».

Металлическое звучание голоса говорит об энергичности и твердости собеседника. Елейный, масленый голос происходит от только изображаемого дружелюбия и фальшивого пафоса. По нему всегда легко разоблачить подхалима.

Особенно важно улавливать следующие различия в окраске звучания голоса: певучая речь (сильное подчеркивание гласных) означает темпераментность, чувственность и типична для людей, которых называют «добряками»; речь, в которой гласные отступают на второй план перед остро подчеркиваемыми согласными — показатель преобладания разума и воли, точно анализирующего рассудка; монотонный голос указывает на робость, зажатость, скрытность.

Когда высота, мелодичность голоса меняются в очень широких пределах — это показатель открытости, многообразия интересов. Падение тона к концу каждой фразы свидетельствует о мягкости и слабой воле. Иногда это может быть результатом физической слабости, например, у старых людей.

Ритмические колебания высоты тона говорят об оживлении при внутренней уравновешенности, способности к творчеству. Неритмичные колебания, т. е. неравномерное повышение и падение тона, указывают на неуравновешенность собеседника, отсутствие у него стабильности.

Округло-текучая манера говорить с мягкими переходами отдельных звуков и слов — признак глубокой, полной эмоциональной жизни.

Угловато-отрывистая речь с внезапными изменениями громкости говорит о том, что у собеседника целенаправленное, прагматичное мышление, иногда — о нервозности. Такую речь можно встретить у определенного типа бизнесменов с явной или скрываемой авторитарностью, склонностью к диктату.

Внутреннее состояние собеседника можно определить и по дыханию. «Почерк» дыхания, дыхательный стиль изменить так же трудно, как и устоявшийся почерк письма. Дыхание — основа жизни, значит, в нем отражается весь человек. Поэтому знание дыхательно-голосовых нюансов очень полезно для распознавания внутреннего состояния любого собеседника. Рассмотрим эти нюансы более подробно.

Резкий короткий вдох — это знак внезапного удивления или негодующего изумления. Короткий выдох, фырканье или обрывок смеха — показатель презрения.

Шумное, прерывистое, почти судорожное дыхание говорит о крайней степени волнения, возможно начало истерического припадка.

Непроизвольные задержки, затаивание дыхания являются свидетельством внутреннего напряжения, ярких сильных чувств, интенсивной умственной деятельности.

Непроизвольный «перевод духа» стирает уже ненужное напряжение, являясь признаком избавления от страха, показателем благополучного конца чего-либо.

Очень медленное, почти сонное дыхание всегда подчеркивает полную степень освобождения, покоя, абсолютной отключенности от происходящего, а также скуки.

Беспрестанные резкие вдохи и энергичные выдохи — свидетельство, что перед вами нетерпеливый, раздражительный, высоко-эмоциональный, с низким самоконтролем собеседник.

Шумное, сопящее дыхание указывает на человека напряженных влечений, тяжелого нрава и весьма подозрительного. Однако такое дыхание может быть и у человека, страдающего астмой или другим подобного рода заболеванием.

Дыхание ровное и мощное бывает у уверенного в себе, бодрого и неистощимо оптимистичного собеседника. И, наоборот, вдохи зажатые, словно скрипящие ржавыми тормозами, и такие же выдохи указывают на подавленного, мнительного, неуверенного в себе собеседника меланхолического темперамента.

Феликс Кузьмин
По материалам «Elitarium»

Источник

Введение в задачу распознавания эмоций

Распознавание эмоций – горячая тема в сфере искусственного интеллекта. К наиболее интересным областям применения подобных технологий можно отнести: распознавание состояния водителя, маркетинговые исследования, системы видеоаналитики для умных городов, человеко-машинное взаимодействие, мониторинг учащихся, проходящих online-курсы, носимые устройства и др.

В этом году компания ЦРТ посвятила этой теме свою летнюю школу по машинному обучению. В этой статье я постараюсь дать краткий экскурс в проблему распознавания эмоционального состояния человека и расскажу и подходах к ее решению.

Что такое эмоции?

Эмоция – это особый вид психических процессов, которые выражают переживание человеком его отношения к окружающему миру и самому себе. Согласно одной из теорий, автором которой является российский физиолог П.К. Анохин, способность испытывать эмоции была выработана в процессе эволюции как средство более успешной адаптации живых существ к условиям существования. Эмоция оказалась полезной для выживаемости и позволила живым существам быстро и наиболее экономно реагировать на внешние воздействия.

Эмоции играют огромную роль в жизни человека и межличностном общении. Они могут быть выражены различными способами: мимикой, позой, двигательными реакциями, голосом и вегетативными реакциями (частота сердечных сокращений, артериальное давление, частота дыхания). Однако наибольшей выразительностью обладает лицо человека.

Каждый человек выражает эмоции несколько по-разному. Известный американский психолог Пол Экман, исследуя невербальное поведение изолированных племен в Папуа-Новой Гвинее в 70-х годах прошлого века, установил, что ряд эмоций, а именно: гнев, страх, печаль, отвращение, презрение, удивление и радость являются универсальными и могут быть поняты человеком, независимо от его культуры.

Люди способны выражать широкий спектр эмоций. Считается, что их можно описать как комбинацию базовых эмоций (например, ностальгия – это что-то среднее между печалью и радостью). Но такой категориальный подход не всегда удобен, т.к. не позволяет количественно охарактеризовать силу эмоции. Поэтому наряду с дискретными моделями эмоций, был разработан ряд непрерывных. В модели Дж. Рассела водится двумерный базис, в котором каждая эмоция характеризуется знаком (valence) и интенсивностью (arousal). Ввиду своей простоты модель Рассела в последнее время приобретает все большую популярность в контексте задачи автоматической классификации выражения лица.

Итак, мы выяснили, что если вы не пытаетесь скрыть эмоциональное возбуждение, то ваше текущее состояние можно оценить по мимике лица. Более того, используя современные достижения в области deep learning возможно даже построить детектор лжи, по мотивам сериала «Lie to me», научной основой которого послужили непосредственно работы Пола Экмана. Однако эта задача далеко не так проста. Как показали исследования нейробиолога Лизы Фельдман Барретт, при распознавании эмоций человек активно использует контекстную информацию: голос, действия, ситуацию. Взгляните на фотографии ниже, это действительно так. Используя только область лица, правильное предсказание сделать невозможно. В связи с этим для решения этой задачи необходимо использовать как дополнительные модальности, так и информацию об изменении сигналов с течением времени.

Здесь мы рассмотрим подходы к анализу только двух модальностей: аудио и видео, так как эти сигналы могут быть получены бесконтактным путем. Чтобы подступиться к задаче в первую очередь нужно раздобыть данные. Вот список наиболее крупных общедоступных баз эмоций, известных мне. Изображения и видео в этих базах были размечены вручную, некоторые с использованием Amazon Mechanical Turk.

Название	Данные	Разметка	Год выпуска
OMG-Emotion challenge	aудио/видео	7 категорий, valence/arousal	2018
EmotiW challenge	aудио/видео	6 категорий	2018
AffectNet	изображения	7 категорий, valence/arousal	2017
AFEW-VA	видео	valence/arousal	2017
EmotioNet challenge	изображения	16 категорий	2017
EmoReact	aудио/видео	17 категорий	2016

Классический подход к задаче классификации эмоций

Наиболее простой способ определения эмоции по изображению лица основан на классификации ключевых точек (facial landmarks), координаты которых можно получить, используя различные алгоритмы PDM, CML, AAM, DPM или CNN. Обычно размечают от 5 до 68 точек, привязывая их к положению бровей, глаз, губ, носа, челюсти, что позволяет частично захватить мимику. Нормализованные координаты точек можно непосредственно подать в классификатор (например, SVM или Random Forest) и получить базовое решение. Естественно положение лиц при этом должно быть выровнено.

Простое использование координат без визуальной компоненты приводит к существенной потере полезной информации, поэтому для улучшения системы в этих точках вычисляют различные дескрипторы: LBP, HOG, SIFT, LATCH и др. После конкатенации дескрипторов и редукции размерности с помощью PCA полученный вектор признаков можно использовать для классификации эмоций.

Однако такой подход уже считается устаревшим, так как известно, что глубокие сверточные сети являются лучшим выбором для анализа визуальных данных.

Классификация эмоций с применением deep learning

Для того чтобы построить нейросетевой классификатор достаточно взять какую-нибудь сеть с базовой архитектурой, предварительно обученную на ImageNet, и переобучить последние несколько слоев. Так можно получить хорошее базовое решение для классификации различных данных, но учитывая специфику задачи, более подходящими будут нейросети, используемые для крупномасштабных задач распознавания лиц.

Итак, построить классификатор эмоций по отдельным изображениям достаточно просто, но как мы выяснили, мгновенные снимки не совсем точно отражают истинные эмоции, которые испытывает человек в данной ситуации. Поэтому для повышения точности системы необходимо анализировать последовательности кадров. Сделать это можно двумя путями. Первым способом является подача высокоуровневых признаков, полученных от CNN, классифицирующей каждый отдельный кадр, в рекуррентную сеть (например, LSTM) для захвата временной составляющей.

Второй способ заключается в непосредственной подаче последовательности кадров, взятых из видео с некоторым шагом, на вход 3D-CNN. Подобные CNN используют свертки с тремя степенями свободы, преобразующие четырехмерный вход в трехмерные карты признаков.

На самом деле в общем случае эти два подхода можно объединить, сконструировав вот такого монстра.

Классификация эмоций по речи

На основе визуальных данных можно с высокой точностью предсказывать знак эмоции, но при определении интенсивности предпочтительнее использовать речевые сигналы. Анализировать аудио немного сложнее ввиду сильной вариативности длительности речи и голосов дикторов. Обычно для этого используют не исходную звуковую волну, а разнообразные наборы признаков, например: F0, MFCC, LPC, i-вектора и др. В задаче распознавания эмоций по речи хорошо себя зарекомендовала открытая библиотека OpenSMILE, содержащая богатый набор алгоритмов для анализа речи и музыкальных сигналов. После извлечения, признаки могут быть поданы в SVM или LSTM для классификации.

Однако в последнее время сверточные нейронные сети стали проникать и в область анализа звука, вытесняя устоявшиеся подходы. Для того чтобы их применить, звук представляют в виде спектрограмм в линейной или mel-шкале, после чего с полученными спектрограммами оперируют как с обычными двумерными изображениями. При этом проблема произвольного размера спектрограмм по временной оси элегантно решается при помощи статистического пулинга или за счет включения в архитектуру рекуррентной сети.

Аудиовизуальное распознавание эмоций

Итак, мы рассмотрели ряд подходов к анализу аудио- и видеомодальностей, остался заключительный этап – объединение классификаторов для вывода окончательного решения. Простейшим способом является непосредственное объединение их оценок. В этом случае достаточно взять максимум или среднее. Более сложным вариантом является объединение на уровне эмбеддингов для каждой модальности. Для этого часто применяют SVM, но это не всегда корректно, так как эмбеддинги могут иметь различную норму. В связи с этим были разработаны более продвинутые алгоритмы, например: Multiple Kernel Learning и ModDrop.

Ну и конечно стоит упомянуть о классе так называемых end-to-end решений, которые могут обучаться непосредственно на сырых данных от нескольких датчиков без всякой предварительной обработки.

В целом задача автоматического распознавания эмоций еще далека от решения. Судя по результатам прошлогоднего конкурса Emotion Recognition in the Wild, лучшие решения достигают точности порядка 60%. Надеюсь, что представленной в этой статье информации будет достаточно, для того чтобы попытаться построить собственную систему распознавания эмоций.

Источник