Книга Сердце машины. Наше будущее в эру эмоционального искусственного интеллекта, страница 22. Автор книги Ричард Йонк

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Сердце машины. Наше будущее в эру эмоционального искусственного интеллекта»

Cтраница 22

Появляются десятки компаний, ориентированные не только на чтение лиц, но и на другие способы эмоционального взаимодействия. Компания Beyond Verbal с главным офисом в Тель-Авиве занимается анализом эмоций, распознавая интонации в человеческой речи. Их первое приложение применялось в кол-центрах и службах техподдержки и позволяло считывать эмоции и настроение клиента. На сегодняшний день Beyond Verbal расширяют рынок, особенно в области фитнеса и здоровья9. В течение двадцати одного года физики и нейрофизиологи компании проводили исследования и обучали свою систему: в их базе данных более 1,6 миллиона образцов голоса людей из 174 стран. Перед добавлением в учебную базу данных каждый образец анализировали трое психологов, решавших, какие эмоции он содержит. По словам сотрудников компании, приложение может не только распознавать основное и сопутствующее настроение звонящих, но и некоторые аспекты поведения и личности. Такие данные можно использовать для настройки автоматизированных систем и инструктажа обслуживающего персонала, чтобы повысить уровень удовлетворенности клиентов. Использование системы в кол-центрах позволяет эффективнее реагировать на разного рода ситуации. Например, стратегии работы с рассерженными клиентами, которым необходимо решить свою проблему, отличаются от стратегий работы с теми, кто хочет просто выплеснуть свое раздражение.

Компания Beyond Verbal использует методики глубинного обучения и распознавания образов, чтобы выделить из колебательных сигналов голоса эмоциональную составляющую. Сам по себе человеческий голос эволюционировал не для того, чтобы передавать эмоции, но именно психология человека определяет и задает интонацию в речи. Руководитель научного отдела компании доктор Йорам Леванон в беседе о том, как эмоции обретают голосовое выражение, отмечает, что соматические изменения, сопровождающие переживание эмоций, изменяют свойства речи. В какой-то мере это схоже с идеей Манфреда Клайнса о том, что эмоции можно обнаружить по колебательным сигналам от нажатия пальцев. По словам доктора Леванона, мы учимся определять эти эмоциональные характеристики голоса на ранних этапах своего развития, начиная с внутриутробного периода. Предположительно, во время раннего обучения происходит самоорганизация соответствующих нейронов, в результате которой мы обретаем способность распознавать эмоции в голосе людей10.

Beyond Verbal предлагает интерфейс программирования приложений (API) и набор средств разработки (SDK), позволяющие разработчикам встроить в собственные приложения функцию анализа эмоций по интонациям голоса. Они также запустили технологию Moodies, которая позиционируется как первое в мире приложение обработки и анализа данных для смартфонов. В Beyond Verbal утверждают, что оно может оценивать результат на основе более чем четырехсот эмоциональных вариантов, определяющих широкий спектр чувств и настроений. Генеральный директор компании Юваль Мор прогнозирует, что вскоре приложения для обработки и анализа голосовых данных станут частью каждого устройства или платформы с голосовой активацией.

Десятки компаний стремятся занять свою нишу в сфере технологий распознавания голоса. Одни разрабатывают собственные продукты с нуля, другие пользуются интерфейсами программирования и наборами средств для разработки приложений от сторонних производителей.

Кроме Affectiva и Emotient, в сфере распознавания выражений лица работают такие компании, как Eyeris, IMRSV, Noldus, RealEyes, Sightcorp, и Affective Computing Company (tACC).

Даже Microsoft запустила когнитивные сервисы, предложив API-интерфейс Emotion, предоставляющий естественные и контекстные интерактивные инструменты для улучшения взаимодействия с пользователем. Сейчас интерфейс ориентирован в основном на распознавание выражений лиц.

В других областях распознавания эмоций работает компания Emospeech, которая, как и Beyond Verbal, разрабатывает приложения для определения эмоций в речи. Nemesysco, еще одна израильская компания, занимается анализом уровня стресса говорящего с целью выявления мошенничества. Шведская компания Tobii's business ориентируется на контроль взгляда и движений глаз при изучении человеческого поведения. Анализ походки и поз также считается предметом исследования эмоционального программирования и находит применение в таких областях, как физиотерапия и эргономика. Однако пока еще сложно использовать согласованные признаки эмоциональных состояний для фиксирования той или иной эмоции. Возможно, когда технология геолокации достигнет определенного разрешения или с портативных камер можно будет получать обратную связь о передвижениях владельца, анализ общих признаков сможет продвинуться вперед.


Обратная сторона эмоционального программирования – синтез эмоций для программного обеспечения и роботизированных систем. Некоторые компании начали заполнять этот сегмент рынка и обучать машины создавать видимость эмоций. Например, компания Emoshape, с представительствами в Лондоне и Нью-Йорке производит эмоциональный процессор, который можно встраивать в устройства, создавая у пользователя впечатление, что устройство переживает эмоции11. Эмоциональный процессор позиционируется как первый эмоциональный чип для ИИ, роботов и электронных устройств широкого потребления. Он подключается к сенсорам, определяющим эмоции пользователя, а затем воспроизводит эту информацию в своем поведении. Отслеживая выражения лица, используемые слова и тона голоса пользователя, устройство может оценивать уровень его эмоций.

Другие компании неизменно последуют их примеру, либо создавая собственные специализированные эмоциональные процессоры, как Emoshape, либо разрабатывая и продавая собственные эмоциональные движки с API-интерфейсом, в которые можно встраивать другие приложения. С их помощью можно будет изменять поведение и действия роботов, программных приложений и персональных ИИ-помощников, подобных Мэнди (персональному цифровому помощнику из главы 1).

Во всей этой ситуации интересно одно – преобладающее количество стартапов, использующих технологии распознавания эмоций. По всей видимости, это объясняется двумя причинами. Во-первых, существующие технологии позволяют развивать именно это направление: веб-камеры, камеры смартфонов с достаточным разрешением и скоростью; доступные вычислительные мощности всех наших устройств – стационарных компьютеров, ноутбуков и, самое главное, смартфонов; высокая скорость передачи данных и возможность подключаться к серверам и службам проводным способом, по Wi-Fi или через мобильные устройства.

Вторая причина интереснее. Компьютерное распознавание образов и глубинное обучение – технологии, которые за последние годы достигли значительной сложности и больших возможностей. В некоторых ситуациях компьютеры способны распознавать то, что человек заметить не в состоянии, в то время как в других условиях они откровенно слабы. Когда имеются разумно структурированные универсальные признаки – скажем, четыре зубца у вилки, четыре колеса у автомобиля или начертание в алфавита, – система распознавания, основанная на нейронной сети, может обучаться очень хорошо даже в плохих условиях. Большинство систем распознавания выражений лиц основаны на структурированной таксономии, по большей части на карте движений лицевых мышц, составленной Экманом. Обучение возможно, потому что природа выражения эмоций на лицах людей универсальна. Четко определенная таксономия может быть одной из причин, по которой компании, разрабатывающие технологии анализа эмоций, специализируются в основном на чтении лиц. Со временем, когда удастся разработать и разобраться в техниках распознавания других эмоциональных каналов, ситуация может измениться.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация