Метод обучения не менее важен, чем используемые алгоритмы. Вот почему компании Affectiva пришлось изменить код приложения FaceSense. Ведь в обучении первоначального приложения участвовало относительно мало исследователей. Как только была завершена новая система, Affectiva запустила пилотный проект, в котором рекламный ролик Супербоула
[1] транслировали зрителям, давшим согласие на участие в проекте, а выражение их лиц при просмотре анализировалось через веб-камеру. Таким образом команда эль Калиуби получила результаты, необходимые для переобучения системы, на этот раз – на примерах подлинных реакций реальных людей. Дополнительное изучение рекламы и другого медиаконтента с участием зрителей позволило собрать дополнительные данные о выражениях лиц реальных людей. Это было крайне важно. Система училась распознавать трудноуловимые нюансы выражений лиц. Оттенки были настолько незаметными, что даже хороший актер не смог бы изобразить выражение лица человека, по-настоящему переживающего ту или иную эмоцию. Чем больше было образцов эмоциональных реакций на рекламные ролики, тем умнее становилась система. Вот как объяснила это эль Калиуби в своем основном докладе.
Мы фиксируем эмоции, глядя на лицо. Лицо – один из самых надежных каналов сообщения социальной и эмоциональной информации. Мы используем компьютерное зрение и алгоритмы машинного обучения, которые отслеживают ваше лицо, его черты – глаза, брови – и соотносим их с эмоциональными ориентирными точками. Затем мы накладываем информацию на карту эмоциональных состояний, таких как смущение, интерес, удовольствие. И за последнюю пару лет, начав обрабатывать собранные данные, мы обнаружили, что чем больше данных мы предоставляем, тем точнее становятся систематизаторы эмоций. Когда мы обучали подобные систематизаторы лишь с сотней образцов, их точность не превышала 75 %. Но когда количество позитивных учебных образцов составило 100 000, точность превысила 90 %. Это по-настоящему захватывающе, и мы продолжили пополнять массив данных новой информацией, чтобы достичь большей точности6.
Работа с большими данными и машинным обучением была грандиозной. Фактически успех привел к еще большему успеху.
Затем, в начале 2011 года британская международная фирма по исследованию рынка Millward-Brown пригласила Affectiva продемонстрировать для них технологию Affdex. Годом ранее Millward-Brown учредила собственный отдел, занимающийся нейронауками, в надежде применить новые технологии к тестированию рекламы7. Но, как и многие до них, они обнаружили, что технология, работающая в лаборатории, не обязательно работает в других условиях. Системы, в которых к зрителю присоединяют электроды и сенсоры, не только громоздки, но еще и медленно работают – не говоря уже о том, что могут искажать эмоции, вызывая неудобство и тревогу.
Итак, руководство Millward-Brown предложило команде Affectiva проанализировать на своем программном обеспечении реакцию зрителей на четыре рекламных ролика (протестированных сотрудниками). В случае успеха Millward-Brown становилась клиентом и инвестором молодой компании Affectiva. Одним из роликов было видео «Атака» от компании Unilever, получившее награду Фонда Самооценки Dove. Реклама была направлена на повышение информированности о стандартах красоты, навязанных коммерцией. Ролик, в котором невинную юную девочку в буквальном смысле атакуют рекламные картинки и обращения, иллюстрировал, как средства массовой информации создают образ женщины: «Поговори со своей дочерью, пока этого не сделала индустрия красоты». Приложение компании Affectiva отследило реакции более сотни зрителей и подтвердило то, что уже было известно Millward-Brown: при просмотре ролика зрители чувствовали дискомфорт. Но система, созданная Affectiva, также обнаружила, что в конце ролика дискомфорт исчез. Услышав финальное послание, зрители испытали облегчение. Реакция была мимолетной, и не каждый зритель мог ее описать, если бы для тестирования использовались традиционные методики и опросники. Приложение точно определило то, что упустили другие техники.
Тест был пройден, Millward-Brown сдержала обещание и вложив в Affectiva 4,5 миллиона долларов8. С помощью приложения протестировали тысячи рекламных роликов. К началу лета доход компании превышал 1 миллион долларов. Затем Affectiva запустила первый набор средств (SDK), позволявший другим компаниям и частным лицам использовать приложение для повышения эффективности собственных программ. Это расширило экосистему искусственного интеллекта и позволило за счет просмотра рекламных роликов увеличить базу данных Affectiva. Система продолжала обучаться и становилась все точнее. Сейчас Affdex используется для анализа более двадцати тысяч рекламных роликов, и свыше четырех миллионов лиц генерируют более пятидесяти миллиардов эмоциональных опорных точек. Кроме того, приложение используется в 75 странах. В базе данных представлены лица всех типов и культур, что еще раз доказывает универсальную природу эмоциональной экспрессии.
Десятки компаний стремятся занять свою нишу в сфере технологий распознавания голоса. Одни разрабатывают собственные продукты с нуля, другие пользуются интерфейсами программирования и наборами средств для разработки приложений от сторонних производителей.
Во время становления Affectiva как компании Дэвид Берман, на тот момент ее генеральный директор, постепенно отходил от вспомогательных технологий в более прибыльный сегмент исследования рынка. Здесь было больше возможностей для привлечения инвесторов. В результате Пикард, ориентировавшаяся на портативные устройства для отслеживания физиологических параметров, утратила авторитет. Постепенно Q Sensor отодвинули на второй план, а в апреле 2013 года компания официально прекратила его продажи. Пикард эффективно выжили из компании Affectiva, и она основала компанию Physiio. Вскоре ее новая компания объединилась с Empatica Sri, в результате чего образовалась Empatica, Inc.
На сегодняшний день Empatica продает две версии своего сенсора: Е4 для исследователей и Embrace для широкого потребления. Embrace предназначен, как и многие современные портативные устройства, для отслеживания и получения данных о разных аспектах жизни, включая уровень стресса, степень возбуждения, ритмы сна и физическую активность. Его можно использовать, чтобы распознавать эпилептические припадки и передавать сигнал тем, кто ухаживает за эпилептиком. В приборе Е4 есть функция беспроводной передачи первичных данных исследователям, которым необходимо отслеживать физиологические показатели.
Разумеется, Affectiva – далеко не единственная компания, ориентированная на эмоциональные технологии или анализ эмоций в выражении лица. Компания Emotient, главный офис которой находится в Сан-Диего, была основана до Affectiva, в 2008 году. Используя схожий подход к распознаванию лиц, Emotient вычисляет и анализирует едва уловимые выражения лица, присущие почти каждому человеку, когда он испытывает эмоции. Почему же стали появляться компании, работающие в этой сфере? Генеральный директор Emotient Кен Денман объясняет: «До сегодняшнего дня не существовало механизмов реализации. Технология камер была для нас недостаточно продвинутой, чтобы определять микровыражения лица, те бессознательные реакции, которые проявляются в виде движений лицевых мышц прежде, чем наше сознание сможет их остановить, поскольку они представляют собой импульс». Денман отмечает, что сейчас доступны вычислительные возможности для глубинного обучения нейросетей, благодаря чему развивается технология в целом.