У специалистов по обучению личностным качествам может быть разное образование и опыт работы. Так, Робин Юинг в прошлом писала сценарии и продавала их голливудским киностудиям
[94]. В настоящее время она применяет свои творческие способности, помогая инженерам развивать личностные качества Sophie — программы искусственного интеллекта в области здравоохранения. Среди многих других задач Sophie напоминает пользователям о том, чтобы они приняли лекарства, и регулярно связывается с ними, чтобы проверить их самочувствие. Безусловно, у таких специалистов, как Юинг, нет резюме, типичного для сферы высоких технологий. В компании Microsoft развитием личностных качеств виртуального помощника Cortana занимается команда, в состав которой входят поэт, писатель и драматург.
Надлежащее обучение таких ботов, как Cortana, начнет играть все более важную роль по мере того, как подобные приложения будут принимать антропоморфный облик и ассоциироваться с тем или иным брендом. Некоторые специалисты по маркетингу уже сейчас предвидят эволюцию брендов от одностороннего взаимодействия (от бренда к клиенту) к двусторонним взаимоотношениям. В рамках такого взаимного обмена с потребителями искусственный интеллект становится лицом бренда, о чем шла речь в предыдущей главе.
Если эволюция чат-ботов (и брендов) пойдет по такому пути, их необходимо будет обучать в глобальном контексте — и эта задача будет возложена на специалистов по обучению мировоззрению и локализации. Подобно тому как людям, работающим за рубежом, необходимо считывать культурные коды иностранных коллег и понимать, о чем они говорят, боты также должны быть чувствительными к различиям между людьми из разных стран мира. Специалисты по обучению мировоззрению и локализации позаботятся о том, чтобы системы искусственного интеллекта учитывали множество локальных факторов. Например, в некоторых странах люди не испытывают такого же беспокойства из-за роботов и роста автоматизации, как жители США и Западной Европы. Так, японцы восхищаются роботами и ощущают «культурную близость» с ними, что может облегчить установление более тесного взаимодействия машины и человека. Специалисты по обучению мировоззрению должны знать о таких различиях. Понимание чат-ботами культурных кодов позволит избежать недоразумений и затруднений, а также укрепить доверие к бренду.
Большую помощь в обучении систем искусственного интеллекта человеческим качествам и глобальному мировоззрению могут оказать специалисты по моделированию взаимодействия. Такие люди помогают привить машинам определенные поведенческие паттерны, привлекая сотрудников с большим опытом в качестве ролевых моделей. Так, профессор робототехники Массачусетского технологического института Джули Шах занимается разработкой роботов, которые могут наблюдать за работой людей, чтобы со временем научиться выполнению определенных задач. Одна из целей такого подхода — научить роботов принимать элементарные решения, например прерывать выполнение одной задачи ради более важного задания, а затем возвращаться к исходной, как это сделал бы человек.
Обучение искусственного интеллекта не обязательно выполнять собственными силами. Подобно бухгалтерскому учету, IT и другим функциям, обучение систем искусственного интеллекта может осуществляться на краудсорсинге или аутсорсинге. Компания Mighty AI умело применяет методы краудсорсинга для обучения систем искусственного интеллекта распознаванию объектов (например, озер, гор и дорог на фотографиях), а также обработке естественного языка. Компания накопила огромный объем обучающих данных, которые использует при выполнении заказов своих клиентов. Так, один заказчик поручил Mighty AI научить его платформу машинного обучения определять намерения собеседников и смысл того, что они говорят. Ранее другая компания в области искусственного интеллекта Init.ai предприняла попытку выполнить такое обучение своими силами, предлагая сотрудникам «разыграть» диалоги для составления эталонных бесед, однако такой подход было трудно масштабировать. Это ограничение в итоге привело к тому, что компания Init.ai делегировала данную работу подрядчику.
В сотрудничестве с Mighty AI компания Init.ai разработала сложные задачи на основе поддающихся персонализации шаблонов, опираясь на помощь сообщества пользователей, прошедших предварительный квалификационный отбор. Обладая знаниями, навыками и специализацией в соответствующих областях, эти пользователи «озвучивали» диалоги в соответствии со сценариями, приближенными к реальному взаимодействию клиентов и сотрудников компании. Затем в Init.ai использовали полученные данные для построения собственных моделей диалогов, которые легли в основу подготовки платформы машинного обучения
[95].
Совершенно очевидно, что качество систем искусственного интеллекта полностью зависит от качества данных, на основе которых их обучали. Приложения такого рода ищут закономерности в данных, и любые искажения отразятся на результатах последующего анализа. Эта ситуация напоминает принцип «мусор на входе — мусор на выходе», но в данном случае было бы уместно сказать «ошибки на входе — ошибки на выходе». В рамках одного интригующего эксперимента программисты компании DeepMind, принадлежащей Google, научили систему искусственного интеллекта играть в две игры, одна из которых сводилась к охоте, а другая к сбору фруктов. В итоге система искусственного интеллекта, которую обучали играть в охоту, демонстрировала крайне агрессивное поведение. При обучении на игре в сбор фруктов система искусственного интеллекта демонстрировала гораздо большую склонность к сотрудничеству
[96].
Именно поэтому роль специалиста по гигиене данных так важна. Беспристрастными должны быть не только сами алгоритмы; данные, которые используются для их обучения, также должны быть свободными от предвзятости. В ближайшие годы роль таких специалистов будет только возрастать, ведь компании используют информацию из самых разных источников, в том числе биометрические данные, изображения со спутника, данные о дорожном движении, данные из социальных сетей и т. д. Во многих случаях это могут быть так называемые выбросы, то есть данные, возникающие как побочный продукт другого процесса. Подумайте о тех данных, которые каждый день генерируются Facebook.
Ведущие компании быстро обнаружили, как использовать такие «выбросы» в эпоху больших данных. Например, хедж-фонд BlackRock использует спутниковые снимки территории Китая для более эффективного анализа промышленного развития этой страны. Данный анализ даже привел к появлению нового финансового инструмента — «квантаментальных» фондов, которые используют сложные алгоритмы машинного обучения для анализа традиционной финансовой отчетности и «выбросов» для того, чтобы прогнозировать динамику стоимости тех или иных акций на рынке
[97]. Такие инновационные приложения требуют опыта и знаний специалистов по гигиене данных, во многих случаях работающих совместно с экспертами по устойчивости систем искусственного интеллекта, о которых мы поговорим позже. Специалисты по гигиене данных должны не только обеспечивать преобразование «выбросов» в формат, приемлемый для ввода в систему искусственного интеллекта, но и очищать эту информацию от любого «шума» или скрытой предвзятости.