В наши дни общественность помогает в научных исследованиях гораздо успешнее, чем это было в неудачном эксперимента Робинса. Привлечение таких помощников к самым разным проектам, от подсчета пингвинов на видеозаписях из Антарктики до исследований фолдинга (сворачивания) белков в попытках найти причины дегенеративных заболеваний, дает крайне полезные шорткаты к новым открытиям.
Польза шорткатов к знаниям с привлечением коллективного разума не укрылась и от внимания крупных корпораций. Собственно говоря, в основе успеха Facebook и Google лежат ценные данные многочисленных пользователей, охотно предоставляющих их в обмен на услуги этих компаний.
Машинное обучение
В 2007 году, когда был запущен «Галактический зоопарк», машинное зрение работало еще очень плохо. Однако за последние несколько лет способности компьютеров по части определения элементов изображений постепенно совершенствовались. Это связано с новыми методами программирования, которые называются машинным обучением: программный код изменяется и мутирует в процессе взаимодействия с данными. Когда информация может накапливаться в программе «снизу вверх» и не нужно пытаться вводить ее «сверху вниз», это создает поразительный шорткат к формированию действенных алгоритмов. Сама программа может быть не слишком рациональной и изящной, но при имеющихся сегодня вычислительных мощностях это не создает таких затруднений, как раньше.
Одним из главных достижений машинного обучения стали системы машинного зрения. Главным элементом этой революции был шорткат к видению, обеспеченный статистическим анализом данных. Компьютер может ошибаться, но это не страшно. Вполне достаточно и того, что он выдает правильные ответы в большинстве случаев. Тут мы снова возвращаемся к тому же шорткату 8 из 10 кошек. Чтобы машина отличала кошку от собаки в 99 процентах случаев, нужно ввести в нее данные, но сколько их нужно? Не хотелось бы вводить в компьютер все изображения кошек и собак, какие только есть в сети, – уж больно их много!
В общем случае считается, что, чтобы обучить алгоритм различать разные категории объектов, нужно использовать по 1000 изображений каждой из них. Чтобы создать алгоритм, узнающий кошек, нужно взять 1000 изображений кошек, на которых программа сможет обучаться. Большее количество данных не увеличивает процента правильных ответов стандартных алгоритмов машинного обучения. По-видимому, алгоритмы выходят на плато. Но эффективность более сложных программ глубокого обучения все же возрастает по логарифмическому закону.
Знать, какого количества данных может быть достаточно, важно, когда речь идет, например, о выявлении переменных, которые могут влиять на объем продаж. Может быть, вам кажется, что он изменяется в зависимости от дней недели, погоды или радостных или неприятных новостей. Чтобы понять, что именно влияет на продажи, нужно собрать данные. Нужно взять те переменные, которые, как вы считаете, могут влиять на продажи, и посмотреть, каким бывает объем продаж при разных значениях всех этих переменных.
Чтобы узнать, какое минимальное количество данных требуется, чтобы сделать обоснованные выводы, можно использовать регрессионный анализ и правило одной десятой. Если мы рассматриваем 5 переменных, приблизительно 10 × 5 = 50 единиц информации должно быть достаточно, чтобы получить представление о том, как изменения этих параметров отражаются на продажах.
Но пользоваться такими шорткатами следует с осторожностью, потому что иногда они уводят в сторону. Чтобы получить пользу от коллективного разума, важно, чтобы коллектив был разнообразным; точно так же необходимо обеспечивать и разнообразие данных. Когда компания Amazon пыталась разработать искусственный интеллект, который помогал бы просеивать заявки претендентов на рабочие вакансии, она дала ему в качестве образца для поведения профили уже работающих сотрудников. Казалось бы, вполне разумное решение, учитывая, что до тех пор компанию вполне устраивал уровень ее сотрудников. Но, когда ИИ начал забраковывать все резюме, кроме присланных двадцатилетними белыми мужчинами, компания поняла, что алгоритм дискриминирует множество желающих получить в ней работу.
Выявлением таких алгоритмических шорткатов, которые приводят нас не к новым целям, а лишь к старым предрассудкам, занимается Лига алгоритмической справедливости (Algorithmic Justice League), которую основала Джой Буоламвини.
Также важно не отслеживать одновременно слишком много переменных, потому что чем больше их будет, тем с большей вероятностью в них можно будет найти какие-нибудь паттерны. Опасность работы со слишком большим количеством переменных проявилась, когда установку фМРТ (функциональной магнитно-резонансной томографии) использовали в эксперименте, в котором изучали 8064 области мозга, чтобы понять, какие из них могут быть задействованы, когда подопытному показывают разные выражения человеческого лица. Действительно, в 16 областях была обнаружена статистически значимая реакция. Вот только сканировали при этом мозг крупного атлантического лосося, причем мертвого. Исследователи использовали неодушевленные предметы, чтобы исключить из рассмотрения ложноположительные результаты. Но эта история показывает, как опасно просто проводить слишком много измерений, надеясь найти в результатах какие-нибудь паттерны. Исследователи получили за эту работу Шнобелевскую премию, которую присуждают за достижения, которые «заставляют сначала засмеяться, а потом – задуматься»
[103].
Один из соавторов этого исследования, Крейг Беннет, объяснял: «Если вы бросаете дротики, имея 1-процентный шанс попасть в “яблочко”, и вы бросите один дротик, вероятность попадания будет равна одному проценту. Но, если вы бросите 30 000 дротиков, вы, скажем так, вероятно, попадете в цель хотя бы несколько раз. Чем больше у вас возможностей получить результат, тем больше вероятность, что вы его получите, даже если это произойдет случайно».
Сколько вам нужно данных, чтобы принять решение?
Телевизионная игра, которую я описал в начале этой главы, – это на самом деле хорошая модель многих задач, с которыми мы сталкиваемся в жизни. Первый человек, с которым у вас случился роман, может быть человеком прекрасным, но следует ли вам вступать с ним в брак или же вас преследует назойливое ощущение, что вы можете найти и кого-нибудь получше? На нем свет клином не сошелся; может быть, есть на свете кто-то, кто окажется «тем самым». Но, если бросить нынешнего партнера, пути назад, как правило, не будет. В какой же момент следует смириться с неизбежным и удовольствоваться тем, что есть?
Классический пример в этом роде дают поиски жилья. Сколько раз случалось так, что вы с первой же попытки находили превосходную квартиру, но потом вам казалось, что, прежде чем окончательно решиться, нужно посмотреть еще несколько вариантов, – и в результате первая прекрасная квартира от вас ускользала?