Если 10 из 10 000 будущих террористов находятся в верхней левой клетке, значит, в верхней правой находятся оставшиеся 9990 пользователей. С помощью тех же рассуждений можно сделать такой вывод: в пользовательской базе Facebook есть 199 990 000 людей, не являющихся террористами; 99 990 из них были отмечены алгоритмом и находятся в нижней левой клетке; оставшиеся 199 890 010 пользователей относятся к нижней правой клетке. Если сложить значения всех четырех клеток матрицы, получится 200 000 000 пользователей – другими словами, все пользователи Facebook в США.
Где-то в этой матрице, состоящей из четырех клеток, находится и ваш сосед по дому.
Но где именно? Он болтается где-то в левой половине матрицы, поскольку в Facebook его отнесли к числу подозреваемых, – и это все, что вы знаете.
Следует обратить внимание, что в левой половине матрицы почти нет террористов. На самом деле вероятность того, что ваш сосед невиновен, составляет 99,99 %.
В каком-то смысле это ситуация аналогична той панике, возникшей в Англии из-за противозачаточных препаратов. Включение пользователя в список Facebook в два раза увеличивает вероятность, что он террорист, что звучит ужасно. Но исходная вероятность сама по себе крайне мала, поэтому, если вы увеличите ее в два раза, она по-прежнему останется совсем небольшой.
Однако эту ситуацию можно интерпретировать и другим способом, который еще больше подчеркивает, насколько вероломными и сбивающими с толку могут быть рассуждения о неопределенности. Задайте себе такой вопрос: если человек на самом деле не является будущим террористом, какова вероятность, что его без всяких на то оснований включат в список Facebook?
В представленной выше матрице это означает следующее: если вы находитесь в нижней строке матрицы, какова вероятность того, что ваше место именно в левой клетке?
Это достаточно легко вычислить. В нижней половине матрицы 199 990 000 пользователей, из которых 99 990 находятся слева. Следовательно, вероятность того, что алгоритм Facebook отметит невиновного человека как потенциального террориста, составляет:
99 990/199 990 000,
или около 0,05 %.
Все верно: невиновный человек имеет всего один шанс из двух тысяч, что Facebook неправильно отнесет его к числу потенциальных террористов!
Какие чувства вы испытываете по отношению к своему соседу теперь?
Ход рассуждений, лежащий в основе p-значения, дает нам четкий ориентир. Нулевая гипотеза состоит в том, что ваш сосед не террорист. В соответствии с этой гипотезой (другими словами, исходя из невиновности соседа) вероятность того, что он появится в «красном списке» Facebook, составляет всего 0,05 %, гораздо ниже порога статистической значимости 1 из 20. Другими словами, согласно правилам, которым в подавляющем большинстве случаев подчиняется современная наука, вы имеете все основания отбросить эту нулевую гипотезу и объявить своего соседа террористом.
Вот только вероятность того, что он не террорист, равна 99,99 %.
Тем не менее почти нет шансов на то, что алгоритм отметит невиновного человека как террориста. В то же время почти все люди, которых выделяет алгоритм, невиновны. Похоже на парадокс, но на самом деле это не так. Таково положение дел. Если вы сделаете глубокий вдох и внимательно присмотритесь к матрице, вы все поймете.
Суть вот в чем. На самом деле существуют два вопроса, которые вы можете задать. На первый взгляд они кажутся одинаковыми, но это не так.
Вопрос 1: какова вероятность, что человек попадет в список Facebook, при условии что он не террорист?
Вопрос 2: какова вероятность, что человек не террорист, при условии что он входит в список Facebook?
Эти вопросы отличаются друг от друга, поскольку на них даются разные ответы. По-настоящему разные ответы. Мы уже видели, что ответ на первый вопрос – около 1 из 2000, тогда как ответ на второй вопрос – 99,99 %. И именно ответ на второй вопрос вам нужен.
Величины, о которых идет речь в этих вопросах, обозначаются термином «условные вероятности»: «вероятность того, что имеет место Х, при условии Y». А мы ломаем здесь голову над тем, что вероятность Х при условии Y – это не то же самое, что вероятность Y при условии Х.
Если сказанное кажется вам знакомым, так и должно быть: это именно та проблема, с которой мы столкнулись, когда рассматривали доказательство от маловероятного; p-значение – это ответ на вопрос:
«Вероятность, что наблюдаемый результат эксперимента будет иметь место при условии, что нулевая гипотеза правильна».
Однако нам нужно знать другую условную вероятность:
«Вероятность, что нулевая гипотеза правильна при условии наблюдения определенного результата эксперимента».
Опасность возникает именно в случае, когда мы путаем вторую величину с первой. И такая путаница имеет место повсюду, не только в научных исследованиях. Когда окружной прокурор наклоняется к жюри присяжных и объявляет «Есть один шанс из пяти миллионов, повторяю, один шанс из пяти миллионов, что ДНК невиновного человека совпадет с ДНК, обнаруженной на месте преступления», он отвечает на первый вопрос: «Какова вероятность того, что невиновный человек выглядит виновным?» Однако работа жюри присяжных в том, чтобы найти ответ на второй вопрос: «Какова вероятность, что на первый взгляд виновный подсудимый невиновен?» На этот вопрос окружной прокурор уже не поможет им ответить
[147].
* * *
Пример с Facebook и террористами объясняет, почему плохие алгоритмы должны вызывать не только такое же беспокойство, что и хорошие, но и большее. Мало приятного в том, что Target знает о вашей беременности. Гораздо хуже, если вы не террорист, но Facebook считает вас таковым.
Может быть, вы думаете, что Facebook никогда не станет составлять список потенциальных террористов (налоговых мошенников, педофилов) или делать такой список общедоступным, в случае если он все-таки будет создан. Зачем им это надо? На чем здесь можно заработать деньги? Может, так и есть. Однако Агентство национальной безопасности США также собирает данные о жителях Америки, являются ли они пользователями Facebook или нет. Происходит нечто вроде составления черного списка – если только вы не думаете, что в АНБ регистрируют метаданные о всех наших телефонных звонках лишь ради того, чтобы давать операторам мобильной связи полезные советы, где им следует построить дополнительные сигнальные вышки. Большие данные – не магическая сила; они не говорят федералам, кто террорист, а кто нет. Но, чтобы составлять длинные списки людей, по тем или иным причинам отмеченных красным флажком, отнесенных к группе повышенного риска или обозначенных как «подозреваемые», – никакого волшебства не нужно. Большинство людей, включенных в такие списки, не имеют никакого отношения к терроризму. Вы уверены, что не принадлежите к их числу?