Дэвид Хью-Джонс из Университета Восточной Англии в Великобритании использовал вариант этой идеи, чтобы исследовать честность в 15 странах
[163]. Он просил людей подбросить монетку (сам не зная результата), суля вознаграждение $5, если выпадет орел. Если бы все сказали правду, можно было бы ожидать, что около половины людей сообщат, что выпал орел. Если доля утверждающих это больше половины, то, значит, люди лгут – и именно это Хью-Джонс использовал в качестве меры честности.
Стратегия рандомизированного ответа – способ скрывать данные по мере их сбора. Есть также способы скрывать данные во время расчетов. Защищенное многостороннее вычисление – это способ сбора информации в группе, при котором никто из ее участников не имеет доступа к чужим данным. Вот простейший пример. Предположим, мы хотим узнать среднюю зарплату в группе проживающих рядом людей, но все они очень чувствительны к раскрытию информации о своем заработке. В этом случае я прошу каждого из них разбить его зарплату на два числа, a и b, так, чтобы их сумма равнялась зарплате. Таким образом, тот, кто зарабатывает £20 000, может разделить их на £19 000 и £1000, или на £10 351 и £9649, или на £2 и £19 998, или даже на £30 000 и —£10 000. Совершенно не важно, как именно люди разделят свою зарплату. Они могут использовать и положительные, и отрицательные числа, главное, чтобы выполнялось условие – эти числа должны складываться в зарплату. Затем все части a отправляются кому-то, кто складывает их и получает общее значение A. Все части b отправляются кому-то другому (важно, чтобы это был другой человек), который также складывает их, чтобы получить значение B. Последний шаг – просто сложить A и B и разделить на число человек, чтобы получить среднее значение. Обратите внимание, что на протяжении этого процесса никто не знает значений чужих зарплат. Даже те люди, которые складывают одни части, понятия не имеют, что представляют собой другие части.
Защищенное многостороннее вычисление обеспечивает суммирования данных по популяции без какой-либо идентификации отдельных ее членов при работе со значениями в масштабе всей популяции или отдельной выборки. Но на самом деле можно пойти еще дальше. Гомоморфное вычисление позволяет шифровать данные, затемнять их и предоставлять кому бы то ни было для анализа, с тем чтобы он получил зашифрованный результат, не зная, что означают данные и результат. В этом случае вы – единственный, кто знает, как расшифровать значения данных и результат. История этого метода началась примерно с 2009 г., когда была опубликована статья Крейга Джентри из исследовательского центра IBM Watson, но сама идея родом из 1970-х гг.
[164] Далее приведен несложный и выдуманный пример, иллюстрирующий эту идею: в реальных приложениях используются куда более сложные методы.
Предположим, мы хотим рассчитать средний возраст членов некоего тайного общества, но вот беда: у нас нет даже калькулятора. Поэтому мы просим кого-нибудь со стороны, у кого он есть, сделать за нас расчеты, однако не хотим, чтобы этот человек видел значения возрастов (общество все-таки тайное). Чтобы сделать это, мы начинаем с «шифрования» возрастов, добавляя разные случайно выбранные числа к каждому из них. При этом мы вычисляем среднее значение всех случайных добавленных чисел. Теперь можно отправлять нашу шифровку – суммы исходных и случайных чисел – человеку, который взялся выполнить калькуляцию. Он складывает зашифрованные числа и отправляет нам их средние значения. Несложно догадаться, что если мы вычтем среднее значение случайных чисел из общего среднего, то получим средний возраст членов тайного общества.
Понятно, что это очень упрощенный пример, и, как правило, требуется сделать нечто более сложное, чем найти среднее значение.
Теперь мы знаем, что данные могут быть собраны, не будучи увиденными теми, кто их собирает, и то, что данные можно анализировать так, чтобы осуществляющие анализ не понимали, что именно они анализируют. В более общем смысле эта глава переворачивает концепцию темных данных с ног на голову. Обычно темные данные являются источником проблем – они скрывают от нас то, что мы хотим знать, и могут привести к искаженным выводам и недопониманию. Но из этой главы мы узнали о методах, которые делают сокрытие данных чрезвычайно полезным и, как следствие, ведут к более точным оценкам, улучшают процесс принятия решений и даже защищают от преступников.
Глава 10
Классификация темных данных
Путь в лабиринте
Систематика темных данных
Мы рассмотрели массу примеров темных данных, причины и последствия их появления, а также методы решения вызванных ими проблем. Однако ситуации часто бывают запутанными, поскольку данные могут быть темными по нескольким причинам одновременно. Вот пример.
При правительстве Великобритании существует исследовательская команда по поведенческому анализу. СМИ окрестили ее «отдел подталкиваний». Дело в том, что эта команда ищет небольшие стратегически реализуемые изменения в государственной политике (подталкивания), которые могут оказать большое влияние на поведение граждан. Вот что сказано в недавнем докладе команды: «В ряде документов и статей в прессе отмечается, что официальная статистика показывает значительное снижение потребления пищи с точки зрения калорий в Великобритании за последние 40 лет. В то же время мы наблюдаем увеличение средней массы населения за этот период. Каким образом наш вес увеличился, если мы стали меньше есть?.. Один из ответов заключается в том, что уровень физической активности населения снизился, соответственно снизился и расход калорий»
[165].
Это объяснение кажется возможным, хотя и довольно неожиданно. Его смысл в том, что, хотя британцы стали меньше есть, они сократили физическую нагрузку, а это привело к увеличению веса. Тем не менее в отчете сделан вывод, что такое объяснение неправдоподобно, поскольку «заявленный уровень потребления пищи с точки зрения калорий слишком низок, чтобы поддерживать наш текущий вес, даже если уровень физической активности минимален». В докладе также говорится, что «по оценкам, количество потребляемых калорий находится ниже рекомендуемой суточной нормы, составляющей 2500 килокалорий для мужчин и 2000 килокалорий для женщин (имеющих нормальный вес)». Команда предположила, что проблема заключается в темных данных.
Показатели закупки продуктов питания рассчитываются на основе данных Опроса о стоимости жизни и питания (LCFS). Потребление калорий оценивается по данным Национального опроса о диетах, питании и здоровье (NDN-SHS), проводимого в Англии. В отчете «отдела подталкивания» говорится, что эти опросы недооценивают показатели закупки продуктов питания и потребления калорий. Что касается LCFS, то доклад ссылается на «исследования, [которые] показали, что доля экономической активности, не охваченная LCFS, увеличилась с 2 % в 1992 г. почти до 16 % в 2008 г.». Когда команда скорректировала результаты LCFS, чтобы учесть этот фактор, она обнаружила, что потребление продуктов питания на самом деле увеличивалось с 1990-х гг. Показатели NDN-SHS были скорректированы с использованием так называемого метода двойной маркировки воды, который является «золотым стандартом измерения расхода энергии». Эта корректировка показала, что «в целом мы потребляем на 30–50 % больше калорий, чем указано в официальной статистике».