Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 74. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 74

Шпионаж и пароли тесно связаны с секретными кодами и криптографией. Это инструменты для обмена информацией между двумя людьми, которые не позволяют посторонним понимать ее и оставляют их в неведении. На самом деле шифрование используется не только в сфере шпионажа. Например, коммерческие организации часто обмениваются конфиденциальной информацией, банки должны точно знать, что никто не перехватит их сообщения и не перенаправит транзакции, да и вы сами должны быть уверены, что ваша электронная корреспонденция будет прочитана только целевыми получателями и никто не сможет взломать систему обмена информацией.

Криптография, или наука шифрования, стала передовой математической дисциплиной. Ее современные методы часто основаны на шифровании с открытым ключом. Это элегантное математическое решение, в котором используются два числовых ключа, один из которых позволяет людям шифровать сообщения, а другой – расшифровывать их. Первый ключ может быть обнародован, поэтому закодировать сообщение может любой, а вот второй остается в секрете, и только тот, кто имеет к нему доступ, может декодировать сообщения.

Общественные, социальные и этические проблемы, связанные с криптографией, могут быть очень серьезными. С одной стороны, шифрование обеспечивает безопасность законных транзакций, но с другой – оно используется и для защиты незаконных транзакций криминального или террористического характера. Apple Inc. получила ряд запросов от судов США с требованием раскрыть информацию на заблокированных iPhone. В одном случае ФБР попросило Apple разблокировать телефон, принадлежащий одному из преступников, устроивших теракт в Сан-Бернардино, штат Калифорния, в декабре 2015 г., в результате которого погибли 14 человек. Но такой запрос ставит нас перед серьезной проблемой: в какой степени личная конфиденциальность должна быть священной. В этом конкретном случае Apple отказалась выполнять запрос, было назначено слушание, но до того, как оно состоялось, ФБР нашло некое третье лицо, которое имело доступ к телефону и разблокировало его. Запрос был отозван, но история о конфиденциальности, секретности и доступе к темным данным на мобильных телефонах далека от своего завершения.

Национальные статистические службы являются государственными органами, которые собирают и сопоставляют данные по всему населению страны, а затем анализируют с целью разработки на их основе эффективной социальной и государственной политики. Такие органы должны хранить личные данные в секрете, допуская публикацию лишь статистических сводок. Например, вы ожидаете, что национальная статистическая служба вашей страны не будет разглашать размер вашей зарплаты или историю болезни, сообщая только о распределении зарплат и количестве людей, у которых диагностированы те или иные заболевания. Такая политика может привести к деликатным проблемам конфиденциальности. В частности, если выдается информация об относительно небольшой группе людей, возможно, окажется несложным идентифицировать лиц в этой группе. Например, публикация информации о мужчинах в возрасте от 50 до 55 лет с указанием почтового индекса, в зоне которого они проживают, может существенно сузить поиск. В самом худшем случае может быть всего один человек, который отвечает всем условиям, определяющим группу.

Из-за этих и подобных им деликатных вопросов национальные статистические службы и другие органы государственной власти разработали инструменты для сохранения данных в темноте, чтобы можно было распространять информацию о населении без нанесения ущерба конфиденциальности отдельно взятого человека. Например, если перекрестная классификация критериев выдает небольшой список людей (скажем, тех, кто живет в определенном городе и зарабатывает более £1 млн в год), то эту ячейку перекрестной классификации можно объединить с соседними ячейками (с теми, кто живет в близлежащих городах или зарабатывает более £100 000 в год).

Другая стратегия, которую используют статистические службы для сокрытия данных, состоит в их искажении случайным образом. Например, небольшое число, выбранное случайным образом, может добавляться к каждому значению таблицы так, чтобы ее можно было опубликовать без разглашения точных чисел, но сохранить общую картину. Существуют способы сохранения требуемых аспектов (например, общих средних значений, распределений чисел в разных группах) точными, хотя все составляющие совокупность числа изменяются.

Третья стратегия – моделирование распределения и характеристик истинных данных с последующим использованием модели для генерации синтетических данных с теми же свойствами, подобно тому, как это происходит при симуляции. Например, мы можем рассчитать средний возраст и разброс по возрастам в популяции, а также общую структуру распределения по возрасту, а затем сгенерировать искусственные данные, которые имеют точно такую же структуру среднего, разброса и распределения. Таким образом, реальные данные полностью заменяются, но (до определенного момента) сводки, сгенерированные из синтетических данных, совпадают с реальными.

Данные можно также анонимизировать. Это означает, что информация, которая служит для идентификации людей, уничтожается. Например, из записей удаляются имена, адреса и номера социального страхования. Недостатком анонимизации является то, что потенциал повторной идентификации, позволяющей установить, кому принадлежит конкретная запись, начисто теряется. Так, в записях клинических испытаний анонимность может быть сохранена путем удаления имен и адресов, но если позднее обнаруживается, что некоторые пациенты подвергаются серьезному риску, то возникает необходимость вновь идентифицировать их. Кроме того, для многих организаций ведение записей, позволяющих идентифицировать людей, имеет решающее значение для деятельности.

В таких случаях можно использовать так называемую псевдонимизацию. Вместо того, чтобы просто уничтожать идентифицирующую информацию, ее заменяют кодом. Например, имена могут быть заменены случайно выбранным целым числом (замена имени Джеймс Бонд на число 007 не будет случайной, а вот имени Дэвид Хэнд на число 665347 – вполне). Если где-то хранится файл, который сопоставляет идентификаторы с кодами, то в случае необходимости всегда может быть найдена личность носителя кода.

Формальные определения анонимизации, используемые статистическими службами, обычно содержат пункт, в котором говорится, что процесс анонимизации должен «защищать людей от повторной идентификации любыми разумными средствами». Выражение «разумные средства» возникает здесь оттого, что идеальная анонимность редко может быть гарантирована, поскольку одни наборы данных могут быть связаны с другими. В главе 3 мы уже видели, что связывание наборов данных имеет огромный потенциал для улучшения жизни людей. Например, связь моделей закупки продуктов питания с данными о здоровье даст ценную для профилактики болезней информацию. Связывание данных о школьном образовании с данными по занятости и доходам из налоговых органов предоставит чрезвычайно полезную информацию для разработки государственной политики. Подобное связывание наборов данных не является чем-то гипотетическим, оно уже проводится широким кругом организаций по всему миру. Но подобные проекты могут быть успешными только в том случае, если люди, данные которых включены в базы данных, будут уверены, что их частная жизнь и конфиденциальность не нарушены. Британская сеть исследования административных данных (ADRN) преодолела риски конфиденциальности, используя метод «доверенной третьей стороны» для связывания данных. Этот метод означает, что ни один конкретный владелец данных не имеет ни идентификаторов, ни связанных данных [160]. Для двух наборов данных система работает следующим образом:

Вход
Поиск по сайту
Ищем:
Календарь
Навигация