Конкретной проблемой, с которой мне пришлось столкнуться, был заказ на создание «системы показателей» – статистической модели для прогнозирования вероятности неплатежей, которая могла бы использоваться при принятии решений о предоставлении кредитов. Мне был открыт доступ к большому набору данных, содержащему информацию из заявок предыдущих клиентов, а также их кредитные истории, показывающие действительную картину того, платили они или нет по своим обязательствам.
По сути ничего сложного в этом заказе не было. Я должен был выяснить, какие сочетания характеристик отличают клиентов, выполнивших свои обязательства, от тех, кто допустил дефолт. Это позволило бы классифицировать будущих заявителей как «добросовестные заемщики» или «потенциальные неплательщики».
Проблема заключалась в том, что банк хотел получить модель, позволяющую делать прогнозы в отношении всех будущих заявителей. Предоставленные мне данные, безусловно, не были генеральной совокупностью, отражавшей всех заявителей – они касались лишь тех, кто уже прошел процесс отбора. Надо полагать, состоявшиеся клиенты получили кредиты, потому что им был присвоен статус приемлемого риска в соответствии с каким-то более ранним механизмом отбора – на основе либо предыдущей статистической модели, либо субъективной оценки менеджеров банка. Те, кого сочли слишком рискованными, не получили ссуду, поэтому я не мог знать о том, насколько добросовестно они выполнили бы свои обязательства. Я даже не имел понятия, сколько заявителей было отклонено ранее и не попало в мой набор данных. Короче говоря, данные, предоставленные мне, были искаженной выборкой с неизвестными критериями отбора (или смещением выборки), и любая статистическая модель, построенная на этом наборе данных, вводила бы в заблуждение в случае применения ко всем потенциальным кандидатам.
На самом деле проблема была еще глубже, поскольку имелось несколько слоев темных данных. Необходимо было учесть следующее.
● Кто подавал заявки? В прошлом банк проводил почтовые рассылки потенциальным клиентам, предлагая им взять кредит. Кто-то заинтересовался, кто-то никак не отреагировал. Банковские данные по таким рассылкам включали только тех, кто откликнулся на них сразу, и здесь приобретали значение такие факторы, как формулировка кредитного предложения, его сумма, процентная ставка, а также множество других, о которых я не был осведомлен. Те же, кто не ответил на рассылку, представляли собой темные данные.
● Кто получал предложение? Тех, кто откликнулся, банк оценивал с точки зрения платежеспособности и некоторым предлагал взять кредит, в то время как другим отказывал. Но, так как я не знал, на каких основаниях делались эти персональные предложения, темных данных становилось еще больше.
● Кто принимал предложение? Вдобавок к двум предыдущим процедурам отбора не все из тех, кому был предложен кредит, взяли его, и это породило еще один слой темных данных.
Вместе эти слои делали совершенно непонятным то, как можно использовать полученные от банка данные для решения поставленной задачи – создания модели оценки новых заявок. Несколько слоев темных данных могли означать, что имеющаяся у меня выборка со всеми известными хорошими/плохими исходами кардинально отличается от той совокупности, к которой банк хотел применить модель. А вы уже знаете, что игнорирование темных данных может иметь катастрофические последствия. (Впрочем, замечу, что банк все еще существует – видимо, моя модель оказалась не так уж плоха!)
Административные данные вездесущи. Только представьте себе все те базы данных, в которых хранится информация о вашем образовании, работе, здоровье, интересах, покупках, финансовых транзакциях, ипотеке, страховании, путешествиях, поисковых запросах, активности в социальных сетях и т. д. Вплоть до недавнего времени подобные данные сохранялись автоматически, без вашего ведома и учета мнения. Общий регламент по защите данных Евросоюза (GDPR) изменил ситуацию – теперь, как вы наверняка заметили, сайты просят вас поставить галочки, подтверждающие, что вы осознанно даете разрешение на использование персональных данных. Встречаются и другие способы давать или не давать свое согласие, например в США, где конфиденциальность персональных данных регулируется как федеральными законами, так и законами штатов, в зависимости от сектора экономики.
В 2013 г. Национальная служба здравоохранения Великобритании (NHS) запустила программу, предполагающую ежемесячное копирование медицинских данных из отчетов семейных врачей и объединение их с учетными записями больниц в Национальном информационном центре здравоохранения и социальной защиты (HSCIC). Потенциальная ценность таких объединенных наборов данных огромна. Собрав информацию о состоянии здоровья и методах лечения миллионов людей, мы сможем извлекать данные, чтобы лучше не только изучать сами заболевания и пути повышения качества их профилактики, мониторинга и эффективности лечения, но и понимать, насколько эффективна система медицинской помощи в целом и где ее необходимо усовершенствовать. Конфиденциальность при этом обеспечивается системой псевдонимизации, в которой имена, номер медицинской страховки и другие идентификаторы заменяются кодом, а коды сохраняются в файле, никак не связанном с фактическими данными.
К сожалению, эта система – и ее потенциальные выгоды для здоровья и медицины – была плохо представлена общественности. Многих беспокоила возможность продажи их данных третьим сторонам (например, фармацевтическим и страховым компаниям), которые будут использовать информацию для получения прибыли. Другие опасались потери и взлома данных, а также того, что их данные могут быть декодированы, что нарушило бы конфиденциальность в сфере медицинских вопросов. В результате был получен негативный общественный резонанс, усиленный отдельными СМИ. И это даже несмотря на то, что система позволяла людям отказаться от передачи их данных куда бы то ни было.
В феврале 2014 г. программа была приостановлена. После ряда неудачных попыток перезапуска в июле 2016 г. был опубликован ее расширенный пересмотренный вариант, в котором рекомендовалась модель согласия пациента на использование персональных данных, включавшая восемь пунктов. Одна из особенностей нового варианта заключалась в том, что она давала людям возможность запретить использование их данных для целей, выходящих за рамки медицинской помощи, например для проведения исследований.
Если до этого момента вы читали внимательно, то, вероятно, заметите скрывающуюся здесь опасность. Из-за разрешения отказывать в использовании информации для исследований базы данных перестают быть всеобъемлющими. В них будет содержаться информация только о части пациентов. Хуже того, поскольку люди сами выбирают, давать или не давать свои данные (DD-тип 4: самоотбор), велик риск того, что базы данных покажут искаженную картину всей совокупности.
В 2009 г. Мишель Хо и ее коллеги из Университета Макмастера в Канаде изучили эту проблему
[15]. Они провели метаанализ исследований влияния информированного согласия на использование данных с точки зрения того, какие именно люди дают такое согласие. Сравнив согласных и несогласных по возрасту, полу, расовой принадлежности, образованию, доходу и состоянию здоровья, они обнаружили, что две группы действительно отличались друг от друга. Но еще большую тревогу вызвал тот факт, что «направленность и масштаб этого эффекта оказались непостоянными». Это означает, что согласные и несогласные не просто отличаются друг от друга, а отличаются непредсказуемым образом, что делает крайне затруднительной корректировку отличий.