Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 69. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 69

Последнее общее замечание на тему ошибок в данных, которое я хотел бы сделать, связано с новыми удивительными мирами данных и их пониманием, которые нам открыли и продолжают открывать компьютерные вычисления. Сегодня собираются, хранятся и обрабатываются немыслимые еще недавно, поистине колоссальные массивы данных. Эти базы данных открывают огромные возможности. Но не стоит забывать, что применение компьютеров также подразумевает и некоторую фундаментальную непрозрачность. Хотя они позволяют нам разглядеть в данных то, что мы никогда бы не обнаружили невооруженным глазом, в то же время компьютеры действуют как посредник между нами и данными. Компьютеры могут скрывать от нас какие-то аспекты данных.

Глава 9
Полезные темные данные
Переосмысление вопроса
Сокрытие данных

Может показаться, что темные данные – это сплошные проблемы и недостатки. Да, ключевым посланием этой книги является призыв к осторожности. Но есть методы, с помощью которых мы можем использовать темные данные в собственных интересах, при условии, что хорошо понимаем свои действия и соблюдаем должную осмотрительность. Другими словами, существуют методы, с помощью которых мы можем оседлать нашу темную лошадку – направить неопределенность, присущую темным данным, против них же самих, что позволит достичь лучшего понимания, делать более точные прогнозы, повысить эффективность действий в различных областях и даже просто экономить деньги. Все это становится возможным, если стратегически игнорировать часть данных и намеренно уводить их в тень.

Исследование этой идеи мы начнем с того, что переформулируем некоторые уже знакомые нам статистические идеи. Другими словами, мы посмотрим на них под новым углом, с точки зрения активного сокрытия информации или данных. В начале главы мы по-новому взглянем на те идеи, с которыми уже сталкивались в предыдущих главах, а затем познакомимся с некоторыми новыми перспективными идеями, способными сделать статистические методы работы с темными данными более совершенными.

Хорошую иллюстрацию нестандартного подхода к темным данным дает формирование выборки из ограниченной совокупности. В главе 2 мы рассматривали методы создания выборки для опроса и затрагивали тему недополученных ответов, но даже несмотря на это опросы представляют собой один из наиболее популярных и простых способов обратить темные данные себе на пользу. Обычно, когда говорят об опросах, то имеют в виду использование значений (случайного) подмножества всех членов определенной группы населения. Но альтернативный подход может состоять в том, чтобы формировать выборку, специально предназначенную для помещения ее в область темных данных. В конце концов, формирование 10 %-ной выборки для последующего анализа эквивалентно формированию 90 %-ной игнорируемой выборки. Идея заключается в том, что всякий раз при работе с выборкой мы можем думать о ней либо как о выборе данных для исследования, либо как об игнорировании оставшейся части совокупности и превращении ее в темные данные.

Обратите внимание, что случайный выбор (или по крайней мере «вероятностная выборка») здесь имеет решающее значение. Выбор любым другим способом может привести к проблемам, уже описанным в этой книге. Использование случайного выбора означает, что недостающие значения относятся к категориям NDD или SDD, а в главе 8 вы смогли убедиться, что с этими типами темных данных можно справиться.

Сокрытие данных от самих себя: рандомизированные контролируемые исследования

Формирование выборки для анализа и, следовательно, выборки для отбраковки – самый простой пример использования темных данных. Другое их применение – рандомизированное контролируемое исследование, которое мы тоже уже обсуждали в главе 2. Предположим, что мы хотим определить, является ли предлагаемый новый метод лечения некоего заболевания лучше стандартного. Мы уже знаем, что основная стратегия состоит в том, чтобы случайным образом назначать каждому пациенту одно из двух лечений и сравнивать средние значения результатов в каждой группе.

Случайное назначение методов лечения служит гарантом беспристрастности. Оно выводит процесс распределения из сферы нашего выбора, делая его непрозрачным, не подверженным манипуляциям и влиянию предубеждений, как преднамеренных, так и неосознанных. Это качество случайности давно и по достоинству оценено. Как сказано в Библии: «Жребий прекращает споры и решает между сильными» (Притчи 18:18).

Идея случайного распределения пациентов по группам лечения имеет большой потенциал. По сути, она означает, что мы можем быть с высокой вероятностью уверены в том, что любые измеренные различия между группами связаны именно с лечением, а не с какими-то другими факторами. Другими словами, случайное распределение разрушает причинно-следственные связи: оно позволяет утверждать, что любые зарегистрированные различия вряд ли будут иметь отношение к различиям, существовавшим между людьми до исследования. Разрыв некоторых причинно-следственных связей означает, что различные исходы должны объясняться не возрастом, полом или другими, присущими людям факторами, а разными методами лечения, которое они получали.

Но, быть может, простого случайного распределения недостаточно? Если исследователи будут знать, к какой группе принадлежат какие пациенты, то даже при случайном распределении у них может возникнуть соблазн манипулировать данными, в том числе и неосознанный. Они могут по-человечески пожалеть пациентов, получающих неактивное плацебо, и начать больше заботиться о них. Или более строго интерпретировать критерии для исключения из исследования пациента с побочными эффектами, если будут знать, что он получает какое-то конкретное лечение.

Этого риска можно избежать, если скрыть идентичность групп, к которым относятся пациенты, так, чтобы ни пациенты, ни лечащие врачи не знали, кто какое лечение получает. Такое сокрытие групповых меток называется слепым, поскольку делает их невидимыми в буквальном смысле.

Например, при сравнительном испытании двух лекарств каждому из них можно присвоить разные коды, при этом врачи не должны знать, какому лекарству какой код соответствует. Если снабдить лекарства одинаковой упаковкой, так, чтобы внешне она отличалась только нанесенным на нее кодом, врачи не смогут узнать, какое лечение они применяли, и потому будут лишены возможности сознательно или подсознательно относиться более внимательно к пациентам, получающим конкретное лекарство. То же самое относится и к специалистам по анализу данных, которые могут видеть код, соотносящий конкретного пациента с конкретным лечением, но не дающий информации, какое именно лечение маркировано тем или иным кодом.

Код, определяющий лечение для каждого пациента, должен раскрываться только после завершения исследования и анализа данных, и лишь тогда станет понятно, какой метод лечения более эффективен. (Всегда следует предусматривать возможность для раскрытия кода на тот случай, если в ходе исследования у пациентов возникнут серьезные побочные эффекты.)

Что могло бы быть

Итак, фундаментальная идея, лежащая в основе рандомизированных клинических исследований, заключается в использовании темных данных при распределении людей по группам. Это позволяет нам исследовать контрфактуальность того, что могло бы произойти. Альтернативной стратегией исследования того, что могло бы произойти, является симуляция. При симуляции мы создаем модель механизма, системы или процесса и генерируем в этой модели синтетические данные, чтобы посмотреть, как механизм, система или процесс поведут себя в различных условиях, а возможно, и в разное время. Данные, которые мы генерируем, не являются темными в смысле отсутствия значений. Но их можно отнести к темным данным в другом смысле: их значения не наблюдались, но могли бы наблюдаться при других обстоятельствах. К таким данным относятся, например, доход супруга того, кто не состоит в браке, время смерти от рака у неизлечимого ракового больного, который умер от чего-то другого, или случайная ошибка измерения, принимающая разные значения.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация