Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных – страница 60 | Дэвид Хэнд

Некоторые из тех, кто сидел на диете, выпали из исследования, потому что не смогли придерживаться разработанной программы питания – им было стыдно и они не могли вернуться. Другие, особенно те, у кого превышение нормы не было чрезмерным, обнаружили, что худеют слишком медленно, начали терять мотивацию и тоже выбыли. Третьи покинули исследование по причинам, не связанным с похудением, – кто-то переехал, сменив работу, а кто-то просто был слишком занят, чтобы посещать клинику, где проводились измерения.

Для первой из этих трех категорий существует четкая связь между вероятностью выпадения и ИМТ, который был бы зарегистрирован, если бы они остались в исследовании. То, что они не придерживались программы питания, означало, что эти люди как минимум худели намного медленнее, чем следовало, а возможно, даже набирали вес. Рубин назвал подобные ситуации, в которых вероятность отсутствия данных связана с их значениями, которые мы имели бы, если бы вели наблюдение, «неигнорируемо потерянными» наблюдениями (иногда их еще называют «содержательно потерянными»). Очевидно, что с такой ситуацией непросто справиться, потому что темные данные будут отличаться от наблюдаемых данных тех, кто остался в исследовании.

Для второго типа выбывших, тех, кто не имел заметного избыточного веса и потерял мотивацию, существовала связь между вероятностью их выпадения и тем, что было измерено – начальным ИМТ. Хотя мы не знаем окончательное значение ИМТ этих людей, ясно, что их выпадение связано с тем, что мы уже измерили. Рубин назвал это «случайно потерянными» наблюдениями. Суть подобных ситуаций в том, что мы располагаем признаками того, что дела идут или могут пойти не так.

Наконец, третья категория состоит из людей, у которых причина выбывания не имела отношения к исследованию. Для таких людей измерения (ни сделанные до их ухода, ни те, которые могли бы быть проведены, останься они в группе) не имеют никакого отношения к их выпадению. Рубин назвал эту категорию «абсолютно случайно потерянными» наблюдениями.

Для людей, далеких от статистики, терминологию Рубина, вероятно, будет сложно запомнить, поэтому я переименую эти три типа механизмов появления недостающих данных.

● Я обозначу неигнорируемо потерянные наблюдения как зависимые от невидимых данных, или UDD (Unseen Data Dependent) для краткости. Вероятность отсутствия наблюдений в этом случае зависит от значений, которые еще неизвестны. В нашем примере вероятность ненаблюдения окончательного значения ИМТ зависит от того, насколько оно высокое: люди с более высокими значениями с меньшей вероятностью захотят его измерить.

● Я обозначу случайно потерянные наблюдения как зависимые от видимых данных, или SDD (Seen Data Dependent) для краткости. Здесь вероятность невозможности наблюдения зависит от данных, которые уже наблюдались. В нашем примере вероятность того, что итоговое значение ИМТ не будет наблюдаться для этой категории, зависит от исходного значения ИМТ, при этом люди с низкими значениями могут выпасть с большей вероятностью.

● Я обозначу абсолютно случайно потерянные наблюдения как независящие от данных, или NDD (Not Data Dependent) для краткости. В этом случае вероятность отсутствия наблюдения никак не зависит от данных, имеющихся или нет. В нашем примере вероятность отсутствия итогового значения ИМТ не связана с другими значениями – ни с теми, которые были нами уже получены, ни с теми, которые мы могли бы получить, если бы наблюдения состоялись.

Заслуга Рубина, выделившего эти категории, становится очевидной, когда мы начинаем задумываться о том, как скорректировать недостающие данные. Последний тип механизма появления недостающих данных – самый простой, поэтому начнем с него.

В идеальном мире измерены были бы все – и в начале шестимесячного периода, и в конце, но наш мир не идеален. Поэтому и возникает вопрос, на который нам нужно ответить: как отсутствие результатов тех, кто выпал из исследования, исказит его выводы? Выпадения в группе NDD произошли по причинам, не связанным с исследованием. Нет никаких оснований считать, что эти выпавшие данные могли иметь нечто общее, отличающее их от данных тех, кто остался в группе. По сути, это как если бы мы с самого начала просто взяли меньшую выборку. В среднем эти неизмеренные значения не повлияют на результаты анализа, поэтому мы можем смело их игнорировать. NDD – самая простая ситуация и, вероятно, самая редкая. В этом случае темные данные вообще не имеют значения.

Но если бы все было так просто!

Второй класс Рубина – SDD – уже более коварный. Отказ этих людей от участия в исследовании зависит от начального значения их ИМТ, уже измеренного и вполне видимого. В частности, те, у кого это начальное значение низкое, чаще выпадают и не доходят до этапа регистрации финального значения, тогда как те, у кого начальный ИМТ более высокий, меньше склонны к выбыванию.

Здесь важно отметить, что такой тип отсутствия данных не искажает наблюдаемую взаимосвязь между начальным и конечным значениями ИМТ. Для любого известного начального значения может не быть значения конечного, потому что некоторые участники покидают исследование, но те, которые остаются в нем, будут надлежащим образом представлять распределение окончательных значений ИМТ для людей с похожим начальным значением. Другими словами, мы можем оценить взаимосвязь между начальными и конечными значениями, используя только имеющиеся данные: это не исказит нашего представления о соотношении. Затем мы можем использовать это расчетное соотношение, чтобы, в свою очередь, дать оценки конечных значений ИМТ для любого начального значения.

Наконец, у нас есть первый класс Рубина – случаи UDD. Эти случаи по-настоящему сложные. Данные отсутствуют из-за значений ИМТ, которые мы могли бы узнать, но которых, конечно, не знаем. Они не выпали случайным образом, не стали следствием других наблюдаемых значений. Единственный способ оценить такие данные – получить информацию откуда-то еще или предположить самому, почему именно эти значения отсутствуют.

Вот еще один пример.

Специалист по социальной статистике Кэти Марш описала набор данных, собранных в 1980 г. путем случайной выборки, в которую вошли 200 британских супружеских пар^[148]. Мы используем эту выборку для оценки среднего возраста замужних женщин в Великобритании в то время. Беглый взгляд на данные Кэти Марш показывает, что имеются недостающие значения, а возраст некоторых жен не зафиксирован. Вопрос заключается в том, влияют ли эти темные данные на подход к анализу и делают ли они недействительными выводы, к которым мы можем прийти? Как и в примере с ИМТ, ответ зависит от того, по какой причине данные отсутствуют.

Ненаблюдаемые значения возраста жен могут принадлежать категории NDD и не быть связаны с другими значениями данных в исследовании, известными и неизвестными.

Ненаблюдаемые значения могут также принадлежать категории SDD и зависеть от других значений, которые мы уже имеем. Предположим для упрощения, что решение жены о том, следует ли ей называть свой возраст, зависит исключительно от возраста ее мужа, а от значений прочих переменных не зависит. Так, жены, мужья которых старше их самих, могут вдвое реже сообщать свой возраст, чем жены, чьи мужья младше. Предположим также, что мы всегда знаем возраст мужа.

Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 60 – Дэвид Хэнд

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»