Определение механизма появления недостающих данных
Классификация по категориям NDD, SDD, UDD очень полезна, поскольку для разных механизмов возникновения недостающих данных требуются разные типы решений. Это означает, что первым делом необходимо определить, к какой категории относится конкретная проблема с отсутствием данных, – если мы ошибемся на этом этапе, наши выводы могут быть неверными. В примере с определением возраста жен мы могли бы сделать неверный вывод, если бы сочли, что вероятность отсутствия значения возраста не зависит ни от возраста самой жены, ни от возраста ее мужа. Аналогичным образом если бы мы полагали, что недостающие данные принадлежат категории SDD, но при этом ошибочно думали, что решение жены назвать свой возраст зависит исключительно от возраста ее мужа, то вновь попали бы в западню неверных выводов. Это вполне естественно, ведь любой анализ включает в себя предположения о том, как возникли данные, и если эти предположения ошибочны, то и выводы, сделанные на их основе, будут такими же. Кроме того, из этого следует, что нужно быть максимально уверенным в своих предположениях и по возможности находить способы их проверки и подтверждения. Для этого существуют различные стратегии, которые мы и рассмотрим далее.
Возможно, основной из таких стратегий является использование собственного опыта в той области, которую описывают данные. Если вы, скажем, исследуете сферу, где люди особенно чувствительны к сообщенным ими данным, то можете предположить, что недостающие значения принадлежат категории UDD. Например, в исследовании, касающемся употребления кокаина, недостающие данные с большей вероятностью будут из категории UDD, чем в исследовании на тему использования общественного транспорта.
В целом можно заключить, что другие исследования на ту же тему или исследования из смежных областей способны пролить свет на причину отсутствия данных. Гарвардский статистик Сяо-Ли Мэн элегантно использовал этот подход, чтобы получить количественную оценку влияния недостающих данных на сделанные выводы
[150]. Он разложил степень точности оценки на части, одной из которых была корреляция между отсутствием значения и величиной этого значения. Затем он показал, как в некоторых случаях эта корреляция может быть получена из других источников данных, описывающих сходные проблемы.
Более активная стратегия выяснения причин появления недостающих данных – попытаться собрать некоторые из них. Подробно мы рассмотрим этот метод в следующем разделе.
Иногда для этой цели могут использоваться статистические тесты. Например, мы могли бы разделить мужей на две группы в зависимости от того, указали их жены свой возраст или нет. Разница в моделях распределения возрастов мужей в этих двух группах позволит предположить, что данные не входят в категорию NDD. Американский статистик Родерик Литтл, один из ведущих экспертов в вопросе недостающих данных, разработал общий статистический тест, чтобы определить по нескольким переменным, принадлежат ли такие данные категории NDD
[151]. Также есть статистические тесты, позволяющие увидеть, относятся ли данные к категории SDD, но эти тесты чувствительны к предположениям, заложенным в моделях. Это означает, что если ваша базовая модель интерпретации данных неверна, то и выводы будут ошибочными. Опять же, удивляться тут нечему.
Мы убедились, что определение механизма появления недостающих данных, а также той степени, в которой данные отсутствуют по причине своих возможных значений, важно для предотвращения ложных результатов. В некоторых случаях бывает сразу понятно, какой именно механизм задействован, но иногда одновременно действуют два или три механизма. Три разных процесса не являются взаимоисключающими, и то, что некоторые из недостающих данных относятся к категории NDD, не означает, что другие данные не могут отсутствовать по причинам, свойственным категории UDD. Несмотря на это, если мы сможем классифицировать отсутствующие значения, то тем самым встанем на путь преодоления проблемы недостающих данных.
Вооружившись классификацией по трем категориям (UDD/SDD/NDD), мы можем приступить к изучению практических методов работы с темными данными. В следующем разделе мы начнем знакомство с ними с самых простых – и потому не всегда эффективных – методов.
Работа с имеющимися данными
Определение механизма появления недостающих данных дает нам мощное средство решения проблемы. Но оно требует довольно глубокого понимания, поэтому часто используются более простые методы, в том числе и широкодоступные в пакетах статистических программ. К сожалению, «более простые» и «широкодоступные» необязательно означает «эффективные». Давайте рассмотрим некоторые из этих методов и то, как они соотносятся с классификацией UDD/SDD/NDD.
В табл. 6 показана небольшая выборка, иллюстрирующая данные, собранные на начальном этапе исследования диет для похудения. Аббревиатура «Н/Д» означает, что значения ячеек недоступны, поскольку не были зарегистрированы.
Анализ полных наблюдений
Во-первых, мы можем использовать только заполненные без пропусков строки таблицы, то есть такие, которые содержат наблюдения для всех характеристик. Это имеет смысл, если мы полагаем, что темные данные принадлежат категории NDD, и по понятным причинам такой метод часто называют анализом полных наблюдений. Однако если вы внимательно посмотрите на табл. 6, то сразу заметите в чем состоит проблема: даже если темные данные действительно относятся к категории NDD, во всех строках таблицы отсутствует хотя бы одно значение. Если исключить из анализа неполные строки, то у нас вообще не останется данных!
Конечно, это исключительный и, надо признать, искусственный пример, но даже в менее экстремальных случаях такой подход может означать резкое уменьшение размера выборки. Если со спокойной совестью можно делать выводы на основе 1000 наблюдений, то 20 наблюдений из этой тысячи вряд ли можно считать основанием для тех же выводов. Даже если бы данные принадлежали категории NDD и 20 полных наблюдений должным образом представляли генеральную совокупность, дисперсия, возникающая из-за столь малого размера выборки, могла бы заставить нас сомневаться в точности любых выводов.
И, конечно, надо отметить, что если темные данные не принадлежали категории NDD, то даже небольшое уменьшение размера выборки может означать, что мы остались с искаженным набором данных на руках.