Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 66. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 66

● «Вся аналитика на базе LOCF имеет сомнительную достоверность, если не сказать, что она явно ложная (может казаться истинной, но фактически является ложной)… LOCF не следует использовать ни в каком анализе» [155].

● «Как LOCF, так и подстановка среднего значения ложно увеличивает заявленную точность оценок, поскольку не учитывает неопределенность недостающих данных и обычно дает искаженные результаты» [156].

● «Использование LOCF нарушает статистические принципы, и подобные допущения могут быть оправданными лишь изредка» [157].

Такие комментарии обоснованно вызывают сомнения по поводу использования LOCF.

Прогнозирование на основе других переменных

До сих пор мы рассматривали такие несложные методы вменения – среднее значение от наблюдаемых, предыдущее значение для того же объекта или пациента, – что с ними справился бы и ребенок. Однако моделирование взаимосвязи между переменной с недостающим значением и другими переменными, а затем прогнозирование этого недостающего значения на основе значений наблюдаемых уже более сложная стратегия. Модель базируется на анализе полных наблюдений, где все значения присутствуют. Мы уже сталкивались с этой идеей, когда давали определение для категории SDD.

Например, в табл. 6 есть четыре строки, в которых присутствуют и значение возраста, и значение массы тела. Четыре соответствующие точки показаны на графике (рис. 6). Мы могли бы использовать их для построения простой статистической модели, связывающей возраст и массу тела. Прямая линия на рисунке является подходящей моделью, демонстрирующей, что для этих данных более высокие значения возраста связаны с меньшими значениями массы. (Замечу, что не стоит строить модели на выборках размером всего в четыре точки в реальной жизни!) Теперь мы можем использовать эту модель для прогнозирования недостающих значений массы при наличии значений возраста. Например, человеку, описанному в восьмой строке таблицы, 41 год, но значение массы тела для него неизвестно. Линия, которая служит нам моделью, подсказывает, что это значение может составлять около 91 кг.


Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Можно сказать, что это расширение идеи простого добавления среднего значения наблюдаемых данных с применением более сложной статистической модели, которая использует преимущества другой информации, доступной в таблице. Поскольку задействованы значения возраста, а не только массы тела, стратегия может дать лучшие результаты, чем простое использование среднего. В частности, ее применение целесообразно, если недостающие значения массы тела принадлежат категории SDD, а вероятность их отсутствия зависит только от возраста. Но если недостающие данные относятся к категории UDD, такая модель нам не поможет. Тем не менее нужно отметить, что эта стратегия моделирования и прогнозирования содержит в себе зачатки одной очень продуктивной идеи, к которой мы вернемся позже.

«Горячая колода»

Еще один простой метод вменения, основанный на наблюдаемых значениях, известен под общим названием «горячая колода». Чтобы найти замену отсутствующему значению в неполной записи, требуется сопоставить ее с другими записями, в которых значения имеются. Затем из наиболее подходящих записей случайным образом выбирают одну, значение которой подставляют на место отсутствующего элемента. Например, в табл. 6 неизвестен рост первой женщины. Сравнивая эту строку с другими, мы находим две сходных с ней в том, что они соответствуют женщинам в возрасте 41 и 31 года, что довольно близко к 38 годам – возрасту женщины с неизвестным ростом. После этого мы случайным образом выбираем одну строку, чтобы взять из нее значение роста и подставить в ячейку «Н/Д» для 38-летней женщины. Рост одной женщины составляет 165 см, а другой – 160 см. Если мы выберем, например, 41-летнюю, то вмененное значение будет 165 см.

Этот метод получил свое название в те дни, когда данные хранились на перфокартах, и в прошлом применялся довольно широко. Его привлекательность заключается в простоте, он не требует сложной статистики – всего лишь оценку степени сходства между записями. Однако все зависит от того, как именно вы определяете «сходство». Какие другие переменные вы собираетесь использовать, оценивая сходство? Как вы объединяете их для получения общего показателя? И следует ли считать одни переменные более важными и имеющими больший вес, чем другие?

Множественное вменение

Мы уже видели, что одна из очевидных проблем метода вменения состоит в том, что повторный анализ с использованием различных вмененных значений будет давать разные результаты. Но что если мы можем воспользоваться этим?

Каждый вариант дополненного набора данных представляет собой их вероятную конфигурацию, которая могла бы наблюдаться в реальности. Сводная статистика, рассчитанная на основе такого дополненного набора, также является вероятностным вариантом этой статистики, которая могла быть получена, если бы данные были полными с самого начала. Это означает, что если мы повторим вменение несколько раз, используя разные вмененные значения, то получим распределение значений суммарной статистики, по одному для каждого вероятного полного набора данных. Мы можем оценить различные параметры такого распределения, например неопределенность или дисперсию суммарной статистики. То есть вместо того, чтобы просто получить единственный «наилучший» вариант оценки, мы получаем показатель вероятности того или иного значения.

Эту стратегию повторных вменений принято называть множественным вменением. На сегодня это широко используемый инструмент для решения проблем с отсутствующими данными.

Итерация

Мы познакомились с простыми методами подстановки значений на место недостающих и с более сложными, которые задействуют наблюдаемые переменные, чтобы оценить отсутствующее значение. Идея использования предполагаемой взаимосвязи между наблюдаемыми значениями и недостающими для прогнозирования последних приводит к продуктивной итеративной идее, основанной на принципе максимального правдоподобия.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация