Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных – страница 63 | Дэвид Хэнд

Использование всех доступных данных

Вторая столь же нехитрая стратегия – использовать все имеющиеся у нас данные. Например, у нас есть семь строк, содержащих значения возраста, поэтому можно вычислить средний возраст, используя только эти семь значений. Это приемлемо, если недостающие значения возраста не имеют общих признаков, отличающих их от имеющихся данных, то есть если они относятся к категории NDD. Но, если недостающие значения отличаются от собранных, мы можем сделать неправильный вывод. Например, если в табл. 6 эти значения будут указывать на больший возраст, то такой подход приведет к занижению среднего возраста.

Есть еще одно осложнение, которым чреват этот метод. В разных строках отсутствуют значения для разных признаков: где-то это возраст, где-то – рост, масса тела и пол. Это говорит о том, что, используя для анализа все доступные данные, мы получим оценки среднего возраста, роста и тела, основанные на данных разных людей. Если предположить, что, как правило, отсутствуют значения массы тела для тех, кто страдает ее избытком, а значения роста – для низкорослых, то такой подход может создать неправильное впечатление, что население состоит в основном из высоких и тощих людей. Более того, он даже может привести к противоречиям. Например, при изучении связи между парами переменных можно обнаружить, что корреляция возраст / масса тела и корреляция возраст/рост подразумевают корреляцию масса тела/рост, противоречащую прямому вычислению на основе данных о массе тела и росте. Это вызвало бы как минимум недоумение.

Модели недостающих значений

Третья стратегия – группировать записи в соответствии с недостающими характеристиками. Например, мы могли бы проанализировать тех, у кого отсутствуют значения массы тела, отдельно от тех, у кого эти значения есть. В табл. 6 присутствуют пять моделей недостающих значений: случаи, когда отсутствует только масса тела, только возраст, одновременно масса тела и возраст, только пол и только рост. Очевидно, когда размер выборки ограничен 12 наблюдениями, имеется не так много записей, содержащих каждую из моделей (3, 2, 1, 2 и 2 соответственно), но с более крупными выборками мы можем анализировать случаи по каждой модели отдельно. Такой подход применим к любому из трех механизмов появления недостающих данных, но его минус в том, что довольно сложно из выводов, сделанных таким образом, собрать какую-то полезную сводку. Более того, в больших наборах данных, где много измеряемых переменных, может быть огромное число моделей недостающих значений!

Применять этот метод лучше всего в тех случаях, когда значения отсутствуют потому, что их попросту не существует. На примере опроса из главы 2 можно сказать, что это имело бы смысл, если бы значение дохода супруга отсутствовало по причине отсутствия самого супруга. В этом случае мы будем иметь дело с двумя типами респондентов: теми, у которых был супруг (и имелось значение), и теми, у кого супруга не было. Однако все это становится бесполезным, если значение дохода супруга отсутствует потому, что кто-то отказался или забыл его сообщить.

Этот пример также показывает важность использования разных кодов для разных категорий недостающих значений. Аббревиатура «Н/Д» может скрывать под собой любые категории темных данных, и тот факт, что эти данные просто неизвестны, никак не помогает нам использовать их классификацию.

Настойчивость и золотая выборка

В предыдущих главах мы наблюдали несколько ситуаций, когда отсутствовали данные для значительной части населения. Причины могли быть разными: люди отказывались отвечать на вопросы; скрининг выявил, что, вероятно, они не страдают от исследуемой болезни; процесс связывания данных плохо соответствовал используемым базам данных и т. д. Если бы те, кто не предоставил данные, могли быть идентифицированы – например, потому что они удовлетворяли определенным критериям или просто имелся список на основе структуры выборки, показывающий, кто ответил, а кто нет, – тогда стало бы применимой простая стратегия изучения всех (или некоторых) с недостающими данными. Если это сделать хорошо, то проблема может быть решена, независимо от того, какой механизм возникновения недостающих данных был задействован.

На самом деле эта стратегия широко используется при проведении опросов. Она подразумевает согласованные усилия для установления связи с неответившими респондентами. Если речь идет, скажем, о телефонном опросе, то на основании нескольких повторных звонков респонденту можно моделировать взаимосвязь между его характеристиками и числом этих попыток. Затем эту взаимосвязь можно использовать для корректировки результатов, чтобы учесть тех, кого так и не удалось опросить.

Стратегия использования дополнительных данных может принимать очень разные облики. Вот еще один пример, рассмотренный нами ранее.

В главе 2 мы уже познакомились с темными данными в сфере банковского обслуживания физических лиц, с которой мы сталкиваемся почти ежедневно. Вы сами убедились, насколько сложно оказалось построить модели, включавшие бы всех потенциальных заявителей на получение кредита, поскольку имеющиеся данные, как правило, представляли собой искаженную выборку. Например, мы никогда не узнаем, каким был бы исход (погашение/непогашение) для тех, кто подал заявку, но кому кредит предоставлен не был. В розничном банковском обслуживании существует такое понятие, как «анализ отклоненных заявок», которое описывает стратегии, позволяющие сделать выводы о том, какими были бы исходы для этих людей. Такие стратегии противопоставляют «получивших отказ» и «прокредитованных». (В сфере розничного кредитования терминология вообще не отличается особым тактом, достаточно вспомнить «низкокачественных заявителей» или те же «лимоны».) Анализ отклоненных заявок – частный случай более общей стратегии борьбы с недостающими значениями, называемой вменением, которую мы обсудим позже в этой главе.

Нам могут потребоваться выводы из этих ненаблюдаемых исходов по разным причинам. Одна из них состоит в том, чтобы проверить, насколько хорошо работает наш метод отбора, например, не отклоняет ли он кандидатов, которые не допустили бы дефолта. Другая причина – улучшение моделей прогнозирования вероятных исходов для новых кандидатов. В конце концов, если наши модели основаны лишь на той части населения, которой ранее уже были предоставлены кредиты, то они могут оказаться ошибочными применительно ко всей совокупности заявителей. Эта проблема была описана в главе 1.

Чтобы решить проблему неизвестных исходов для тех, кто не получил кредиты, в одном банке, с которым я работал, было введено такое понятие как «золотая выборка». Это была выборка людей, которые должны были получить отказ, поскольку не соответствовали критериям банка для получения кредита. Предполагалось, что они несут высокие риски неплатежей и могут обойтись банку очень дорого (отчего и были названы «золотые»), но тем не менее банк одобрял небольшую случайную выборку из их числа ради той информации, которую мог получить, предоставив кредит. Эта стратегия позволила банку усовершенствовать модель выявления тех, кто, вероятно, допустит дефолт, и принимать более верные решения, кому выдавать кредиты.

К сожалению, не всегда можно увеличить выборку, чтобы восполнить недостающие части генеральной совокупности, но иногда мы можем получить представление о том, как должна выглядеть общая структура распределения по аналогии (скажем, сопоставить распределение по возрасту групп населения в похожих странах) или на основе теоретических аргументов (например, структура распределения срока службы электрических лампочек, исходя из физических принципов, на которых они работают). В таких ситуациях если мы знаем критерии выбора, то можем использовать наблюдаемую часть распределения, чтобы рассчитать общее распределение и, как следствие, его свойства, например, среднее значение. Следующий раздел иллюстрирует эту важную мысль.

Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 63 – Дэвид Хэнд

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»