Обратите внимание, что я использовал слово «прозрачность» в том смысле, в котором оно обычно используется, когда люди говорят о прозрачности данных, – то есть обозначая возможность доступа. Но сам феномен прозрачности может быть интерпретирован и по-другому – как нечто прозрачное, что позволяет видеть сквозь себя и что, возможно, вы даже не замечаете. Окна и линзы очков тоже прозрачны. И неприятный факт заключается в том, что многие из наиболее эффективных мошенничеств и афер основаны именно на такой интерпретации прозрачности, когда все происходит незаметно для вас и выглядит достоверно, но ровно до тех пор, пока вы вдруг не замечаете какие-то несоответствия. В этом смысле «прозрачность» имеет сходство с «темнотой», во всяком случае в том, что касается данных.
В этой главе мы говорили о том, как распознать проблему темных данных и, возможно, решить ее, в частности, в контексте научных исследований. Мы рассмотрели идею сопоставления теории с данными, ошибки, допускаемые из-за их недостатка, мошенническое использование данных, фальшивые данные, выбор экстремальных значений в наборе, проблему направленного поиска аномалий и предположение, что «большинство научных открытий ошибочно». Мы также познакомились с принципом проверки достоверности источника, заключенном в простом вопросе: «Кто вам такое сказал?»
Первая часть книги была посвящена способам, которыми темные данные могут создавать проблемы. Во второй части мы рассмотрим методы обнаружения темных данных, их учета и узнаем то, как они могут быть использованы.
Часть II
Освещение и использование темных данных
Глава 8
Принцип работы с темными данными
Проливаем свет
Надежда!
Мы убедились, что темные данные могут возникать по многим причинам. Даже если мы допускаем возможность ошибочности наших данных, то можем просто не осознавать, что видим далеко не все. Мы также убедились, что подобное неведение чревато очень серьезными последствиями: от финансовых крахов до гибели людей. Картина не самая радужная.
Так что же делать? В этой главе рассматриваются способы, с помощью которых мы можем заглянуть в тень и понять, что в ней скрыто, а также методы смягчения проблем, даже для тех случаев, когда нет возможности точно определить, что именно пошло не так. Далее мы познакомимся с идеями, инструментами и стратегиями, которые были разработаны специально, чтобы помочь нам получить правильные ответы, даже когда вокруг туман неопределенности. Основная часть главы посвящена ситуациям с отсутствием данных (например, DD-тип 1: данные, о которых мы знаем, что они отсутствуют, DD-тип 2: данные, о которых мы не знаем, что они отсутствуют, DD-тип 3: выборочные факты, DD-тип 4: самоотбор), а в конце мы кратко обсудим данные, которые можно наблюдать, но которые все равно могут вводить нас в заблуждение (например, DD-тип 10: ошибки измерения и неопределенность, DD-тип 9: обобщение данных, DD-тип 7: данные, меняющиеся со временем). Независимо от причины возникновения проблемы принципиальным условием ее решения является бдительность: осознание того, что именно может пойти не так. Это особенно актуально для ситуаций, когда сами данные не могут вам подсказать, что произошло нечто неблагоприятное (например, DD-тип 15: экстраполяция за пределы ваших данных, DD-тип 12: информационная асимметрия, DD-тип 8: неверно определяемые данные). Надеюсь, что множество примеров и список DD-типов, приведенный в этой книге, помогут вам сохранять это состояние бдительности, поскольку теперь вы знаете как минимум некоторые вещи, за которыми нужен глаз да глаз.
Но, прежде чем мы углубимся в детали, необходимо подчеркнуть один крайне важный, фундаментальный момент – появление темных данных указывает на небезупречность. Понятно, что это относится к тем случаям, когда данные оказываются ошибочными, но это применимо и к ситуациям с недостающими данными: само слово «недостающие» говорит о том, что вы надеялись получить больше данных, но что-то пошло не так. Важно понимать, что, хотя методы, которые мы разберем дальше, и помогают смягчить проблемы, возникающие из-за неправильных и неполных данных, лучше всего сразу постараться, чтобы данные были правильными и полными. Иначе говоря, необходимо сделать все возможное, как при разработке стратегии сбора данных, так и в процессе их фактического сбора, чтобы избежать ошибок и неполноты.
Легко сказать. А что, если это просто невозможно?
Связываем наблюдаемые и недостающие данные
Если наша стратегия сбора данных не принесла успеха и их набор оказался неполным, то ключевым фактором в борьбе с темными данными становится понимание того, почему эти данные отсутствуют. В частности, нам необходимо изучить взаимосвязь между имеющимися данными и отсутствием каких-либо элементов. Если повезет, это даст некоторое представление о том, какие значения могли бы иметь недостающие элементы, что, в свою очередь, позволит компенсировать отсутствующие данные.
В качестве отправной точки для такого подхода полезно использовать классификацию, предложенную американским статистиком Дональдом Рубином в 1970-х гг.
[147] Она различает три типа взаимосвязей между наблюдаемыми и недостающими данными. Начнем с примера.
Индекс массы тела, или ИМТ, является стандартным показателем массы тканей человеческого организма. Он используется для классификации людей по следующим категориям: «недостаточный вес», «нормальный вес», «избыточный вес» и «ожирение» – и определяется как масса тела человека в килограммах, деленная на квадрат его роста в метрах. Человек попадает в категорию «избыточный вес», если его ИМТ равен или больше 25, а если это значение равно или превышает 30 – то в категорию «ожирение». Данные свидетельствуют о том, что по сравнению с людьми с нормальным весом люди с ожирением имеют повышенный риск развития диабета 2-го типа, ишемической болезни сердца, инсульта, остеоартрита, некоторых форм рака, депрессии и множества других болезней. По этой причине и существует значительный интерес к диетам для похудения.
При изучении одной такой диеты наблюдения проводились с недельными интервалами в течение шестимесячного периода, чтобы увидеть, улучшилась за это время ситуация и насколько. Наблюдения включали взвешивания, измерения толщины кожных складок и расчет ИМТ, но мы сосредоточимся на последнем показателе.
К сожалению, некоторые из участников вышли из исследования в течение этих шести месяцев, поэтому для них нет окончательного результата. Вопрос в том, можем ли мы игнорировать эти темные данные и просто анализировать те ряды, где есть как начальные, так и конечные значения? В главе 2 мы рассматривали проблемы, которые влечет за собой выпадение участников из исследования, и, учитывая, что вы дочитали книгу до этого места, ваш ответ, скорее всего, будет отрицательным. Мы не можем просто игнорировать выбывание участников и вот почему.