В предыдущем разделе мы рассмотрели случаи, когда данные произвольно отсекаются границами диапазона значений. Но часто такой эффект возникает из-за самой конструкции измерительных приборов.
Например, напольные весы имеют верхнее предельное значение, которое они могут отобразить. Все, кто тяжелее этого максимума, будут знать, что их вес превышает его, однако точное значение будет скрыто в области темных данных. Хотя эта ситуация и напоминает верхний предел избыточности, рассмотренный нами ранее, она не является результатом преднамеренного выбора исследователей и имеет собственное название – эффект потолка. Аналогичным образом в других контекстах существует нижний предел значений, ниже которого все данные будут регистрироваться как меньшие или равные минимальному порогу измерительного прибора. По вполне понятным причинам эта ситуация называется эффектом пола. Например, температура ниже точки замерзания ртути не может быть зарегистрирована с помощью ртутного термометра. Эффекты потолка и пола приводят к появлению темных данных DD-тип 1: данные, о которых мы знаем, что они отсутствуют, поскольку факт существования значений нам известен, в отличие от самих значений, о которых мы знаем только то, что они выше или ниже некоторого предела. Поэтому эти данные относятся еще и к DD-типу 10: ошибки измерения и неопределенность.
Эффекты потолка и пола могут проявляться довольно неожиданно. Например, по приблизительным оценкам, во Вселенной около 1024 звезд – полностью это число выглядит как единица с 24 нулями. Но только около 5000 звезд видны невооруженным глазом с Земли, а поскольку сама планета закрывает от наблюдателя половину небесного свода, в любой ее точке мы можем видеть лишь половину этих звезд. Это означает, что большинство данных, относящихся к астрономическим объектам, были темными до изобретения телескопа: яркость этих объектов лежала ниже уровня чувствительности человеческого глаза. Таким образом, любые выводы о природе Вселенной, основанные на анализе нескольких тысяч видимых звезд, могут быть очень обманчивыми.
Около 1609 г. Галилей начал исследовать небосвод с помощью своего телескопа с примерно 30-кратным увеличением и обнаружил существование звезд, о которых раньше никто не подозревал. С тех пор развитие технологий сообщало нам все больше информации о Вселенной. Тем не менее основная проблема до сих пор заключается в том, что чем более удалены астрономические объекты, тем ниже их яркость и, соответственно, вероятность обнаружения. Неспособность как-то исправить эту ситуацию стала причиной смещения Малмквиста, названного в честь шведского астронома Гуннара Малмквиста, который открыл этот эффект в 1920-х гг. Смещение Малмквиста проявляется, например, в том, что хотя и звезды, и галактики имеют одинаковый предел яркости, при котором могут быть обнаружены, но звезды с большей вероятностью превысят этот порог обнаружения и станут видимыми, поскольку представляют собой более концентрированные источники света. Игнорирование этого характерного для темных данных эффекта искажает наше понимание структуры Вселенной.
Все более мощные телескопы, как наглядный пример технологического прогресса, буквально раздвигают границы познаваемого мира, а если говорить языком этой книги, то высвечивают данные, скрытые доселе во мраке. В других областях этой цели служат иные инструменты. Микроскопы и применение сканирования в медицине позволяют получить новую информацию о человеческом теле, аэрофотоснимки рассказывают нам о древних сооружениях на поверхности Земли, а сейсмические приборы и детекторы магнитного поля дают возможность заглянуть в ее глубины. Эти и множество других инструментов расширяют возможности нашего восприятия, постепенно раскрывая темные данные.
Объединение наборов данных
Отдельные наборы данных сами по себе имеют огромный потенциал для человечества, но возможность связывания, объединения или слияния наборов данных из разных источников создает условия для синергии. Данные одного набора в сочетании с данными другого могут давать иные типы информации; они могут дополнять друг друга, позволяя отвечать на вопросы, на которые ни один из наборов данных по отдельности не может дать ответа; или способны повысить точность, например, благодаря триангуляции и условному расчету, когда значения, отсутствующие в одном наборе данных, могут быть заполнены с использованием другого.
Хорошо известно, что подобные методы используют эксперты в области судебной статистики и правоохранительные органы, выявляющие мошенничества, но в действительности сфера их применения гораздо шире. Проекты британской сети по изучению административных данных продемонстрировали мощь такого подхода
[60]. Этот консорциум университетов и национальных статистических институтов четырех стран Соединенного Королевства постарался облегчить процессы объединения и анализа административных данных для исследований в области социологии и государственной политики. Например, в одном из проектов были собраны данные из нескольких источников для изучения влияния жилищных субсидий на состояние здоровья бездомных и использование ими медицинских услуг. Другая объединенная база данных позволила изучить влияние «топливной бедности» на здоровье граждан. Еще одна объединенная база данных была создана, чтобы выявить параметры связи между плотностью точек продажи алкоголя и здоровьем местного населения.
Преимущества такого подхода ярко раскрылись в проекте, который связал данные шести социальных служб в Соединенных Штатах, чтобы получить четкую картину бездомности в округе Лос-Анджелес, и в рамках которого была разработана программа строительства 10 000 домов для бездомных с проблемами психического здоровья стоимостью $2 млрд
[61].
Потенциал подобных проектов неограничен, а сами они демонстрируют возможности современных технологий обработки данных для того, чтобы нести людям добро. Однако связывание наборов данных и их объединение не обходятся без проблем, поскольку и здесь темные данные создают риски. Для объединения наборов данных нужны общие идентификаторы, чтобы записи в одном наборе можно было соотнести с записями в другом. Но часто данные регистрируются в разных форматах или оформляются в разных стилях, так что возникают несоответствия. Почти всегда в одной базе данных можно найти записи, имеющие отношение к людям, которых нет в другой базе данных. Дублирующие друг друга записи еще больше усложняют ситуацию. Методы сопоставления и связывания данных для уменьшения объема темной части уже стали важной областью исследований, и в дальнейшем их значение будет только возрастать по мере накопления больших наборов данных.
Итак, подведем итог. В главе 2 мы рассмотрели различные виды данных, а в двух последующих, включая эту, – риски, связанные с темными данными, которые возникают в процессе сбора данных. В число таких рисков входят неоднозначные определения, отсутствующие переменные, случайные аспекты измерительных процессов, ограничения приборов, укрупнение данных, эффект «неуклюжего пальца» и др. Но существует целый ряд рисков, еще не рассмотренных нами. В следующей главе мы познакомимся с совершенно другим классом источников темных данных.