Кавалло и его коллеги полностью отказались от традиционной процедуры сбора данных для расчета индексов инфляции. Из главы 3 вам известно, что она предполагает работу групп исследователей, посещающих магазины и собирающих данные с ценников на полках. Это не только дорого, но и медленно. В отличие от классического подхода, проект «Миллиард цен» позволяет обновлять индекс инфляции ежедневно.
Бесспорно, это огромный успех в сфере больших данных. Но даже здесь все может оказаться не столь радужным, как выглядит на первый взгляд. В частности, Кавалло и Ригобон говорят: «Мы… фокусируемся в основном на крупных многоканальных розничных сетях и не берем в расчет магазины, торгующие только онлайн (такие, как Amazon.com)»
[167]. Они отмечают, что онлайн-цены охватывают гораздо меньший набор ритейлеров и категорий продуктов, чем традиционный подход к ценовым индексам, и указывают на необходимость выбора, с каких именно сайтов брать данные, а это прямой путь к появлению темных данных в виде множества небольших онлайн-магазинов. Более того, онлайн-цены являются всего лишь ценами и не показывают объемы продаж.
Дело не в том, что все это – непреодолимые препятствия. Понимая их, мы можем работать над их преодолением. Но проблема темных данных все равно останется, поскольку само понятие инфляции, используемое в рамках проекта «Миллиард цен», несколько отличается от традиционных определений.
Существуют и другие, возможно, более серьезные проблемы, связанные с сетевыми данными. Например, алгоритм поиска Google постоянно обновляется, становясь все более эффективным, но детали этих изменений остаются непрозрачными для всех, кроме разработчиков. Например, к последним изменениям относятся введение показателя качества веб-страницы при ранжировании, понижение рейтинга сайтов, которые считаются манипулятивными, обработка запросов на естественном языке для лучшего понимания их цели, повышение рейтинга страниц, оптимизированных для мобильных устройств, и идентификация сайтов, нарушающих правила Google. Все эти изменения кажутся разумными и полезными, но дело в том, что они постоянно меняют природу собираемых данных; проще говоря, затруднительно сравнивать данные, собранные до и после изменения (DD-тип 7: данные, меняющиеся со временем). В частности, показатели экономического и социального благополучия могут меняться не потому, что изменилась базовая реальность, а потому, что изменились собираемые данные об этой реальности – так называемый сдвиг показателей. Именно темные данные лежат в основе этих изменений.
Мы имели возможность убедиться, что целая череда успешных историй основана на связывании наборов данных, их комбинировании, дублировании и объединении данных из разных источников. Потенциальная мощь таких методов несомненна, поскольку разные источники, вероятно, содержат разную информацию о тех или иных аспектах изучаемого предмета. Чаще всего этим предметом оказываются люди, и очевидно, что такие проекты могут быть чрезвычайно полезны, например для укрепления здоровья граждан и повышения благополучия общества. Но риски темных данных при связывании баз остаются всегда. Генеральные совокупности в базах данных часто не совпадают полностью (одна может включать какие-то случаи, другая нет), а во время сопоставления могут возникнуть несоответствия в силу различных способов хранения данных (является ли Джон Смит тем же человеком, что и Джон В. Смит или Дж. В. Смит?). Не говоря уже о дубликатах записей.
Эта книга в первую очередь о том, как темные данные водят за нос людей (а во вторую – что людям с этим делать). Но проблема несколько шире: темные данные могут вводить в заблуждение не только людей, но и машины. По мере того, как машинное обучение и искусственный интеллект становятся все более распространенными, следует ожидать, что будет появляться все больше сообщений о том, как темные данные обманули машину или даже привели к ее аварии. В области машинного обучения и компьютерного зрения существует концепция, которую иногда называют «Умный Ганс». Вот поучительная история ее появления.
Умным Гансом звали коня, принадлежавшего школьному учителю арифметики Вильгельму фон Остену. Умный Ганс был настолько умным, что умел складывать, вычитать, умножать и делить числа, определять время и даже читать и понимать по-немецки. Фон Остен задавал Гансу вопрос (письменно или устно), и, поскольку Ганс не мог ни говорить, ни писать (видимо, для него это было не так умно), он отвечал, постукивая копытом нужное количество раз.
В 1907 г. этот феномен исследовал биолог и психолог Оскар Пфунгст. По его выводу, хотя никаких уловок со стороны хозяина не предпринималось, сказать, что Ганс производит вычисления, было нельзя. Смышленый конь улавливал подсознательные сигналы своего хозяина, который и производил вычисления. Интересно, что сам фон Остен не отдавал себе отчета в том, что подает какие-то сигналы. В этом есть определенное сходство с рассказами игроков в покер.
Для нас важно, что Умный Ганс на самом деле не отвечал на те вопросы, на которые, как полагали зрители, он отвечает. То же самое может случиться и с машинами: их анализ, классификация, решения могут основываться на непредвиденных аспектах входных данных, в том числе на таких, о которых вы даже не подозреваете. В некоторых случаях «едва различимые незначительные отклонения для правильно классифицированного входного изображения [могут означать], что оно перестает классифицироваться правильным образом»
[168]. Используя эту слабость автоматических алгоритмов, исследователи из Университета Карнеги – Меллона разработали фигурную оправу для очков, которая для нас выглядит привычно, но при этом начисто сбивает с толку искусственный интеллект и не позволяет ему определить носителя очков
[169]. К сожалению, исследователи обнаружили, что путаница не ограничивается конкретным алгоритмом нейронной сети, а представляет собой общую проблему для этого класса алгоритмов. Очевидно, что машины видят вещи совершенно иначе, чем мы, и также ясно, что их видение – это не то, что нас интересует.
Пути возникновения темных данных неисчислимы, как вы смогли убедиться, прочитав эту книгу. Они могут появляться и случайно, и преднамеренно: иногда люди пытаются скрыть правду, представляя вещи так, как им выгодно. Выявить это помогает бдительность, а также весьма полезная стратегия – взгляд под другим углом. Пищу можно охарактеризовать как «обезжиренную на 90 %», и это звучит соблазнительно, но если на упаковке будет написано «жирность 10 %», то это уже не так аппетитно. Аналогичным образом выбор лекарства или образа жизни может быть описан как снижение риска заражения каким-либо заболеванием вдвое. Но если цифры показывают, что сокращение вдвое уменьшило риск с 2 до 1 %, то вам это будет уже не так интересно: оба значения можно считать несущественными. Этот пример, возможно, станет еще ярче, если пролить свет на темные данные, содержащиеся в нем, перевернув их: повышение шансов избежать болезни с 98 до 99 % вряд ли привлечет хоть одного покупателя, если речь идет о лекарстве.