Основное отличие «больших данных» (их размер) в то же время является их ключевой проблемой. Задачей аналитика является содействие извлечению чего-то значимого из набора данных при игнорировании всего остального. Ценность его заключается в отбрасывании огромных массивов бесполезной информации, оставляя лишь то, что заслуживает внимания
[202]. Однако если у них нет никакого реального интереса к рассматриваемой теме (кроме математического), то у них нет и собственного понимания того, что есть «значимое», – как следствие, они действуют на усмотрение клиента. Иначе же в работу будут вклиниваться их собственные предубеждения и предположения, минуя сознательное осмысление и критику
[203].
Клиентов, использующих услуги науки данных, постоянно становится все больше. «Quants» могут делать большие деньги, работая на банки с Уолл-стрит и хедж-фонды, разрабатывая алгоритмы для анализа динамики цен. Проекты типа «умный город» полагаются на датологов в деле обнаружения закономерностей в беспорядочных передвижениях городского населения, ресурсов и транспорта. Фирмы, подобные Palantir Питера Тиля, помогают службам безопасности определять вероятные источники угрозы, выделяя опасные шаблоны поведения. И наконец, существуют темные конторы вроде Cambridge Analytica, предоставляющие потенциальным клиентам услуги по формированию обращений к определенным избирателям. В каждом из этих случаев аналитик данных может дать совет, что сделать с целью послужить определенным интересам или идеям, но такие, как он, редко подкованы в производстве фактов как основы общественного консенсуса.
Коммерческие аналитические компании неизбежно сталкиваются с проблемами коммерческой тайны и клиентской конфиденциальности. Но если дело касается «больших данных», нет ясности, что на самом деле должен означать «факт»: смысл того, что отражают данные, зависит от предмета поисков, которые зависят от того, кто вы такой. Познание такого рода преследует стратегические цели, а не служит формированию общей картины мира. Какая истина скрыта в обширных массивах беспорядочных данных, отчасти зависит от того, что там ищут. Там, где хранится столько свидетельств наших поведения и историй поиска, записанных автоматически, у людей циничных появляется возможность способствовать формированию неполного и лживого портрета личности или события. Это опасно сочетается с расистской и националистической политикой, что стремится преувеличить культурные и моральные барьеры, используя для этого тщательно отобранные образы. Нет даже необходимости фабриковать свидетельства, когда извлечение значимых данных проделано с достаточной степенью политической предвзятости.
В условиях отсутствия стратегических целей находки датологии демонстрируют странную банальность, если не очевидность. Google может сообщить нам, что люди ищут «лекарство от гриппа» раньше, чем заболеют. Uber известно, что потребность в такси в центре Манхэттена наиболее высока в определенное время ночи по пятницам. Facebook знает, что мужчины сорока лет в одном из пригородов Бристоля любят крафтовое пиво и группу Radiohead. Ничего из этих фактов не значит ничего особенного. Однако для всякого, кто ищет способ предугадывать и контролировать такие вещи (и делать это оперативно, в реальном времени), эта информация имеет колоссальную ценность.
Центральной проблемой в традиционной статистике является необходимость гарантировать, что их наборы данных и модели являются репрезентативными. Если необходимо провести опрос среди группы населения (к примеру, посредством голосования), требуется приложить усилия, чтобы ее состав приблизительно отражал общие пропорции в составе общества. Методики репрезентативной выборки стали использоваться с 1920-х годов и сыграли важнейшую роль в появлении опросов общественного мнения. Достижение репрезентативности является поистине демократическим стремлением, коль скоро ставит своей целью гарантировать, что факты в равной степени учитывают всех членов общества, хотя по ряду причин этого может и не получиться. Электронный анализ, в свою очередь, обычно принимает данные в том виде, в каком они были зафиксированы. Вопрос, кого или что эта выборка «представляет», – дело второе. Таким образом соблюдать интересы граждан в данном случае становится сложнее.
Взамен электронный анализ предлагает невероятную чувствительность к изменчивости настроения и поведения, что проявляется в предпочтениях потребителей, потреблении электроэнергии, да и вообще любым движениям и мыслям, способным оставить какой-то след. Вместо того чтобы изучать «репрезентативную выборку», датология предполагает наблюдение за максимально большим количеством людей, которое у технологических гигантов, как Amazon, Google, Facebook и т. п., поистине огромно. Эти платформы не только отслеживают поведение пользователей далеко за рамками своего штатного применения (к примеру, Uber продолжает следить за пользователем после завершения поездки, а Facebook – за тем, какие веб-страницы посещаются кроме него), а некоторые формируют профили по людям, не имеющим у них учетной записи, исходя из следов, оставленных теми в других местах. Столь масштабная слежка позволяет создавать невероятно детальные профили тех, на кого она направлена, но, как правило, она не используется для формирования достоверного портрета общества в целом. Анализ данных не дает исчерпывающих фактов, таких как «безработица среди молодежи» или «грамотность», но обнаруживает кластеры чувств и трендов, которые могут стать целью для рекламы или политической кампании.
Такая эмоциональная чувствительность позволяет реализовать теоретически жесткие формы контроля в интересах тех, кто стремится повлиять на публику. В 2017 году Facebook выпустили закрытый отчет для рекламодателей, где хвалились тем, что добились возможности определять подростков, переживавших «уязвимость», «беспомощность» и «потребность в стимуле уверенности в себе», полагая, что они будут более чуткими к определенным видам рекламы
[204]. Не будь он слит в мае 2017 года одной из австралийских газет, этот метод маркетинга так и остался бы в тайне от общественности, – еще одним «неизвестным известным», определяющим наше повседневное окружение.
Цифровые технологии привели к тому, что практически любая культурная особенность может быть численно измерена. Аппаратные возможности, позволяющие собирать и анализировать такие сведения, были разработаны перед лицом определенных угроз с воздуха, для борьбы с которыми оказалось мало человеческого разума и традиционной экспертизы. Сегодня наша повседневная жизнь структурируется по методикам разведки, разработанным для планирования и предотвращения ядерных ударов. В результате, хотя некоторые аспекты нашего быта становятся все более и более послушны нашим спонтанным личным порывам, перспектива мирного консенсуса кажется все менее заметной. Тем временем возможности мобилизации людей в полувоенной манере достигли беспрецедентных технических высот. Одним из последствий этого стало то, что политические дискуссии, в особенности те, что ведутся преимущественно в сети, начали больше походить на конфликты.