Книга BIG DATA. Вся технология в одной книге, страница 10. Автор книги Андреас Вайгенд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «BIG DATA. Вся технология в одной книге»

Cтраница 10

Чего стоят ваши данные?

Уже сейчас при решении многих бытовых вопросов мы полагаемся на социальные данные – будь то выбор покупки на Amazon или места, где поужинать, и способа добраться до него. Социальные данные создаются в очень многих областях жизни, и постепенно мы попадаем во все большую зависимость от инфопереработчиков при принятии важнейших жизненных решений, в том числе выбора партнера для романтических отношений, места и условий работы, медикаментов и учебных заведений.

Во многих случаях истинное значение созданных нами данных становится понятным только в сравнении их с данными, созданными другими людьми. Поскольку объем социальных данных, доступных для инфопереработки, нарастает в геометрической прогрессии, сегодня можно надеяться на получение ответов на многие из вопросов, которые считались прежде не разрешимыми в принципе. Возможно даже, что это заставит задать ряд новых важных вопросов, которые раньше просто не приходили в голову.

Алгоритмы выявляют закономерности, которые люди не могут увидеть без помощи компьютеров. Эти закономерности могут помогать нам в принятии решений. Стоимость информации, предоставленной для переработки, определяется тем, насколько полезными окажутся полученные результаты для принятия нами решений – в коммерческих сделках, в приобретении товаров и услуг, в получении банковского кредита, в поиске работы, в получении медицинской помощи и образовательных услуг для себя и своих близких, а также в общественно-политической жизни.

Оценка степени полезности результатов деятельности компаний, работающих с данными, – это существенно иная постановка вопроса, нежели привычные рассуждения о том, как, когда и почему компании и государство собирают наш «цифровой выхлоп», то есть информацию, которую мы создаем изо дня в день. Некоторые считают, что объем собираемой информации слишком велик и что лучшим вариантом поведения для частного лица является поменьше рассказывать о себе или же требовать плату за создаваемые и предоставляемые личные данные. При такой сосредоточенности на входящем потоке информации мы упускаем из виду потенциальные выгоды, которые можно извлекать на выходе. Я считаю, что мы вправе требовать нечто намного более ценное, чем мелкая денежная подачка, за предоставление своих первичных данных. Мы должны настаивать на участии в управлении инфопереработкой на справедливых и понятных условиях, чтобы иметь возможность влиять на ее результаты.

Для начала давайте рассмотрим различия между первичной и переработанной информацией. Когда я ввожу в поисковую строку «Андреас Вайгенд», Google докладывает, что эти два слова обнаружены в «примерно в 122 000 результатов». Отсмотреть все эти страницы вручную невозможно: если на каждую тратить хотя бы пять секунд (феноменально высокая скорость просмотра), на это потребуется целая неделя, что совершенно нереально. Поэтому остается положиться на порядок выдачи результатов. Во главу списка Google может поставить самые свежие упоминания. Это будет прекрасно в случае, если я интересуюсь последними новостями о себе, но не так здорово, если я ищу видео семинара, который вел несколько лет назад. Другой вариант – посчитать, сколько раз мое имя упоминается на страничке, и ранжировать релевантность результатов в соответствии с наибольшим количеством таких упоминаний. Это может оказаться полезным, если я просматриваю статьи и хочу найти ту, где меня цитируют чаще, чем в остальных. Но представьте себе, что вместо своего имени я набрал в поисковой строке «айпад по дешевке» – это будет примерно 350 000 результатов, и над полезностью такой выдачи стоит задуматься. Специалисты по рекламным ловушкам наверняка поработали над страничками с популярными поисковыми запросами (что действительно так), и мне придется долго блуждать от результата к результату в поисках действительно полезной информации.

Чтобы повысить эффективность поиска, Google рассматривает полезность страницы с учетом многих характеристик, а не только наличия слов из запроса. Разработчики компании начинали с ранжирования релевантности страниц по принципу количества ссылок на них в других местах, что давало возможность судить об уровне внимания аудитории. Когда народ понял важность входящих ссылок для места странички в выдаче поисковика, появилась сфера деятельности под названием «поисковая оптимизация» с одиозными «фермами ссылок», или линкопомойками. Алгоритмы Google пришлось усовершенствовать, чтобы они могли отличать входящие ссылки реальных заинтересованных пользователей от созданных по заказу владельца сайта. Сегодня у Google помимо структуры ссылок сети есть накопленные за два десятилетия данные о том, на какие сайты, предложенные по поисковому запросу, заходили люди и сколько времени проводили на них, прежде чем вернуться к странице результатов поиска. Если на сайт заходят многие, но, лишь бегло взглянув на него, уходят искать что-то более интересное, релевантность страницы в поиске Google падает, и она опускается ниже в результатах поиска. Тем не менее высокое место странички в результатах поиска в Google не гарантирует достоверность представленной на ней информации, а является лишь свидетельством проявляемого к ней внимания.

Сколько поисковых запросов проходит через Google ежедневно? Сколько фотографий размещается в Facebook? Умение различать достоверные, недостоверные и невероятные данные – один из базовых навыков информационной грамотности. Точные цифры не столь важны: информационная грамотность означает умение видеть разницу между чем-то вполне приемлемым и явной ошибкой на порядок. В подобных оценках физики часто рассуждают с позиций порядковых величин, то есть десятикратных различий. Они скажут, что количество пользователей Google или Facebook составляет порядка миллиарда человек, поскольку оно точно больше 100 миллионов и меньше 10 миллиардов^[37]. Далее они сделают допущение о том, что типичный пользователь делает в среднем 10 поисковых запросов в день, поскольку их точно больше одного, но меньше 100. При оценке количества фотографий в Facebook они будут исходить из показателя одно фото на пользователя в день, поскольку их точно больше, чем одно в месяц и меньше 10 в день. Таким образом, мы получаем порядковые оценки ежедневного количества поисковых запросов и размещаемых фотографий – 10 миллиардов и 1 миллиард соответственно. И это только два вида операций в области социальных данных^[38].

Осознав, что социальные данные ежедневно создаются во многих миллиардах других случаев, вы начинаете понимать, что ваши собственные первичные данные не имеют какой-то особой ценности в материальном смысле. Умилительное фото вашей собачки, которое вы запостили в Facebook, заинтересует от силы сотню человек, или 0,00001 процента пользователей сайта. Практически полезные закономерности и взаимосвязи можно выявить, только собрав и проанализировав данные нескольких миллионов человек. Отсутствие в их числе данных какого-то одного человека не повлияет на выводы, сделанные в результате переработки остального массива информации. Картина инфопереработчиков не исказится из-за пропуска данных одного человека из миллиарда.

Вернуться к просмотру книги Перейти к Оглавлению Перейти к Примечанию

Вход

Регистрация | Забыли пароль?

Поиск по сайту

Календарь

Навигация