Книга BIG DATA. Вся технология в одной книге, страница 70. Автор книги Андреас Вайгенд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «BIG DATA. Вся технология в одной книге»

Cтраница 70

Потребление частной информации, как и любого другого ресурса, может быть в большей или в меньшей степени производительным, а процесс ее использования может управляться и бюджетироваться. Синтия Дворк из Microsoft Research считает крайне необходимым наличие количественной оценки потерь частной информации в процессе работы с данными. Настройку информационных систем, позволяющую пользователю избегать прямых негативных последствий передачи им своих личных данных, Синтия называет «дифференциальной приватностью». Она формулирует эту задачу в виде двух вопросов: «Какая технология обеспечивает большую достоверность результата в заданных границах утраты частной информации? Какая технология лучше обеспечивает сохранность частных данных при заданной достоверности результата?» [383]

Компания, работающая в сфере обработки и анализа данных, должна руководствоваться в своей деятельности необходимостью соблюдения оптимального баланса между потерями клиентов в приватности и полезными результатами, которые они получают в обмен на свои данные [384]. Инфопереработку удобнее представлять себе как экосистему, которую разумнее поддерживать исходя из благополучия системы в целом, а не отдельных ее элементов. Баланс между достоверностью и сохранностью частной информации существует для всех, а не для отдельно взятого лица. Выбирая между инфопереработчиками, надо понимать, насколько быстро, медленно, эффективно или неэффективно каждый из них потребляет частную информацию.

Скорость и эффективность потребления частной информации можно сравнить с понятием «скорость сгорания», применяемым в технике и экологии [385]. Инженер может соорудить дровяную печку, расходующую много топлива и производящую не слишком много тепла для обогрева помещения. Печка работает, но она не очень эффективна: на достижение нужного результата, то есть тепла в комнате, уходит слишком много топлива. Поддерживать тепло можно, постоянно подбрасывая дрова, но теплоотдача все равно будет далеко не оптимальной. Возможно, данные в целом уже не являются дефицитным ресурсом, но частная информация им остается, и ее дефицит нарастает. Но, подобно дровам, ценность частной информации может выгорать быстро, не принося при этом особой пользы.

Подтвержденный коэффициент полезного действия современной дровяной печи находится в диапазоне от 60 до 80 процентов при теоретическом максимальном значении этого показателя в 100 процентов. Коэффициент использования частной информации можно рассчитать примерно так же. Его 100-процентное значение будет подразумевать минимальную утрату частного характера информации ради получения конкретного результата, притом что для этого были использованы только абсолютно необходимые данные – например, навигатору требуются лишь данные о текущем местоположении и месте назначения человека, чтобы проложить для него маршрут.

Инфопереработчик находится в постоянном процессе отбора пользовательских данных, которые помогут ему в совершенствовании продуктов и сервисов. В базах данных, которые используются в Amazon для подготовки рекомендаций клиентам, просмотры и покупки не привязаны к конкретным клиентам. В этом нет необходимости, поскольку важны сами по себе траектории перемещения от товара к товару, а не то, что некая Вероника из Омахи кликнула сначала что-то одно, а потом другое. Поэтому некто, изучающий эти базы, не обнаружит в них информации о конкретных людях, и шансы на то, что эти данные каким-то образом нанесут ущерб, невелики.

Работая с сайтом знакомств Fridae, мы проанализировали тысячи заметок, сделанных одними пользователями по поводу других, в диапазоне от «послал мне пять сообщений – надо ответить» или «встретился – не моё» до «диплом с отличием по химии» или «выглядит старше своих 29 лет». Эти заметки мог видеть только автор, другим пользователям они были недоступны. Анализ показал, что таким образом пользователи отмечали тех, с кем они переписывались или встречались безрезультатно, чтобы не тратить время и силы на дальнейшие контакты с ними. Но прежде чем приступить к анализу содержания заметок, мы удалили все имена пользователей. Это позволило уменьшить объем частной информации, которую нам нужно было израсходовать в процессе совершенствования сервиса Fridae. Чтобы выявить закономерности содержания заметок и подумать о новых функциях или разделах сайта, знания о предпочтениях конкретных людей не требовалось.

Если вопрос об эффективности не стоит, то создать очень мощную машину проще. Двигатель для гоночной машины «Формулы-1» пожирает бензин в огромных количествах. Вообще говоря, на протяжении десятилетий автопроизводители не слишком беспокоились по поводу расхода топлива, поскольку оно было дешевым и, как тогда казалось, имелось в неограниченных количествах. А покупателей больше интересовали другие вещи, вроде внешнего вида, мощности, надежности и цены. Нефтяной кризис 1970-х годов способствовал переосмыслению плюсов и минусов различных аспектов конструкции двигателей. Государства потребовали повысить коэффициент полезного действия топлива, а на автозаправках потребители стали считать каждую копейку.

Эффективность использования топлива, измеряемая в США как количество миль на галлон бензина, может сильно варьироваться в зависимости от потребности двигателя. Городской цикл с его многочисленными остановками и низкой скоростью обычно бывает менее экономным с точки зрения расхода топлива, чем езда по скоростному шоссе. Имеют значение также и погода, и другие нагрузки на двигатель, например включенный кондиционер. Американское Агентство по охране окружающей среды, испытывая автомобили по пяти лабораторным сценариям вождения, сводит результаты различных видов движения в единый коэффициент полезного действия топлива. Агентство считает, что «Испытание автомобилей в лабораторных условиях создает равные условия для всех машин и обеспечивает сопоставимость, точность, устойчивость и объективность результатов» [386].

К сожалению, некорректные показатели эффективности могут выглядеть вполне правдоподобно. Это относится к любым показателям работы любых механизмов или условий среды, которые люди не могут ощущать непосредственно. Предположим, вы остановились в гостинице и в вашем номере слишком жарко. Вы регулируете кондиционер, но температура не меняется, и вы вызываете техника. После некоторых манипуляций служащего дисплей пульта управления начинает показывать более низкую температуру. Если в комнате тем не менее по-прежнему жарко, вы можете решить, что техник «наладил» пульт, а не кондиционер, и потребовать, чтобы температуру в номере измерили термометром.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация