Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 73. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 73

Учитывая фундаментальную субъективность и неопределенность причин наших представлений о среднем росте населения, вполне понятна неуверенность, которая может у нас возникнуть в отношении того, стоит ли что-то утверждать или принимать решения на основании собственного мнения по этому вопросу. Вместо этого следует собрать данные, чтобы добиться большей объективности. И это именно то, для чего нужен байесовский подход к статистике. В соответствии с ним следует взять наши первоначальные мнения о возможных значениях среднего роста, называемые априорными убеждениями, а затем корректировать их по мере поступления новых реальных данных, что приводит к появлению апостериорных убеждений. Мы могли бы, например, измерить рост 100 случайно выбранных британцев, а затем использовать эти 100 значений, чтобы скорректировать или обновить наше первоначальное представление о среднем росте населения. Результатом будет новое распределение возможных значений среднего роста, которое будет представлять собой смещение первоначального распределения наших мнений в сторону наблюдаемых фактических значений. Если взять действительно большую выборку, то ее вес в определении среднего значения будет настолько велик, что влияние нашего первоначального представления окажется ничтожным. Этот процесс обновления или корректировки выполняется с использованием фундаментальной теоремы Байеса. С нашей точки зрения, теорема Байеса объединяет ненаблюдаемые темные данные с реально наблюдаемыми, чтобы получить новое распределение мнений о вероятном среднем росте. (Ладно, так и быть, скажу: Национальная статистическая служба Великобритании сообщает, что средний рост британских мужчин 1,75 м.)

Вот другой пример. Ученые пытались определить скорость света еще в XVII в.: в 1638 г. Галилей установил, что она по меньшей мере в 10 раз превышает скорость звука; в 1728 г. Джеймс Брэдли назвал значение 301 000 км/с, а в 1862 г. Леон Фуко скорректировал его до 299 796 км/с. Мы можем суммировать эти и другие оценки, чтобы получить распределение мнений относительно возможных значений. Подробные результаты экспериментов могут быть утеряны – стать темными данными, но распределение мнений будет содержать соответствующую информацию. В конце XIX в. канадский астроном и математик Саймон Ньюком (тот самый, с которым мы уже встречались, говоря о распределении Бенфорда) провел дальнейшие эксперименты. В 1891 г. он опубликовал свои измерения, сделанные между 24 июля 1882 г. и 5 сентября 1882 г., в альманахе Astronomical Papers, издаваемом Американским офисом Морского альманаха [159]. Подробные измерения Ньюкома стали доступны для объединения с темными данными, скрытыми в распределении мнений на основе более ранних экспериментов, что улучшило это распределение. К слову сказать, на сегодняшний день наиболее точная оценка скорости света, которую мы имеем, составляет 299 792,458 км/с в вакууме.

Байесовская статистика играет чрезвычайно важную роль – это одна из двух (или по другой версии трех) основных школ статистического анализа.

Частная жизнь и защита конфиденциальности

До этого момента мы старались взглянуть на существующие статистические процедуры и принципы работы с наблюдаемыми данными с точки зрения темных данных. Такая смена перспективы нередко приводит к новому пониманию. Но есть и другие способы использования темных данных. На самом деле, как мы сейчас увидим, сокрытие данных является центральным элементом эффективного функционирования современного общества: многие из наших обычных повседневных действий были бы просто невозможны без сокрытия данных.

В главах 6 и 7 мы говорили о том, как мошенники скрывают информацию. Их цель – создать искаженное впечатление о происходящем: заставить вас поверить, что вам будет выгодна транзакция, тогда как на самом деле вы на ней потеряете, или скрыть правду о результатах эксперимента. Шпионы делают то же самое. Их настоящая цель, личность и, конечно же, реальное поведение скрыты от государств и корпораций. Шпионы не хотят, чтобы противник узнал об их замыслах, поэтому они стараются скрыть свою деятельность. В то же время шпионы пытаются добыть и передать своему руководству данные, которые противная сторона пытается сохранить в секрете. Но у всего есть обратная сторона и более высокий уровень осмысления, а уж тем более у шпионажа. Так, утечка определенных данных может быть выгодна государству, чтобы противник узнал ответы на свои вопросы и успокоился. В этот момент на сцене появляются двойные и тройные агенты, и наступает полная неразбериха, что от кого скрыто. Все моментально становится очень сложным!

Но мошенники и шпионы не единственные, кто все время что-нибудь да скрывает. Подумайте: возможно, вы сами не заинтересованы в том, чтобы ваша медицинская или финансовая история стала достоянием общественности. Вас может смутить, если некоторые аспекты вашей жизни станут общеизвестными. В этом суть частной жизни, и статья 12 Всеобщей декларации прав человека не зря начинается следующими словами: «Никто не может подвергаться произвольному вмешательству в его личную и семейную жизнь…»

Есть разные определения частной жизни. Это и право на уединение, и право на защиту от вмешательства государства, и возможность избирательно раскрывать себя миру. Все эти определения прекрасны, но они носят слишком общий характер, ведь конфиденциальность и сокрытие данных – вещи вполне конкретные. Вы используете секретные пароли для защиты своего банковского счета, учетных записей в социальных сетях, доступа к телефону, ноутбуку и т. д. Это означает как минимум две вещи: во-первых, ваши данные защищены от тех, от кого вы сами хотите их защитить, и, во-вторых, крайне важно уметь создать хороший пароль.

Вы не поверите, но даже сейчас многие используют в качестве паролей по умолчанию такие последовательности, как password, 123456 и admin. (Самое время вспомнить анекдот с бородой про человека, который изменил все свои пароли на «неверный», чтобы система, когда он забудет их, сама подсказала: «Пароль неверный».) Это часто предустановленные на устройствах пароли, которые, по сути, являются тестовыми и должны прекращать свое существование после продажи носителя. Хакеры обычно начинают с просмотра именно этих паролей по умолчанию. Более общая базовая стратегия взлома паролей состоит в том, чтобы просто попробовать миллиарды различных комбинаций символов, что при наличии мощного компьютера может быть выполнено со скоростью полмиллиона комбинаций в секунду (здесь становится понятным, что прогон миллиона симуляций подбрасывания монеты занял у меня считаные секунды). Если у хакера есть хоть какая-то информация о вашем пароле (например, что он состоит только из цифр), то это значительно ускоряет поиск. Вот почему рекомендуется использовать в пароле буквы в обоих регистрах, а также цифры и специальные символы. Это значительно увеличивает словарь символов и создает намного больше возможных вариантов, которые хакер должен испробовать. 10 возможных цифр и пароль длиной восемь символов создают 108 вариантов, или 100 млн возможных паролей. Тестирование их со скоростью полмиллиона в секунду означает, что пароль может быть взломан максимум за 200 секунд, или три с небольшим минуты. В то же время, используя 10 цифр, 26 букв английского алфавита в обоих регистрах, а также, скажем, 12 специальных символов, вы увеличиваете число возможных паролей длиной восемь символов до 748, что составляет около 9 × 1014. При скорости полмиллиона комбинаций в секунду на их прохождение потребуется около 28,5 млн лет. Можно спокойно вздохнуть!

Вход
Поиск по сайту
Ищем:
Календарь
Навигация