Книга Big Data простым языком, страница 22. Автор книги Алексей Благирев

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Big Data простым языком»

Cтраница 22

В 2012 году мэр Нью-Йорка Майкл Блумберг подписал специальный закон «Open Data Law», обязывающий городские власти раскрывать свои данные для пользования, открыв тем самым целую новую главу создания совместных сервисов с использованием данных. Закон установил порядок раскрытия и перечень информации, которую обязаны были предоставлять власти с максимальным сроком раскрытия не позднее 31 декабря 2018. Раскрытие данных происходило неравномерно, власти раскрывали свои данные постепенно, поэтому, чтобы получить интересующие данные, необходимо было заполнять специальную форму запроса (FOIL FORM) для того, чтобы департамент той или иной службы предоставил запрашиваемые данные. Существенная часть данных раскрывалась в PDF-файлах, затрудняя их обработку и анализ. Например, данные по ДТП публиковались только в PDF, составляя сотни и тысячи документов. Так продолжалось, пока один из разработчиков по имени Джон Краусс [80] [81] не придумал собственную программу для конвертации файлов PDF в CSV, чтобы их можно было уже загрузить в аналитические средства. Сообщества неоднократно в своих выступлениях делали акцент на трансформации используемого формата предоставления информации, пока администрация де Блазио [82] не пересмотрела интерфейсы предоставления данных.

Бен Веллингтон основал свой проект IQuantNY и стал использовать эти данные, чтобы повлиять на политику властей Нью-Йорка. Каждое выступление или пост в своем блоге он посвящал конкретным проблемам, призывая власти обратить внимание. В какой-то момент он добился определенного результата в этом направлении. Вот несколько наиболее ярких исследований и публикаций, которые он сделал.


• Ошибка городского бюджета на 791 миллион долларов – в 2016 году Администрация наконец опубликовала городской бюджет на 2017 год на портале Открытых данных. При детальном анализе Бен выявил ошибку в 791 миллион долларов по статье финансирования Департамента полиции Нью-Йорка в части защиты иностранных представительств. Официальный ответ городской администрации указал, что, действительно, это была ошибка в аллокации средств. Корректное значение аллокации средств на 2017 год составляло не более 25 миллионов долларов.


• Штрафы за оплаченные парковки – в Нью-Йорке парковать автомобиль можно было только на специально отведенных местах. В 2009 году Администрация внесла изменения в правила парковки и разрешила оставлять автомобили рядом с пожарными гидрантами, возле которых было свободное место. В своем исследовании Бен обнаружил серию регулярно выдаваемых на протяжении нескольких лет штрафов в местах, где стояли гидранты, но не было запрещающей стоянку разметки. Иными словами, огромное количество штрафов на сумму более 1,7 миллиона долларов было выписано нелегально, так как автомобиль находился в разрешенной зоне парковки. Таких зон было выявлено порядка 1966. Происходило это потому, что большая часть сотрудников полиции проигнорировала изменения законодательства в 2009 году. Администрация признала ошибку, допущенную патрульными службами, сформировав дополнительный фокус на переобучение патрульных служб. Вскоре была проведена корректировка разметки во всех выявленных местах.


• Самая грязная вода в Нью-Йорке – сведение статистики по самым грязным водоемам в городской черте. На портале открытых данных Нью-Йорка находился реестр с анализами данных по водоемам за несколько месяцев. Для проведения подробного анализа понадобился полный массив данных, который находился на отдельном сайте Департамента охраны окружающей среды. Данные были разбиты на много раздельных Excel-реестров с различными заголовками, которые нужно было свести вместе. Уровень загрязнений существенно превышал норму, в самых грязных районах превышение нормы было многократным. С вероятностью в 94 процента купание в водоеме могло привести человека к летальному исходу. Одним из таких мест оказалось Coney Island Creek. В результате, Бен опять привлек внимание Администрации и Департамента защиты окружающей среды. Он выписал ряд крупнейших штрафов по 400 тысяч долларов комплексу апартаментов, находящемуся в зоне загрязнения, большая часть из которых была направлена в Фонд защиты дикой природы. Тем не менее сообщество разделилось, требуя увеличить размер штрафов в десятки раз, доведя его до четырех миллионов долларов, аргументируя это тем, что уровень ущерба от загрязнения выше, чем размер штрафов.


Итак, каждая история – это большая проделанная работа по обработке, анализу, гармонизации и нормализации данных. В процессе выполнения сложной и рутинной работы всегда снижаются ожидания от аудитории, которая думает, что ничего важного не произойдет после демонстрации результатов. Но это не так.

Любые изменения происходят медленно, но они происходят, если есть для этого стимул. Выявить этот стимул и отразить в своей работе – ключевая задача Data Journalizm.

Глава 4
Регулирование данных

Р – регулирование.

Данные и капитализм.

Штука бесполезная и беспощадная во всех отношениях. Ценности в регулировании де-факто мало, оно лишь снижает скорость развития в цифровой экономике.

Нет однозначной истории, как же регулировать данные.

Во-первых, с юридической точки зрения надо определить, что такое данные. А с этим не только в нашей стране беда, но и в международном пространстве нет единства и понимания по таким вопросам.

В США, например, нет законов, прямо регулирующих Большие данные. Иными словами, ты можешь пострадать, только если косвенно затронешь чьи-то интересы, и они это докажут.

В самом начале я говорил, что есть две стратегии работы с данными:

1. Либо нападение – то есть используем те данные, которые есть, с целью побольше заработать.

2. Либо защита – сидим на данных, никому не даем и защищаемся от всячески возможных рисков и возникающих сложностей.

Итак, родина капитализма, конечно же, предпочла первый вариант. Что там делают с вашими данными – похоже на какофонию и безумную спонтанную оргию организаций, которых вместе никто не собирал и к сотрудничеству не приглашал.

Конечно, есть небольшие исключения, и это хорошо. Они как раз структурируют и задают общий тон того, что делать можно, а что – не очень.

Кстати, именно в США в 2010 году был известный скандал в магазинах Target [83], когда их точнейшие аналитические алгоритмы определили, что несовершеннолетняя школьница ждет ребенка. Конечно, первым прибежал ее отец и чуть не поубивал менеджеров Target за непристойный контент и предложения школьнице рожать.

А все началось с Эндрю Пола, который в 2002 году работал статистиком в Target. К нему подошли его коллеги и спросили его, «может ли он выяснить, беременный покупатель или нет, даже он не хочет, чтобы мы как магазин знали?».

Вход
Поиск по сайту
Ищем:
Календарь
Навигация