Книга Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных, страница 58. Автор книги Дэвид Хэнд

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Cтраница 58

Кстати, из этого могут извлечь урок будущие мошенники. (По вполне понятным причинам я сомневался, стоит ли обращать на это внимание, но решил, что будет честнее дать общую картину и в духе этой книги не скрывать информацию.) По определению, малоизвестные журналы попадают на глаза меньшему числу исследователей, и, поскольку вероятность обнаружения мошенничества тем меньше, чем меньше аудитория, шансов на обнаружение нечестных статей в малоизвестных журналах естественно меньше. Конечно, это может повысить число публикаций нечистых на руку исследователей, однако не окажет влияния на их индекс цитируемости, который показывает степень влияния ученого на научный процесс.

В главе 3 мы говорили о резком увеличении числа случаев диагностирования аутизма в Соединенных Штатах после 2000 г., что, по крайней мере частично, связано с повышением осведомленности населения об этом медицинском состоянии. Аналогичное явление может объяснить и увеличение числа отзывов научных работ: возможно, отчасти это связано с повышением осведомленности, а значит, бдительности редакторов, рецензентов и читателей. То же самое, вероятно, относится и к научному мошенничеству в целом, возросший уровень которого может быть обусловлен тем простым фактом, что люди стали более внимательны к таким вещам. В последнее время целый ряд громких дел в сфере научного мошенничества привлек внимание СМИ, и поэтому есть впечатление, что эта тема на слуху [143].

Источник и его достоверность: кто вам такое сказал?

За последние пару лет в новостях появился особый жанр – так называемые фейк-ньюс, которые представляют собой темные данные (DD-тип 14: фальшивые и синтетические данные). «Википедия» определяет фейк-ньюс как «тип желтой журналистики или пропаганды, который состоит из преднамеренной дезинформации или обмана». «Желтая журналистика» – термин, придуманный в конце XIX в. во время газетных войн между медиамагнатами Уильямом Рэндольфом Херстом и Джозефом Пулитцером, который означает публикацию преувеличенных и сенсационных историй. Своим названием этот термин обязан «желтому малышу» – комическому персонажу в желтой рубахе, который впервые появился в пулитцеровской газете New World. Херст ответил тем, что запустил такого же «желтого малыша» гулять по страницам своего издания New York Journal. Фейк-ньюс, как правило, оперируют словами, а не цифрами, но тем не менее они могут классифицироваться как темные данные – вы думаете, что знаете нечто, но это не так. И в той степени, в которой обман совершается умышленно, он является своего рода мошенничеством.

Проблема отделения зерен от плевел, то есть правды от лжи, стояла перед человечеством с незапамятных времен. И до сих пор у нее нет однозначного решения. Но в области данных существует одна весьма полезная стратегия – вы должны настаивать на том, чтобы вас информировали, откуда поступают данные, кто их собирал или кто сообщил о них. Как я написал в своей статье на эту тему, когда вы получаете данные со стороны, задайте простой вопрос: «Кто вам такое сказал?» [144] Всегда настаивайте на том, чтобы вам раскрывали происхождение данных. Если вы не получаете ответа на свой вопрос, делайте выводы о вероятной достоверности информации (кроме случаев, когда существует риск для источника информации). На практике это означает, что все газеты и сайты, все журналисты и политики должны указывать, откуда они получили свою информацию. Это позволит в любой момент проверить их слова – необязательно делать это, важна сама возможность. Хотя такая стратегия не решает всех проблем с достоверностью данных и не сможет помешать сознательному отбору информации в поддержку своей позиции, в ряде случаев она будет полезна.

Частичное решение проблем темных данных кроется в понятии «прозрачность» – по крайней мере решение таких проблем, которые возникают в результате мошенничества и обмана. Идея состоит в том, что скрыть реально происходящее намного сложнее, если информация о нем будет опубликована. Люди видят своими глазами, что происходит, и мошенничество становится затруднительным. Это свет, который разгоняет мрак, окутывающий темные данные. Западные демократии придают большое значение такой открытости на разных уровнях государственного управления – даже правительствам рекомендуется публиковать подробности своих сделок. Кодекс прозрачности местного самоуправления Великобритании гласит: «Прозрачность – это основа подотчетности на местном уровне и ключ к получению людьми инструментов и информации, необходимых для того, чтобы они могли играть более важную роль в обществе. Доступность данных также способна открыть новые рынки для местного бизнеса, волонтеров и общественных организаций, социальных предприятий по оказанию услуг и управлению государственными активами… Правительство считает, что все данные, находящиеся в распоряжении и под управлением местных властей, должны быть доступны для жителей, если они не требуют конфиденциальности» [145]. Далее в документе говорится: «Этот кодекс гарантирует, что местные жители отныне могут получать доступ к данным о том… как тратятся деньги местных бюджетов… как используются активы… как принимаются решения по вопросам, значимым для местного населения». Например, сведения о расходных статьях управы района Теймсайд в Большом Манчестере, превышающих £500, каждый квартал становятся общедоступными [146]. Эти сведения включают в себя данные о поставщиках, названия отделов, описания товаров или услуг, суммы, даты и пр.

Однако на уровне персональных данных тенденция развивается в обратном направлении – в сторону защиты конфиденциальности или, с точки зрения этой книги, к затемнению отдельных данных. В русле этой тенденции 25 мая 2018 г. вступил в силу Общий регламент ЕС по защите данных (GDPR), упомянутый в главе 2. Он налагает обязательства на организации, которые хранят и используют персональные данные, и дает людям более широкие права на свои данные и способы их использования. Персональные данные – это данные, относящиеся к живому человеку, по которым он может быть идентифицирован. GDPR требует, чтобы организации объясняли, с какой целью они собирают и используют данные, и делали это только с однозначного и свободного согласия (или предоставляя особые обоснования, такие как судебное требование или спасение чьей-то жизни). Люди имеют право доступа к своим данным и право требования их исправления, удаления или передачи другому оператору. Стоит также отметить, что такого рода юридические требования создают значительные бюрократические препоны для предприятий, которые обрабатывают большие объемы персональных данных.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация