Онлайн книга
Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
Оглавление книги
- Предисловие
- Часть I Темные данные Происхождение и последствия
- Глава 1 Темные данные Незримая сила, которая формирует наш мир
- Призрак данных
- Так вы думаете, у вас есть все данные?
- Не было ничего необычного, поэтому мы не придали этому значения
- Сила темных данных
- Всюду вокруг нас
- Глава 2 Обнаружение темных данных Что мы собираем, а что нет
- Темные данные со всех сторон
- Извлечение, отбор и самоотбор данных
- От нескольких ко многим
- Экспериментальные данные
- Остерегайтесь человеческих слабостей
- Глава 3 Определения и темные данные Что именно вы хотите узнать?
- Ошибки в определениях и измерениях
- Невозможно измерить все
- Скрининг
- Выбор на основе прошлого
- Глава 4 Непреднамеренные темные данные Видим одно, регистрируем другое
- Общая картина
- Обобщение
- Человеческий фактор
- Недостатки приборов
- Объединение наборов данных
- Глава 5 Стратегические темные данные Уловки, обратная связь и информационная асимметрия
- Уловки
- Обратная связь
- Информационная асимметрия
- Неблагоприятный отбор и алгоритмы
- Глава 6 Умышленно затемненные данные Мошенничество и обман
- Мошенничество
- Кража идентификационных данных и интернет-мошенничество
- Мошенничество с личными финансами
- Мошенничество на финансовых рынках и инсайдерская торговля
- Страховое мошенничество
- И прочее
- Глава 7 Наука и темные данные Природа познания
- Сущность науки
- Если бы я знал заранее…
- Натыкаясь на темные данные
- Темные данные и общая картина
- Сокрытие фактов
- Отзыв публикаций
- Источник и его достоверность: кто вам такое сказал?
- Часть II Освещение и использование темных данных
- Глава 8 Принцип работы с темными данными Проливаем свет
- Надежда!
- Связываем наблюдаемые и недостающие данные
- Определение механизма появления недостающих данных
- Работа с имеющимися данными
- Выход за пределы данных: что, если ты умрешь первым?
- Выход за пределы данных: вменение
- Неправильное число!
- Глава 9 Полезные темные данные Переосмысление вопроса
- Сокрытие данных
- Сокрытие данных от самих себя: рандомизированные контролируемые исследования
- Что могло бы быть
- Репликация данных
- Мнимые данные: байесовское априорное распределение
- Частная жизнь и защита конфиденциальности
- Сбор данных в темноте
- Глава 10 Классификация темных данных Путь в лабиринте
- Систематика темных данных
- Подведение итогов