Примечания книги Наука о данных. Автор книги Джон Келлехер, Брендан Тирни

Онлайн книга

Книга Наука о данных
Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом. Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем. «Наука о данных» уже переведена на японский, корейский и китайский языки.

Примечания книги

1

Нильсон Н. Дж. Обучающиеся машины. — М.: Мир, 1967.

2

Цитата взята из приглашения на семинар «KDD — 1989». — Здесь и далее прим. авт.

3

Некоторые специалисты все же проводят границу между глубинным анализом данных и KDD, рассматривая первый как подраздел второго и определяя его как один из методов обнаружения знаний в базах данных.

4

https://www.cancer.gov/research/key-initiatives.

5

https://allofus.nih.gov/.

6

https://www.policedatainitiative.org/.

7

Льюис М. MoneyBall. — М.: Манн, Иванов и Фербер, 2013.

8

Дабнер С., Левитт С. Фрикономика. — М.: Альпина Паблишер, 2018.

9

https://deepmind.com/research/alphago/.

10

Хотя многие наборы данных можно описать как плоскую матрицу n × m, существуют сценарии, в которых набор данных представлен в более сложной форме: например, если набор данных описывает эволюцию нескольких атрибутов во времени, то каждый момент времени в наборе данных будет представлен двухмерной плоской матрицей n × m, перечисляющей состояние атрибутов в данный момент времени, но общий набор данных будет трехмерным, где время используется для связывания двумерных срезов момента. В таком контексте термин «тензор» иногда используется для придания идее матрицы дополнительного измерения.

11

Скрапинг (англ. scraping) — в широком смысле сбор данных с интернет-ресурсов. — Прим. пер.

12

Интерпретация высказывания Джорджа Бокса: «По сути, все модели ошибочны, но некоторые бывают полезны».

13

Для числового целевого атрибута наиболее распространенным показателем центральной тенденции является среднее значение, а для номинальных или порядковых данных — диапазон (или наиболее часто встречающееся значение).

14

Здесь мы используем более сложную запись, включающую и, поскольку далее мы будем расширять эту функцию и включать в нее более одного входного атрибута, а для этого понадобятся индексированные переменные.

15

Предостережение: приведенные здесь числовые значения следует воспринимать только как иллюстрацию, а не как окончательные оценки взаимосвязи между ИМТ и вероятностью развития диабета.

16

Обычно нейронные сети работают лучше, когда все входные данные имеют небольшие значения. Если заданы широкие диапазоны входных атрибутов, то атрибуты с большими значениями имеют тенденцию доминировать при обработке сетью. Чтобы этого не происходило, лучше всего нормализовать входные атрибуты под одинаковые диапазоны.

17

МПК — наибольшее количество кислорода, выраженное в миллилитрах, которое человек способен потреблять в течение одной минуты.

18

Для простоты мы не стали обозначать вес связей на рис. 14.

19

Не существует единого мнения относительно минимального количества скрытых слоев, необходимых для того, чтобы сеть считалась глубокой. Некоторые полагают, что для этого достаточно даже двух слоев. Однако большинство глубоких сетей имеют десятки слоев, а некоторые — сотни и даже тысячи.

20

Доступное введение в РНС, а также об их использовании при обработке естественного языка см.{2} по адресу: https://tinyurl.com/RecurrentNeuralNetworks.

21

Технически это известно как проблема исчезающего градиента, поскольку градиент стремится к нулю при реализации алгоритма обратного распространения.

22

Существует два особых случая, которые также завершают алгоритм: ветвь сворачивается в отсутствие объектов после разделения набора данных или все входные атрибуты уже были использованы в узлах между корнем и ветвью. В обоих случаях добавляется завершающий узел, который помечается доминирующим значением целевого атрибута в родительском узле ветви.

23

Для ознакомления с энтропией и ее использованием в алгоритмах дерева решений см.{4} по адресу: http://www.machinelearningbook.com.

24

Подробное тематическое исследование на тему оттока клиентов (Kelleher, Mac Namee, D’Arcy 2015) можно найти по адресу: http://www.machinelearningbook.com.

25

При проведении сетевого маркетинга рекламная кампания распространяется на широкий спектр веб-сайтов без узкого таргетинга на пользователей.

26

В поведенческом таргетинге используются данные об онлайн-активности пользователей — посещении страниц, кликах, времени, проведенном на сайте, и т. д. — и прогнозное моделирование для выбора рекламных объявлений, показываемых пользователю.

27

Директива ЕС о конфиденциальности и электронных коммуникациях [2002/58/EC].

28

Некоторые женщины, впрочем, открыто сообщают ритейлерам, что они беременны, регистрируясь в программах лояльности для будущих мам.

29

http://www.predpol.com/.

30

Паноптикум — проект, разработанный в XVIII в. юристом Джереми Бентамом для тюрем и психиатрических больниц. Отличительная особенность паноптикума состоит в том, что персонал может постоянно вести наблюдение без ведома заключенных. Основная идея этого проекта в том, чтобы заставить заключенных вести себя так, будто они находятся под постоянным наблюдением.

31

EMEA (European, the Middle East and Africa) — Европа, Средний Восток и Африка.

32

http://smartsantander.eu/.

33

http://www.tepco.co.jp/en/press/corp-com/release/2015/1254972_6844.html.

34

Роман Льва Толстого «Анна Каренина» начинается фразой: «Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему». Идея Толстого заключается в том, что для достижения счастья семья должна быть успешной по ряду критериев (любовь, финансы, здоровье, родственники), но неудача в любом из этих аспектов ведет к несчастью семьи. Таким образом, все счастливые семьи одинаковы, поскольку успешны по всем критериям, а несчастливые могут стать таковыми по разным причинам.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация