Книга Аналитическая культура. От сбора данных до бизнес-результатов, страница 85. Автор книги Карл Андерсон

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Аналитическая культура. От сбора данных до бизнес-результатов»

Cтраница 85
Визуализация данных

Few S. Now You See It (Oakland: Analytics Press, 2009).

Few S. Show Me the Numbers: Designing Tables and Graphs to Enlighten (Oakland: Analytics Press, 2012).

Tufte E. R. Envisioning Information (Cheshire, CT: Graphics Press, 1990).

Tufte E. R. Visual Explanations (Cheshire, CT: Graphics Press, 1997).

Tufte E. R. The Visual Display of Quantitative Information (Cheshire, CT: Graphics Press, 2001).

Wong D. M. The Wall Street Journal Guide To Information Graphics (New York: W. W. Norton & Company, 2010).

A/B-тестирование

Siroker D. and Koomen P. A/B Testing (Hoboken: John Wiley & Sons, 2013).

Приложение А. О необоснованной эффективности данных: почему больше данных лучше?

* * *
Аналитическая культура. От сбора данных до бизнес-результатов

Данное приложение воспроизводится (с небольшими изменениями и исправлениями) на основе публикации в авторском блоге [275] . Заголовок публикации сохранен.


В научной работе The Unreasonable Effectiveness of Data («Необоснованная эффективность данных») [276] авторы, все сотрудники компании Google, утверждают, что происходит интересная вещь, когда массивы данных попадают в вычислительную инфраструктуру (web scale [277]):

Простые модели на основе большого объема данных значительно выигрывают у более сложных моделей на основе меньшего объема данных.

В этой научной работе и более подробной лекции, прочитанной Норвигом [278], авторы демонстрируют: когда размер обучающей выборки доходит до сотен миллионов или триллионов примеров, очень простые модели способны быть эффективнее более сложных, основанных на тщательно разработанных онтологиях, но на меньшем объеме данных. К сожалению, авторы практически не предоставляют объяснений, почему больше данных лучше. В этом приложении я хочу попытаться найти ответ на этот вопрос.

Мое предположение состоит в том, что существует несколько типов проблем и причин, почему больше данных лучше.

Проблемы типа «ближайший сосед»

Первый тип проблем можно условно назвать «ближайший сосед». Халеви и др. приводят пример:

Джеймс Хейс и Алексей Эфрос занялись задачей дополнения сцены: они решили удалить фрагмент изображения (портящий вид автомобиль или бывшего супруга) и заменить фон путем добавления пикселей, взятых из большого набора других фотографий [279].

Аналитическая культура. От сбора данных до бизнес-результатов

Рисунок 1 Хейса и Эфроса


Норвиг изобразил следующую зависимость:


Аналитическая культура. От сбора данных до бизнес-результатов

и описал ее как «порог данных», при котором результаты из очень плохих стали очень хорошими.

Я не уверен, что существует какая-то пороговая величина или что-то напоминающее фазовый переход. Скорее, мне кажется, суть проблемы заключается в поиске ближайшего соответствия. Чем больше данных, тем ближе может быть соответствие.

Хейс и Эфрос отмечают:

Результаты наших первых экспериментов с GIST-дескриптором по базе данных из 10 тыс. изображений крайне нас разочаровали. Тем не менее при увеличении размера набора данных до 2 млн единиц произошел качественный скачок… Независимо от нас Торралба и др. [2007] наблюдали похожий эффект с базой данных размером до 70 млн небольших (32×32) изображений… Для успеха нашего метода требуется большой объем данных. Мы наблюдали существенное улучшение, когда перешли от 10 тыс. к 2 млн изображений.

Размеры двух этих наборов данных различаются слишком сильно, а «качественный скачок» — это не то же самое, что порог (буквально фазовый переход).

Увеличение объема данных может значительно повлиять на показатели из-за простых эффектов. Например, рассмотрим выборку размера n в стандартном нормальном распределении. Как изменяется в зависимости от значения n минимальное значение этой выборки? Создадим выборки разных размеров и вычислим минимальное значение с помощью следующего кода R:


x<-seq(1,7,0.5)

y<-vector(mode="numeric",length=length(x))

for (i in 1:length(x)){ y[i] <- min(rnorm(10^(x[i]))) }

plot(x,y,xlab="Sample size, n (log10 scale)",

ylab="Minimum value of sample",type="b")


Аналитическая культура. От сбора данных до бизнес-результатов

Минимум уменьшается лог-линейно. Это случай экстремума с позиции неограниченного хвоста. Возможно, более подходящей здесь для проблемы минимизации, такой как подбор соответствия, будет нижняя граница — идеальное соответствие для всех целей. Например, возможно, кто-то еще, стоя на том же самом месте, сделал фотографию того же самого вида, но без предмета, портящего фотографию.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация