Для качественного прогноза в распоряжение машины должны быть предоставлены обучающие данные по достаточному количеству людей (или единиц анализа). Количество зависит от двух факторов: первый – стабильность «сигнала» по отношению к «шуму», второй – насколько точным должен быть прогноз, чтобы он имел смысл. Иными словами, требуемое количество людей зависит от того, считаем мы ЧСС сильным или слабым прогностическим критерием нарушений сердечного ритма, и того, насколько дорого обойдется ошибка. Если ЧСС считается сильным прогностическим критерием, а ошибки не принесут проблем, то достаточно нескольких человек. Если же это слабый критерий или любая ошибка может стоить жизни, то необходимы тысячи людей, а лучше миллионы. В предварительном исследовании Cardiogram, как мы уже говорили, использовалась выборка из шести тысяч человек, в том числе двухсот с нарушениями сердечного ритма. Впоследствии сбор дополнительной информации осуществлялся посредством обратной связи о том, диагностировано ли у пользователей нарушение сердечного ритма.
Почему именно шесть тысяч? Специалисты по обработке и анализу данных пользуются отличным инструментарием для получения необходимого объема информации с учетом желаемой надежности и степени точности прогноза. Эти инструменты называют «расчетом мощности» – они сообщают, сколько единиц требуется для проведения анализа, с тем чтобы прогноз имел смысл
[36]. Очевидно, придется искать компромисс: для более точного прогноза необходимо больше анализируемых показателей, а они могут дорого стоить.
Cardiogram требует постоянного сбора данных – посекундного, – и для этого используется Apple Watch: ритм сердечных сокращений варьируется в течение дня, а для точности измерений необходим многократный анализ того, насколько измеренный показатель типичен для конкретного человека. Алгоритмы Cardiogram используют устойчивый поток данных от устройства, которое человек постоянно носит на теле, в противовес результатам отдельных измерений при посещении врача.
Сбор данных потребовал существенных вложений. Пациенты постоянно носили устройства, что не всегда удобно в повседневных действиях (особенно тем, у кого нет Apple Watch). Поскольку речь шла о здоровье, было необходимо соблюдать конфиденциальность, и Cardiogram разрабатывалась с ее учетом, что повысило расходы и снизило способности машины совершенствоваться при помощи обратной связи. Она собирала данные для прогнозов посредством приложения, а все данные хранились на устройстве.
Далее мы обсудим разницу между статистическим и экономическим подходами к количеству требуемой информации. (Вопросы конфиденциальности мы рассмотрим вместе со стратегиями в части IV.)
Экономия на масштабе
Чем больше данных, тем лучше прогноз. Но сколько их нужно? Преимущества дополнительной информации (единиц анализа, типов переменных и частоты) могут увеличиваться или уменьшаться вместе с имеющимся объемом данных. Выражаясь экономическим языком, отдача от масштаба может быть возрастающей или убывающей. С чисто статистической точки зрения у данных убывающая отдача от масштаба. Мы получаем больше ценной информации из третьего наблюдения, чем из сотого, и больше из сотого, чем из миллионного. По мере добавления наблюдений к обучающей информации они все меньше и способствуют улучшению прогноза.
Каждое наблюдение приносит дополнительные данные для обоснования прогноза. Cardiogram учитывает промежутки между ударами сердца. Говоря «у данных убывающая отдача», мы подразумеваем, что первых ста ударов достаточно для того, чтобы убедиться, есть у человека нарушения сердечного ритма или нет. Каждый последующий удар менее важен для уточнения прогноза, чем предыдущие.
Для примера рассмотрим расчет времени выхода из дома, чтобы вовремя приехать в аэропорт. Если вы там ни разу не были, первая поездка даст много полезной информации. После второй и третьей вы определите среднее время в пути. В сотый же раз вы вряд ли узнаете что-то новое. Вот что означает убывающая отдача от масштаба данных: по мере поступления дополнительных показателей данных каждый следующий раз дает меньше информации (и отдачи), чем предыдущий.
С экономической точки зрения это неверно, однако не в плане улучшения прогноза с помощью дополнительных данных. Смысл в том, что данные повышают ценность, которую вы извлекаете из прогноза. Если прогноз и исход совпадают, то убывающая отдача от наблюдений статистически подразумевает убывающую отдачу в отношении интересующих вас итогов. Но иногда прогноз и исход различаются.
К примеру, у пользователей есть выбор: брать продукт вашего или какого-то другого производства. И ваш они выберут только в том случае, если он так же хорош или лучше, чем у конкурента. При условии постоянной доступности данных все продукты будут одинаково хороши. Например, большинство поисковых машин на одинаковые запросы выдает похожие результаты. И в Google, и в Bing на запрос «Джастин Бибер» вы получите одно и то же.
Ценность поисковой машины зависит от ее способности выдать лучший результат на необычные запросы. Попробуйте набрать в строке поиска Google или Bing слово «подрыв» (disruption). На момент, когда мы пишем эти строки, Google показал словарное определение и ссылки на упоминания подрывных инноваций профессора Гарвардской школы бизнеса Клея Кристенсена. В первых девяти результатах Bing содержались словарные определения. Результаты Google были лучше, потому что для предположения о том, что именно ищет пользователь с необычным запросом, требуются данные о таких пользователях. Большинство людей пользуется Google и для обычных, и для непростых запросов. Даже небольшие преимущества поисковой машины могут увеличить долю рынка и доход.
Итак, с технической позиции у данных убывающая отдача от масштаба – миллиардный поиск менее полезен для улучшения поисковой машины, чем первый, – но с точки зрения бизнеса данные обладают огромной ценностью, если у вас их больше и они лучше, чем у конкурента. Некоторые утверждают, что данные об уникальных факторах приносят несоразмерно большие преимущества на рынке
[37]. И увеличение объема данных приводит к такому же результату. Следовательно, с экономической точки зрения в обоих случаях для данных характерна прибывающая отдача от масштаба.
Выводы
• Прогностические машины используют три типа данных: