Давайте начнем с признания того, что есть случаи, когда выборочный метод просто не будет работать. Если вам нужно найти 100 клиентов, обеспечивающих самые большие объемы продаж, это нельзя сделать на основе выборки. Вы должны рассмотреть каждого клиента, чтобы найти 100 лучших. Однако такие задачи, хотя и являются довольно типичными, не превалируют среди аналитических потребностей. Кроме того, существуют случаи, когда модель, даже если она построена на основе выборки, должна быть применена ко всей совокупности данных. Другими словами, когда дело доходит до практического применения модели, вариант с выборками отпадает.
Но давайте обратимся к типичной задаче, когда необходимо установить среднее значение или получить оценки параметров прогностической модели. С точки зрения статистики правильная выборка, которая адекватно отражает всю совокупность и имеет достаточный размер, даст такой же ответ, как и вся совокупность данных. В таких обычных ситуациях практически не будет разницы между ответом, полученным на выборке, и ответом, полученным на всей совокупности. Более высокая стоимость обработки массы дополнительных данных не принесет дополнительных доходов. Даже если модель в конечном итоге будет использована для обработки всех данных, нет смысла создавать модель на основе всей совокупности. Вместо этого необходимо разделить все данные на две части и использовать одну для построения, а другую для последующей валидации модели. Угадайте, что представляют собой наборы данных, предназначенные для построения и проверки модели? Это выборки! Таким образом, использования выборок данных во многих случаях попросту нельзя избежать.
Некоторые специалисты с пеной у рта утверждают, что в тех случаях, когда можно обойтись без выборки, нужно обходиться без нее. Другие считают, что использование более чем минимальной выборки – это пустая трата времени и ресурсов. Лично моя позиция такова: если некто выполняет для меня проект и хочет использовать выборку, я соглашаюсь при условии, что выборка является правильной и достаточного размера. Если же мне предлагают использовать всю совокупность данных, я соглашаюсь и на это при условии, что привлечение дополнительных ресурсов окажется незначительным. Я уверен, что получу такие же результаты, поэтому меня не беспокоит, какой именно путь будет избран. При разработке аналитического процесса существует масса спорных вопросов, поэтому не тратьте время на споры о том, использовать выборку или нет.
Не переусложняйте анализ
Впервые столкнувшись с этой проблемой, я был поражен: оказывается, чересчур изощренная аналитика иногда дает худший результат, чем простая. Это может быть верно даже в тех случаях, когда чисто теоретически более сложный метод должен работать лучше. Убежден, причина в том, что данные всегда содержат некоторую неопределенность, зачастую являются разреженными и никогда не бывают абсолютно полными. Когда аналитика усложняется, возникает риск увеличения в данных ошибок и неопределенностей наряду со снижением контроля и ухудшением их расчета. Вдобавок можно перестараться с настройкой модели, т. е. настолько ее усложнить, что она начнет отражать случайные вариации, присутствующие в конкретном наборе данных, на котором модель создавалась, а не реально существующие эффекты. Переусложненная настройка становится очевидной, когда модель плохо работает при применении к проверочной выборке.
Несколько лет назад моя команда разрабатывала модели прогнозирования продаж на уровне отдельных магазинов для крупного ретейлера. Анализ должен был охватывать сотни миллионов комбинаций магазин/товар. Многие виды товаров продавались часто и стабильно, что соответствовало предположениям, на которые опираются широко используемые алгоритмы для такого типа прогнозов. Однако также было много товаров, что не вписывались в стандартные шаблоны продаж. Клиент нанял мою команду, чтобы разработать индивидуальные решения, применимые к таким исключениям. Однако, с учетом масштабов организации, исключения все равно составляли миллионы комбинаций магазин/товар.
Не слишком изощряйтесь!
При создании аналитических процессов в операционном масштабе упрощенные решения могут оказаться лучше причудливых. Операционная аналитика часто работает с данными низкого качества, которые могут быть разреженными и неполными. Чрезмерная изощренность модели может привести к нарастанию в данных проблем, вместо того чтобы контролировать их.
Мы с самого начала знали, что клиент нанял еще одну консалтинговую фирму для реализации того же проекта и что команда, предложившая лучшее решение, будет выбрана для дальнейшей работы. Поскольку другая фирма бросила на проект больше людей, чем наша, победить за счет грубой силы мы не могли. У меня был опыт сотрудничества с этой фирмой в прошлом, и я знал, что ее сотрудники любят использовать наборы сложных алгоритмов для повышения точности прогностических моделей. Однако в этом конкретном случае существовала вероятность того, что такой подход не сработает в требуемом масштабе. Я попросил свою команду начать с простых алгоритмов и постепенно увеличивать их сложность, пока не будет достигнут такой порог, когда начнет страдать их масштабируемость.
Когда проект только начался, я предположил, что другая команда превзойдет нас в абсолютной прогностической точности, однако для масштабирования разработанного ею решения потребуются настолько значительные усилия, что это будет признано нецелесообразным. В то же время наши пусть и менее точные модели должны были лучше работать на практике. Я был приятно удивлен, когда оказалось, что наши модели оказались и более точными. Учитывая неполную и разреженную природу данных, изощренные многоступенчатые алгоритмы усиливали помехи, вместо того чтобы их контролировать. Моя команда думала, что мы отказываемся частично от аналитической мощности ради операционной масштабируемости (об этой концепции уже несколько раз говорилось в книге). Однако в итоге вышло так, что в данном случае простой подход сработал лучше и нам не пришлось ничем жертвовать. Вот почему не следует думать, что всегда лучше делать выбор в пользу изощренности. Пробуйте и простые варианты.
Операционная аналитика должна обеспечивать решения
В свете нашего разговора об аналитике легко впасть в заблуждение и решить, что сотрудников среднего звена в организациях интересует аналитика. Она их не интересует! Большинство сотрудников интересует возможность решения тех проблем, которые у них есть. Если аналитика может предложить такое решение, они ее принимают, но сама по себе она им неинтересна. Запомните: их интересует не аналитика, а решение проблемы!
Разумеется, во многих случаях мои заказчики проектов в определенной степени интересуются аналитикой. Например, сотрудники, отвечающие за базу маркетинговых данных, охотно обсуждают со мной аналитические тонкости и решения. Руководители подобных отделов понимают и приветствуют аналитику и, кроме того, часто имеют подготовку в этой области. Что же касается операционной аналитики, то многих моих клиентов заботит только решение проблемы. Это может быть снижение уровня мошенничества, повышение эффективности в цепочке поставок или сокращение затрат на техническое обслуживание, но за пределами воздействия на проблему аналитика их не интересует. Более того, основными пользователями операционной аналитики обычно выступают рядовые сотрудники, которые не имеют необходимого образования для понимания аналитики. Но они должны иметь возможность использовать аналитику, даже если не разбираются в ее деталях.