Овал представляет собой область, в которой вы занимаетесь итерациями вокруг выявленной выигрышной темы. Следующие эксперименты будут посвящены итеративному тестированию различных атрибутов одной и той же темы, например расположению на странице или в воронке, сообщениям и вариантам графики. Не нужно ждать – вы можете сразу начать с небольшого по масштабам и постепенного тестирования. Идеальное время для этого – этап исследований и анализа, поскольку ваша цель заключается в ускоренном создании инсайтов. План оптимизации пока еще не завершен, поэтому вы не рискуете понапрасну занимать ценные слоты для тестирования.
Если вы предпочитаете постепенное тестирование, но замечаете, что многие ваши эксперименты не приводят к четким результатам или не оказывают заметного влияния, то очевидно, что пришло время более решительных действий.
Если дизайн или структура текущего шаблона слишком ограничены для изменений, которые вы хотите произвести, это также служит явным знаком того, что вам необходим более радикальный подход. Аналогично время решительных действий наступает, когда вы достигаете точки уменьшающейся отдачи после изначального постепенного прироста. Как только вы найдете новый работоспособный шаблон, вы можете продолжать его оптимизацию с постепенным тестированием. Такая ситуация называется достижением «локального максимума». Это означает, что с учетом проведенных вами тестов вы достигли максимума, однако если бы начали с другой стартовой точки, то достигли бы иного максимума с точки зрения потенциального улучшения. Иными словами, вы взобрались на небольшой холм (рис. 9.3), хотя совсем недалеко от вас находится более высокая гора.
Статистика для оптимизаторов
При интерпретации результатов сплит-тестов вы часто предполагаете, что выводы в отношении выборки в такой же степени относятся и ко всей вашей аудитории. Насколько можно быть уверенным в правильности подобных экстраполяций? Есть ли у вас гарантии, что вы увидите такой же прирост дохода после размещения новой веб-страницы на сайте? Некоторые статистики даже считают, что почти все выигрышные результаты сплит-теста на самом деле иллюзорны
[56].
Вы наверняка хотите избежать тех тестов, которые выглядят интересными, но в реальности не могут привести к серьезным изменениям. Ваши шансы на выбор подлинных победителей значительно вырастут, если вы поймете суть применимых в вашем случае статистических принципов. В этой книге мы не хотели бы вдаваться в детальные технические описания, однако все же решили объяснить простыми словами некоторые ключевые концепции. Даже базовое их знание поможет вам двигаться по верному пути.
Статистическая значимость
Этот показатель говорит нам о наличии или отсутствии реального и осмысленного различия между контрольной группой посетителей и группой, изучающей вашу вариацию. Чаще всего в ходе исследований мы стремимся к уровню статистической значимости, равному 95 %. На первый взгляд, солидное значение, а в реальности это означает, что в 5 % случаев наш результат окажется ошибочным. Иными словами, один из 20 тестов, которые мы считаем удачными, таковым не будет. Статистическая значимость часто используется для пущей уверенности в результатах, однако полагаться только на нее опасно. Чтобы убедиться, что результаты вашего теста стоит использовать для корректировок сайта, обратите внимание на другие факторы, описанные ниже.
Статистическая мощность
Программа Optimizely описывает статистическую мощность как «показатель того, имеет ли ваш тест достаточно подходящих данных для достижения последовательного результата»
[57]. Фактически все сводится к наличию достаточно большой выборки, позволяющей нам выявить тот или иной эффект (если он действительно существует).
С технической точки зрения можно повысить степень мощности теста различными способами. С практической – проще всего контролировать размер выборки. Иными словами, вы позволяете большему количеству посетителей принять участие в вашем тесте. Обычно это делается за счет увеличения продолжительности теста. Другой способ – попытаться добиться более значительного эффекта, связанного со множеством различий между группами. Более детальная информация об этом приведена в разделе ниже, посвященном минимально обнаруживаемому эффекту.
Тест с недостаточной мощностью может привести к тому, что вы не заметите победителя или ошибочно объявите победителем вариант, таковым не являющийся. В отрасли принято в качестве стандарта значение статистической мощности на уровне 0,80, и оно используется во многих областях исследований. Это значение предполагает, что у вас есть разумные шансы (80 %) на выявление эффекта, если он действительно существует.
Минимально обнаруживаемый эффект (Minimum Detectable Еffect, MDE)
Как следует из названия, это минимальное значение, которое вы хотите выявить с помощью инструмента. Если значение оказывается ниже порога MDE, вы об этом не узнаете. Почему иногда стоит упускать из внимания незначительные эффекты? Дело в том, что при уровне ниже MDE и при вашем размере выборки результат не будет иметь статистической значимости. Единственный способ увеличить размер выборки так, чтобы достичь статистической значимости, – это увеличить продолжительность теста. Чем ниже MDE, тем дольше должен проводиться тест. Поэтому MDE позволяет отсекать тесты, для получения результатов которых требуется слишком много времени (с учетом вашего уровня трафика). Вы можете лучше распорядиться своим временем и сохраните нужный импульс движения.
Каким образом определять MDE? Вы не можете предсказать исход теста, иначе вы бы вообще его не проводили. В данном случае важно задать уровень, который будет осмысленным
[58] и практичным
[59]. Ждать несколько месяцев, пока вы получите удачный результат, непрактично, поэтому вам стоит повысить значение MDE. Что такое осмысленный уровень? Достаточно ли 1 % прироста? Нет, если у вас небольшой бизнес. Но если ваш оборот составляет миллионы, то даже такое значение может быть важным. В наши дни многие платформы используют статистические движки, позволяющие исключить требование по заблаговременному определению размера выборки и MDE. Сверьтесь с документацией поставщика.