Доверительные интервалы
Рассчитанный по результатам теста прирост, скажем, на 10 % не означает, что вы получаете именно такое точное значение. Существует определенный диапазон, внутри которого это значение может колебаться на уровне статистической значимости, равном 95 %; оно может быть выше или ниже этих 10 %. Этот диапазон возможных значений известен под названием «доверительный интервал». Чем дольше вы проводите тест, тем меньше становится этот интервал. На рис. 9.4 видно, что в результате теста мы получили значение RPV, равное £1,35. Оно окружено значениями от £1,27 до £1,43, представляющими собой верхнюю и нижнюю границы доверительного интервала в данный момент времени.
Регрессия к среднему значению
Ниже приведен типичный отчет для эксперимента из Optimizely, одной из ведущих платформ для сплит-тестирования. На графике приведены значения RPV для контрольной страницы и вашей вариации, содержащей изменения. Верхняя линия – это вариация, а нижняя – контрольное значение.
В этом примере начальные данные показывают, что вариация может быть успешной. Однако после двух недель она утрачивает свой прежний блеск. Но даже в этих случаях у многих исследователей остается искушение верить в выигрыш. Вполне возможно, что некий эффект могла оказать какая-то внешняя переменная. Однако более правдоподобное объяснение состоит в том, что между вариацией и контрольной страницей никогда не было реального различия, а то, что мы наблюдали поначалу, представляло собой отклонения, которые со временем нормализовались (точно так же, как при многократном броске монетки). Такое состояние называется «регрессия к среднему значению».
Сколько времени должен продолжаться сплит-тест?
Для каждого проводимого вами теста должен быть определен минимальный размер выборки. Это сложный вопрос, который невозможно свести к простым эмпирическим правилам, типа популярного предложения об отслеживании 100–400 конверсий для каждой вариации.
Во многом это зависит от количества переменных и статистических моделей, используемых платформой для тестирования. На сайтах большинства поставщиков программных инструментов имеются калькуляторы, помогающие рассчитать продолжительность теста и/или размера выборки. Перед тем как вы приступите к запуску любого теста, воспользуйтесь ими и определите размер выборки, лучше всего подходящий для ваших целей.
Наше агентство обычно настаивает на том, чтобы тест проводился не менее 14 дней. Поведение покупателей может серьезно меняться в зависимости от дня недели, поэтому мы хотим вести наблюдения в течение как минимум двух полных недель с выходными.
Цикл покупки
Более длинные циклы покупки могут означать, что определенные тесты должны проводиться в течение более долгого времени. Клиенты не всегда принимают решения моментально, особенно относительно дорогостоящих товаров. Посетитель может начать участие в тесте в «день 1», но не купить продукт до «дня 20». Понятно, что показатели конверсии будут рассчитываться только в этот момент. И если бы тест завершился позднее, чем через 14 дней, то вы бы не приняли эту конверсию во внимание.
По большому счету это не самый важный вопрос, поскольку эффект будет в равной мере проявляться и у контрольной группы, и у группы с вариацией. Однако, если значительная часть сделок не попадает в 14-дневное окно, вам следует принять это во внимание и увеличить продолжительность теста. Лучше разобраться с этим вопросом вам поможет отчет Time to Purchase в GA.
Сплит-тестирование на сайтах с низкой посещаемостью
С учетом важности размера выборки при проведении сплит-тестов вам может показаться, что пользу от оптимизации могут получить только крупные сайты. Однако вы все же можете кое-что сделать, даже если трафик на вашем сайте невелик. Вот лишь несколько идей.
Отслеживайте микроконверсию
В этой книге мы постоянно подчеркиваем важность использования в качестве основной цели показателя дохода на посетителя (RPV). Однако, если ваши продажи невелики, тест может занять несколько месяцев, особенно если разброс стоимости товаров в каждой корзине слишком велик.
Возможно (если это применимо в вашем случае), лучшим показателем может служить коэффициент конверсии, хотя, если ваш сайт приносит всего несколько заказов в неделю, это тоже может потребовать некоторого времени. Другой вариант – отслеживать микроконверсию, например количество переходов к следующей странице или нажатий на кнопку «Добавить в корзину». Здравый смысл подсказывает: чем выше уровень микроконверсии, тем выше будет значение общего коэффициента конверсии. Но будьте внимательны – такая корреляция возникает не всегда.
Концентрируйтесь на влиянии
Чем выше эффект влияния теста, тем меньше необходимый вам размер выборки. Соответственно, сайтам с низким объемом трафика стоит нацеливаться на рост влияния каждого теста. Как мы уже сказали выше, заметный эффект приносит скорее радикальное тестирование, нежели небольшие изменения. Какими бы ни были результаты – положительными или отрицательными, это все равно позволяет вам быстрее двигаться вперед.
Используйте калькулятор продолжительности теста для расчета прироста, на который вам нужно нацелиться, чтобы получить статистически достоверные результаты в разумные сроки. Делайте это с помощью различных значений минимально обнаруживаемого эффекта (MDE) – так вы лучше поймете, насколько решительным следует быть в процессе реализации проекта.
Исключите резко отклоняющиеся значения
Для того чтобы прийти к осмысленному заключению, связанному с вашими целями в отношении дохода, вам требуется намного больше данных, чем в случае коэффициента конверсии. Все дело в том, что конверсия довольно прямолинейна, она либо происходит, либо нет, а величина дохода может колебаться практически до бесконечности. Для одной корзины значение может составлять £10, а для следующей оно будет равным £1000. Если в ваших данных велика степень вариабельности, то для успешного завершения теста вам потребуется намного больше времени. Нам доводилось сталкиваться с примерами, когда единственная покупка на крупную сумму путала все карты. Вы можете преодолеть эту проблему, экспортируя данные из сплит-теста и вручную удаляя резко отклоняющиеся значения. Подобные действия вполне под силу грамотному аналитику. Если в вашей команде нет такого специалиста, подумайте о том, чтобы нанять для проведения расчетов стороннего статистика или аналитика через сайты Upwork или PeoplePerHour. Если все данные уже у вас на руках, такая работа не займет больше часа.
Снижайте порог статистической значимости
Некоторые инструменты позволяют вам задавать более низкий уровень статистической значимости. По сути, это решение относительно уровня риска, который вы готовы взять на себя. Но наличие доверительного уровня 80 %, а не 95 % все равно лучше раздумий о том, стоит ли тестировать альтернативные решения.