AB test: что это, какие нюансы и чем его проводить?

AB test, полезная штука, которая просто должна быть по-умолчанию в интернет проектах. Как проводить и что для этого нужно?

Сегодня тестирование гипотез и проверка идей, обязательная программа. Под эту задачу отлично подходит AB test. Давайте разберём подробнее, что это вообще такое, в чём польза и какие есть инструменты.

AB test: что это и зачем

AB test или Split test — метод маркетингового исследования, суть которого заключается в том, что вы берёте и сравниваете несколько вариантов элемента продукта с одним определенным изменением. А после смотрите какой из вариантов показал себя лучше.

К примеру, у нас родилась идея, поменять цвет кнопки на некой странице. Мы думаем, что это изменение принесёт нам больше кликов. Запускаем оба варианта, половине наших пользователей показываем вариант A, а другой половине вариант B.

По прошествии какого-то времени (продолжительность определяется перед запуском теста) замеряем результат. Смотрим какой из вариантов лучше отработал и используем его в работе. Таким образом вы можете проверять практически любые гипотезы и смотреть, что лучше работает, а что нет.

Что можно анализировать с помощью AB test?

Конверсии. Кол-во успешных целевых действий на вашем сайте. Это может быть нажатие на кнопку “Купить”, посещение какой-то страницы или что-то ещё.
Экономика. Средний чек или объём выручки.
Поведенческие факторы. Глубина просмотра, длительность сеанса.

Нюансы и тонкости

Очень важно при тестировании менять только один фактор. Если это цвет кнопки на лендинге, то мы тестируем только разные цвета кнопок и не меняем больше ничего на страницах.
Также и с внешними факторами. Тест запускается в одно и то же время при одних и тех же условиях. В противном случае вы можете получить данные, которые будут необъективными.

–

Простите, что прерываю чтение. Присоединяйтесь к моему telegram канал. Свежие анонсы статей, развитие digital продуктов и growth hack, там все. Жду вас! Продолжаем…

–

Важно про данные

Всё было бы очень просто, если бы не одно “Но”. Можно провести AB test, получить результаты, где откровенно видно, что один из вариантов сильно лучше другого.

Например, мы показали 2 варианта страниц с разным цветом кнопок по 1000 раз каждый. Проводили тест одну неделю. И получили следующие результаты:

При одинаковых показах баннера (это важно), кол-во кликов у варианта B больше в три раза. Делаем вывод, что этот вариант более эффективный и берём его в рабочую версию, а старый удаляем.

А если, к примеру, так?

Стоит ли брать вариант B? Или может быть это просто погрешность? Да и достаточно ли показать 1000 раз каждый из вариантов, чтобы принять решение? Может к нам на сайт в день заходит 10 000 пользователей и выборка очень мала, чтобы сделать вывод? А если, данные которые мы анализируем, не просто кол-во кликов, а средний чек с транзакций?

Статистика нам в помощь

Чтобы понять, как устроен мир цифр и экспериментов, давайте немного разберём мат.часть. Если нет времени и сил, то советую пропустить этот раздел. Дальше, я дам более простые решения задачи.

Большой соблазн, когда получили результаты эксперимента, принять решение и всё, вот оно, “светлое будущее”. Но, ведь, если копнуть немножечко глубже, то за неделю распределение кликов по дням было неравномерным. Давайте распишем.

В таблице видно, что клики по дням распределены по-разному. А значит, наши значения варианта A и варианта B могут меняться каждый день. То есть, мы имеем дело со случайными величинами. Для таких случаев применяют средние значения. Но ведь, если мы проведем эксперимент ещё раз, то какова вероятность, что результат повториться?

Изобразим на графике распределение всех данных за неделю по варианту A и B.

Если мы возьмём средние величины по каждому из вариантов (это вертикальные полоски посередине двух волн), то увидим, что разница совсем невелика. Но существуют определенные отклонения, в большую и меньшую сторону от среднего. Поэтому, мы получаем пересечение двух волн. Чем оно больше, тем меньше значимость эксперимента и, соответственно, чем меньше пересечение, тем выше статистическая значимость.

Статистическая значимость, это то, насколько верны полученные результаты. То есть в нашем примере, ответ на вопрос “нужно ли брать вариант B?”.

Обычно, по-умолчанию принимают уровень значимости равный 95%. Это означает, что мы с 95% вероятностью хотим знать, стоит ли выбирать другой вариант (B) при сравнении. Оставшиеся 5%, это вероятность ошибки, которую мы допускаем или p-value в терминологии статистики.

Интересно, что многие забывают проверять уровень значимости в своих экспериментах и тем самым могут получать ошибочные данные. 8 из 10 AB тестов проходят мимо этой оценки. (источник)

Не буду вдаваться долго в подробности, как рассчитывается показатель значимости, просто дам инструмент, который посчитает все за вас.

Инструменты для расчета значимости

Для оценки значимости данных советую использовать этот инструмент.

Здесь у нас A и B соответственно наши варианты. А по цифрам:

Число посетителей/можно кол-во показов вставлять.
Кол-во конверсий. Нажали на кнопку, зарегистрировались. В общем выполнили целевое действие.
P-value. Вероятность ошибки, которую мы опускаем при заданных данных.
Ответ на вопрос существенны ли, полученные изменения в нашем эксперименте.

Пример: берём данные по показам и кликам из таблицы, которую показывал выше.

Забиваем их в сервис, нажимаем на кнопку “Calculate Significance” и…

Получаем ответ “No” или “Нет” (по-русски) в нижней строке, а чуть выше p-value 0,283. Что это означает? А то, что с вероятностью 28,3% (0,283*100), если мы выберем вариант “B”, то он не принесёт никаких существенных результатов.

Чтобы эксперимент считался успешным, p-value должен быть меньше 5%

Есть ещё один сервис, в который также вбиваете данные и смотрите результат, доступен по ссылке.

На этом строится базовый принцип измерения случайных величин. Просто в тот момент, когда получите результаты AB test, прогоните их через инструмент и посмотрите, а на столько лишь значимо улучшение от другого варианта, чтобы брать его в работу?

Как понять сколько нужно данных?

Бывает так, что для получения выводов недостаточно полученных данных.Для того, чтобы понять, сколько раз нужно показать страницу A и B, а затем получить нужное кол-во данных, используйте этот инструмент.

Очень важно, повторюсь, запускать эксперимент при одних и тех же условиях. В идеале мы берём неделю, на которой нет ни праздников, ничего остального и параллельно тестируем варианты. Вернёмся к сервису.

Благодаря этому сервису вы поймете размер выборки для каждого из вариантов.

Подробнее по пунктам:

Существующий уровень конверсии. Или, например, сколько процентов из всех пользователей сейчас нажимают кнопку.
Минимально значимое изменение, которое нас интересует. На сколько мы хотели бы изменить базовый показатель конверсии.
Значимое отклонение, которое мы ввели на предыдущем шаге показывает, что конверсия может увеличится, так и уменьшиться.
Вы выбираете значение: absolute (абсолютный) или relative (относительный). Выбирайте то значение, которое хотите получить. Если у вас baseline уровень конверсий равен 30% (как в примере с картинки) и вы хотите повысить его на 5% с помощью ab тестов, то выбирайте “relative”. То есть, финальный результат изменения в случае успешности эксперимента будет 5% от 30%, то есть 31,5%.
Размер выборки для каждого варианта. Сколько мы должны раз показать страницу отдельно A и страницу B, чтобы сделать выводы по эксперименту. Очень важно! Чтобы сделать выводы по эксперименту, мы показываем 24 409 раз A и 24 409 раз B!
Статистическая значимость. На сколько точный эксперимент мы хотим провести.
Погрешность p-value. Какую вероятность ошибки допускаем.

Можно ли останавливать эксперимент раньше?

Можно. Существует вариант, когда мы можем не дожидаться окончания эксперимента, а на определенном этапе уже сделать выводы. Для этого используйте уже известный инструмент, вкладка “Sequental Sampling“.

По шагам:

Вбиваете свой уровень конверсии сейчас. К примеру 30%, именно столько из 100% заходящих к нам на страницу нажимает кнопку.
Набираете, на сколько вы хотели бы повысить ранее введенный показатель. Поставил на 10%. Было 30, хочу до 33 поднять.
Кол-во конверсий одного из экспериментов, после которого останавливаем эксперимент и принимаем решение.
Разница в конверсиях между вариантом A и B, после которой останавливаем эксперимент и берем, тот, что больше набрал.
Выставляем уровень значимости 95% (как положено, см.выше материал).
Устанавливаем погрешность p-value (опять же, см.выше материал).

Здесь нет никакой хитрости, просто статистика. Используйте этот инструмент, когда эксперименты занимают много ресурсов (время на разработку, бюджеты на рекламу для проверки гипотез и т.д.). Теперь у вас есть два правила, при которых вы можете останавливать эксперимент и делать выводы.

Чем проводить AB test?

Готовые решения:

Optimizely, vwo.com, zarget.com
http://alternativeto.net/software/optimizely
Google Analytics (ссылка как проводить)

Собственное решение:

Пишем админку.
Пишем и настраиваем каждый эксперимент.

Всё

Теперь у вас есть общее представление, что такое AB test, какие существуют нюансы и какими инструментами его проводить. В заключение добавлю что данное исследование гипотез является одним из самых полезных в развитии digital проекта. Разве не прекрасно, что можно проверить практически любую идею? Главное правильно, теперь вы знаете как.

Алексей А.

AB test: как его проводить и что для этого нужно

AB test: что это и зачем

Что можно анализировать с помощью AB test?

Нюансы и тонкости

Важно про данные

Статистика нам в помощь

Инструменты для расчета значимости

Как понять сколько нужно данных?

Можно ли останавливать эксперимент раньше?

Чем проводить AB test?

Всё

Алексей Арефьев

Добавить комментарий Отменить ответ

Последние записи

Контакты