AB test: как его проводить и что для этого нужно

AB test

AB test, полезная штука, которая просто должна быть по-умолчанию в интернет проектах. Как проводить и что для этого нужно?

Сегодня тестирование гипотез и проверка идей, обязательная программа. Под эту задачу отлично подходит AB test. Давайте разберём подробнее, что это вообще такое, в чём польза и какие есть инструменты.

AB test: что это и зачем

AB test или Split test — метод маркетингового исследования, суть которого заключается в том, что вы берёте и сравниваете несколько вариантов элемента продукта с одним определенным изменением. А после смотрите какой из вариантов показал себя лучше.

К примеру, у нас родилась идея, поменять цвет кнопки на некой странице. Мы думаем, что это изменение принесёт нам больше кликов. Запускаем оба варианта, половине наших пользователей показываем вариант A, а другой половине вариант B.

AB test

По прошествии какого-то времени (продолжительность определяется перед запуском теста) замеряем результат. Смотрим какой из вариантов лучше отработал и используем его в работе. Таким образом вы можете проверять практически любые гипотезы и смотреть, что лучше работает, а что нет.

Что можно анализировать с помощью AB test?

  • Конверсии. Кол-во успешных целевых действий на вашем сайте. Это может быть нажатие на кнопку «Купить», посещение какой-то страницы или что-то ещё.
  • Экономика. Средний чек или объём выручки.
  • Поведенческие факторы. Глубина просмотра, длительность сеанса.

Нюансы и тонкости

  • Очень важно при тестировании менять только один фактор. Если это цвет кнопки на лендинге, то мы тестируем только разные цвета кнопок и не меняем больше ничего на страницах.
  • Также и с внешними факторами. Тест запускается в одно и то же время при одних и тех же условиях. В противном случае вы можете получить данные, которые будут необъективными.

Почта, это прошлый век, подписывайтесь на наш telegram канал!

Телеграм канал alexcouncil.com

Важно про данные

Всё было бы очень просто, если бы не одно «Но». Можно провести AB test, получить результаты, где откровенно видно, что один из вариантов сильно лучше другого.

Например, мы показали 2 варианта страниц с разным цветом кнопок по 1000 раз каждый. Проводили тест одну неделю. И получили следующие результаты:

Пример 1

При одинаковых показах баннера (это важно), кол-во кликов у варианта B больше в три раза. Делаем вывод, что этот вариант более эффективный и берём его в рабочую версию, а старый удаляем.

А если, к примеру, так?

AB test пример 2

Стоит ли брать вариант B? Или может быть это просто погрешность? Да и достаточно ли показать 1000 раз каждый из вариантов, чтобы принять решение? Может к нам на сайт в день заходит 10 000 пользователей и выборка очень мала, чтобы сделать вывод? А если, данные которые мы анализируем, не просто кол-во кликов, а средний чек с транзакций?

Статистика нам в помощь

Чтобы понять, как устроен мир цифр и экспериментов, давайте немного разберём мат.часть. Если нет времени и сил, то советую пропустить этот раздел. Дальше, я дам более простые решения задачи.

Большой соблазн, когда получили результаты эксперимента, принять решение и всё, вот оно, «светлое будущее». Но, ведь, если копнуть немножечко глубже, то за неделю распределение кликов по дням было неравномерным. Давайте распишем.

AB test пример 3

В таблице видно, что клики по дням распределены по-разному. А значит, наши значения варианта A и варианта B могут меняться каждый день. То есть, мы имеем дело со случайными величинами. Для таких случаев применяют средние значения. Но ведь, если мы проведем эксперимент ещё раз, то какова вероятность, что результат повториться?

Изобразим на графике распределение всех данных за неделю по варианту A и B.

AB test пример 4

Если мы возьмём средние величины по каждому из вариантов (это вертикальные полоски посередине двух волн), то увидим, что разница совсем невелика. Но существуют определенные отклонения, в большую и меньшую сторону от среднего. Поэтому, мы получаем пересечение двух волн. Чем оно больше, тем меньше значимость эксперимента и, соответственно, чем меньше пересечение, тем выше статистическая значимость.

Статистическая значимость, это то, насколько верны полученные результаты. То есть в нашем примере, ответ на вопрос «нужно ли брать вариант B?».

Обычно, по-умолчанию принимают уровень значимости равный 95%. Это означает, что мы с 95% вероятностью хотим знать, стоит ли выбирать другой вариант (B) при сравнении. Оставшиеся 5%, это вероятность ошибки, которую мы допускаем или p-value в терминологии статистики.

Интересно, что многие забывают проверять уровень значимости в своих экспериментах и тем самым могут получать ошибочные данные. 8 из 10 AB тестов проходят мимо этой оценки. (источник)

Не буду вдаваться долго в подробности, как рассчитывается показатель значимости, просто дам инструмент, который посчитает все за вас.

Инструменты для расчета значимости

Для оценки значимости данных советую использовать этот инструмент.

AB test проверка значимости результатов

Здесь у нас A и B соответственно наши варианты. А по цифрам:

  1. Число посетителей/можно кол-во показов вставлять.
  2. Кол-во конверсий. Нажали на кнопку, зарегистрировались. В общем выполнили целевое действие.
  3. P-value. Вероятность ошибки, которую мы опускаем при заданных данных.
  4. Ответ на вопрос существенны ли, полученные изменения в нашем эксперименте.

Пример: берём данные по показам и кликам из таблицы, которую показывал выше.

AB test пример 2

Забиваем их в сервис, нажимаем на кнопку «Calculate Significance» и…

AB test пример

Получаем ответ «No» или «Нет» (по-русски) в нижней строке, а чуть выше p-value 0,283. Что это означает? А то, что с вероятностью 28,3%  (0,283*100), если мы выберем вариант «B», то он не принесёт никаких существенных результатов.

Чтобы эксперимент считался успешным, p-value должен быть меньше 5%

Есть ещё один сервис, в который также вбиваете данные и смотрите результат, доступен по ссылке.

На этом строится базовый принцип измерения случайных величин. Просто в тот момент, когда получите результаты AB test, прогоните их через инструмент и посмотрите, а на столько лишь значимо улучшение от другого варианта, чтобы брать его в работу?

Как понять сколько нужно данных?

Бывает так, что для получения выводов недостаточно полученных данных.Для того, чтобы понять, сколько раз нужно показать страницу A и B, а затем получить нужное кол-во данных, используйте этот инструмент.

Очень важно, повторюсь, запускать эксперимент при одних и тех же условиях. В идеале мы берём неделю, на которой нет ни праздников, ничего остального и параллельно тестируем варианты. Вернёмся к сервису.

AB test нужная выборка

Благодаря этому сервису вы поймете размер выборки для каждого из вариантов.

Подробнее по пунктам:

  1. Существующий уровень конверсии. Или, например, сколько процентов из всех пользователей сейчас нажимают кнопку.
  2. Минимально значимое изменение, которое нас интересует. На сколько мы хотели бы изменить базовый показатель конверсии.
  3. Значимое отклонение, которое мы ввели на предыдущем шаге показывает, что конверсия может увеличится, так и уменьшиться.
  4. Размер выборки для каждого варианта. Сколько мы должны раз показать страницу отдельно A и страницу B, чтобы сделать выводы по эксперименту. Очень важно! Мы показываем 2 224 раза A и 2 224 раза B!
  5. Статистическая значимость. На сколько точный эксперимент мы хотим провести.
  6. Погрешность p-value. Какую вероятность ошибки допускаем.

Можно ли останавливать эксперимент раньше?

Можно. Существует вариант, когда мы можем не дожидаться окончания эксперимента, а на определенном этапе уже сделать выводы. Для этого используйте уже известный инструмент, вкладка «Sequental Sampling«.

AB test выборка

По шагам:

  1. Вбиваете свой уровень конверсии сейчас. К примеру 30%, именно столько из 100% заходящих к нам на страницу нажимает кнопку.
  2. Набираете, на сколько вы хотели бы повысить ранее введенный показатель. Поставил на 10%. Было 30, хочу до 33 поднять.
  3. Кол-во конверсий одного из экспериментов, после которого останавливаем эксперимент и принимаем решение.
  4. Разница в конверсиях между вариантом A и B, после которой останавливаем эксперимент и берем, тот, что больше набрал.
  5. Выставляем уровень значимости 95% (как положено, см.выше материал).
  6. Устанавливаем погрешность p-value (опять же, см.выше материал).

Здесь нет никакой хитрости, просто статистика. Используйте этот инструмент, когда эксперименты занимают много ресурсов (время на разработку, бюджеты на рекламу для проверки гипотез и т.д.). Теперь у вас есть два правила, при которых вы можете останавливать эксперимент и делать выводы.

Чем проводить AB test?

Готовые решения:

  • Optimizely, vwo.com, zarget.com
  • http://alternativeto.net/software/optimizely
  • Google Analytics (ссылка как проводить)

Собственное решение:

  • Пишем админку.
  • Пишем и настраиваем каждый эксперимент.

Вот статья про 10 сервисов для AB test. Есть из чего выбрать.

Всё

Теперь у вас есть общее представление, что такое AB test, какие существуют нюансы и какими инструментами его проводить. В заключение добавлю что данное исследование гипотез является одним из самых полезных в развитии digital проекта. Разве не прекрасно, что можно проверить практически любую идею? Главное правильно, теперь вы знаете как.

Алексей А.


Читайте также:


Отличная серия роликов от брокерского холдинга. Не злитесь на богатых. Выложу несколько роликов, они прекрасны.

Добавить комментарий

Введите ваше сообщение и email.

*