Как Разобраться В Статистике А/В-тестирования [подробно для нематематиков]

Print Friendly, PDF & Email

А/В-тестирование – это прекрасно, особенно если понимаешь цифры, которые получил в результате. А если ещё и правильно проанализировал….конверсия растет как на дрожжах.

Но как быть тем, кто мягко говоря нематематик по своей сути, а скорее «коренной» гуманитарий, как я? 

Многие из вас уже используют А/В-тестирование (И правильно, кстати, делают. Это отличный способ определить, какой вариант текста, к примеру, повысит конверсию). Я долго изучал эту тему и теперь моя задача – объяснить числа, возникающие в результате тестирования, не погрязнув при этом в математических уравнениях и технических подробностях.

Короче говоря, объяснить нематематикам «на пальцах» статистические результаты А/В-тестирования.

Самое важное в этом деле — понимание основных концепций, а остальное мы с вами оставим калькуляторам и программам.

Итак…

Концепция №1: Выборка и её размер

Первая концепция, которую мы обсудим – это выборка и ее размер. Могут ли быть полезными результаты, полученные в серии тестов, во многом зависит от количества этих тестов. Измерение конверсии после каждого А/В-теста – это отбор, а процесс сбора этих результатов – выборка.

Пример концепции «на пальцах»

a_b test

Давайте предположим, что вы – владелец небольшого магазина, и хотели бы знать, какое из двух видов мороженого люди предпочитают – обычный пломбир или фруктовый (если вы давно в этом бизнесе, то наверняка уже знаете ответ исходя из объемов продаж). Мы представим, что вы только начинаете продавать мороженое, но хотите оценить, какое из этих видов будет продаваться лучше, чтобы делать соответствующий предварительный заказ.

Теперь предположим, что вы опросили случайных людей в вашем районе, где находится магазин, и узнали, что они предпочитают. Если вы спросите всего трех человек, и двое из них скажут, что любят обычный пломбир, вы решите, что двум третим всех клиентов нравится пломбир, а затем сделаете заказ, исходя из этого? Ну, скорее всего, нет.

Когда вы спросите у 300 человек, результаты статистически стабилизируются и значительно приблизятся к тому, что вы увидите на практике. Это актуально и для сайтов, и для маркетинговых стратегий так же, как и для обычного и фруктового пломбира.

Цель – убедиться, что вы соберете достаточно данных, чтобы уверенно делать прогнозы или вносить изменения, основываясь на результатах.

Поскольку за определением количества измерений, необходимого для достоверности результата, стоит математика и немного технических знаний, на сегодняшний день существует множество калькуляторов и приложений, предназначенных для такого расчета. Например, этот онлайн калькулятор расчета длины выборки.

ymSbUDX

Доверительные интервалы

Вполне вероятно, что вам приходилось видеть доверительный интервал (являющийся мерой надежности оценки), выраженный следующей формулой:

20,0%±2,0%

Предположим, что вы провели исследование о предпочтениях (обычный пломбир против фруктового) с достаточным количеством людей, чтобы обеспечить достоверность результатов, которую вы определили с помощью статистического калькулятора или программы (Обратите внимание, что выбор слоя населения тоже имеет значение, но мы опустим этот аспект для простоты).

Допустим, результаты показали, что 20% опрошенных предпочитают обычный пломбир. Теперь обратите внимание на вторую часть доверительного интервала — ±2,0%. Она показывает верхнюю и нижнюю границы той части людей, что предпочитают обычный пломбир, и называется погрешностью. Другими словами, это измерение отклонения от истинного среднего при нескольких повторных исследованиях.

Имея в виду погрешность в 2%, вычитание этой цифры из 20% даст нам 18%. Если же добавить к 20% эти 2%, получим 22%. Таким образом, мы можем с уверенностью сказать, что обычный пломбир предпочитают 18-22% людей. Чем меньше погрешность, тем увереннее мы можем быть в оценке нашего среднего значения результата.

Имея хорошую выборку среди населения, мы можем с уверенностью предположить, что если бы нам, к примеру, пришлось опросить каждого жителя страны, то 95% ответов в пользу обычного пломбира попали бы где-то между 18 и 22%. Другими словами, мы можем быть относительно уверены, что 18-22% людей в стране предпочитают обычный пломбир фруктовому.

Поэтому, размещая заказ на запасы нашего магазина, следует помнить, что 22% всех закупок должен составлять обычный пломбир, а остальное (78%) – фруктовый. Тогда вероятность того, что запасы того или другого внезапно исчерпаются, будем сведена к нулю, и все запасы будут расходоваться равномерно, до следующего заказа.

Концепция №2: Доверительные интервалы в А/В-тестировании

Применяя вышеописанное к А/В-тестированию изменений на веб-сайте, мы получим примерно подобный результат, хотя дальше нам нужно будет сравнить доверительные интервалы в тестах А и В, чтобы оценить значимость результатов.

Итак, давайте предположим, что мы добавляем на сайт новую кнопку «Купить сейчас» и надеемся, что это приведет к росту конверсии. Проводим А/В-тесты с текущей кнопкой, принятой за исходное значение и с вероятной новой кнопкой в качестве пробного варианта.

Пропуская значения через программу А/В-тестирования, мы получаем доверительный интервал 10,0%±1,5% для нашего контрольного варианта (тест А) и 20,0%±2,5% для нового варианта (тест В).

Выражая каждый результат через этот диапазон, мы видим, что 8,5-11,5% посетителей обеспечат конверсию в варианте со старой кнопкой, но 17,5%-22,5% привлечет наша новая, экспериментальная кнопка. Даже рассматривая каждый доверительный интервал как диапазон, мы видим, что эти два диапазона не пересекаются.

Похоже, наша новая кнопка «Купить сейчас» значительно повышает конверсию! Опять же, мы может делать такой вывод при условии соответствующего подбора опрошенной аудитории и достаточного размера выборки.

Насколько велика разница?

В вышеприведенном примере разница была заметной, но так ли она велика? Давайте на минуту забудем о погрешности доверительного интервала и просто посмотрим на средний процент конверсии для каждого теста.

Тест А показал конверсию 10%, тест В – 20%. Простое вычитание (20%-10%=10%) показывает нам увеличение конверсии на 10% при внедрении изменений.

Это значение кажется довольно большим улучшением, но это может вводить в заблуждение, так как мы рассматриваем только абсолютную разницу между показателями. Правильнее будет рассматривать разницу между этими двумя значениями, отталкиваясь от значения контрольного варианта.

Мы выяснили, что разница показателей составляет 10%, а контрольный показатель – 10%, то есть если взять соотношение (разделить разницу на значение контрольного варианта), мы получим 10% / 10% = 1,0 = 100%. То есть мы, видим, что уровень конверсии вырос на 100%.

Другими словами, с новой кнопкой мы увеличили конверсию на 100%, то есть в два раза! Вот это да! Мы знаем, что делаем, и добавить новую кнопку было правильным решением.

В реальности же мы можем увидеть немного больше. Доверительный интервал теста А составляет 13,84±0,22%, а теста В – 15,02±0,27%. Делая подобное сравнение, получаем 15,02%-13,84%=1,18%. Это процентное увеличение конверсии после внедрения изменений.

Теперь, глядя на коэффициент, производим следующие вычисления: 1,18% / 13,84% = 8,5%. Мы видим, что конверсия выросла на 8,5%, несмотря на то, что абсолютное процентное увеличение составило лишь 1,18%. Таким образом, мы получаем довольно существенное улучшение. Разве вы не хотели бы увеличить конверсию почти на 10%? Я бы не отказался.

Не забывайте, что проценты, как правило, лучше отображают изменения, чем абсолютные значения. Говоря, что конверсия выросла на 8,5%, мы видим, что это звучит намного лучше и убедительнее, чем если бы мы озвучили абсолютный прирост в 1,18%.

Перекрытие доверительных интервалов

Есть один аспект, который нужно контролировать: это пересечение доверительных интервалов двух тестов. Предположим, что тест А имеет доверительный интервал 10-20% для уровня конверсии, а тест В – 15-25% (Эти цифры приведены для простоты понимания).

Обратите внимание, что перекрытие этих интервалов составляет 5% и располагается в диапазоне 15-20%. Учитывая эту информацию, довольно трудно понять, несет ли вариант В на самом деле ожидаемое улучшение.

Еще немного к объяснению: как правило, 5%-е перекрытие между доверительными интервалами тестов А и В означает, что изменения не являются статистически значимыми или же размер выборки недостаточен.

Если вы уверены, что собрали достаточное количество ответов на основании расчетов калькулятора, то следует пересмотреть суть ваших изменений и попробовать что-то другое, что может сильнее повлиять на уровень конверсии. В идеале, нужно найти варианты, которые при тестировании дадут доверительные интервалы, не пересекающиеся с контрольным образцом.

Заключение

А/В-тестирование — метод, основанный на статистическом анализе. Тем не менее, вам не обязательно быть статистиком, чтобы понять его основные концепции или  полученные результаты тестов.

Конечно, можно изучить математические уравнения, нужные для расчета статистических показателей теста, но по сути вам нужно и, конечно, более интересно понимать что эти результаты будут означать для вас и какие изменения нужно внедрять в бизнес.

Мы обсудили концепции и статистические термины, связанные с А/В-тестированием, а также некоторые из полученных значений, которые можно использовать для принятия решений. Понимание представленных здесь концепций – это первый шаг к серьезным решениям, которые будут основываться на результатах А/В-тестирования. Следующий шаг – обеспечение должных условия для проведения испытания, чтобы быть уверенными в полученном результате перед принятием важных решений.

Фух… А теперь ставьте лайк, если прочли эту статью от начала и до конца =) шучу… конечно, если она была для вас полезной.

Следующие 5 минут свободны? Читайте эту статью и узнайте 4 важных качества успешных интернет-предпринимателей. В статье есть видео от лучших из лучших предпринимателей, вам точно будет полезно.