Як зрозуміти статистику A/B-тестування [деталі для нематематиків]

Print Friendly, PDF & Email

A/B тестування є великим, особливо якщо ви розумієте, номери, які ви отримуєте в результаті. І якщо він проаналізував його правильно…. Конверсія зростає в стрибками і за межі.

Але як бути з тим, хто є, м'яко кажучи, нематематиком за своєю природою, а скоріше «коренем» гуманітарієм, як я?

Багато хто з вас вже використовують/B тестування (і, по праву, до речі, робити. Це чудовий спосіб визначити, яка версія тексту, наприклад, підвищить конверсію. Я вивчив цю тему протягом тривалого часу, і тепер моє завдання полягає в тому, щоб пояснити номери, що виникають при тестуванні без загрузла в математичних рівняннях і технічних деталях.

Коротше кажучи, поясніть нематематиці «на пальцях» статистичні результати A/B-тестування.

Найголовніше в цьому випадку-розібратися в основних концепціях, а решта ми залишимо калькулятори і програми.

Так…

Концепція No 1: Відбір проб і його розмір

Перше поняття, про яке ми поговоримо, – це вибірка і її розмір. Чи можуть бути корисними результати тестових серій в значній мірі залежить від кількості цих тестів. Вимірювання перетворення після кожного A/B тесту відбувається відбором, і процес збору цих результатів – відбір проб.

Приклад поняття «на пальцях»

a_b Test

Припустимо, що ви є власником невеликого магазину, і вам хотілося б дізнатися, який з двох видів морозива люди вважають за краще – звичайне морозиво або фрукти (якщо ви давно займаєтеся цим бізнесом, то напевно вже знаєте відповідь, виходячи з обсягів продажів). Ми уявимо, що ви тільки починаєте продавати морозиво, але ви хочете оцінити, який з цих типів буде продаватися краще зробити відповідні попереднє замовлення.

Тепер припустимо, ви опитали випадкових людей у своєму районі, де знаходиться магазин, і з'ясували, що вони вважають за краще. Якщо ви запитаєте лише трьох людей, а двоє з них кажуть, що їм подобається звичайне морозиво, ви б вирішили, що дві третини всіх клієнтів люблять морозиво, а потім роблять замовлення на основі цього? Ну, мабуть, ні.

Коли ви запитаєте 300 людей, результати статистично стабілізувалися і значно ближче до того, що ви будете бачити на практиці. Це вірно для веб-сайтів і маркетингових стратегій, а також для звичайних і фруктових начинки.

Мета полягає в тому, щоб переконатися, що ви збираєте достатньо даних, щоб впевнено робити прогнози або вносити зміни на основі результатів.

Тому що є багато калькуляторів і заявок на цей розрахунок за визначення кількості вимірювань, необхідних для перевірки результату. Наприклад, це онлайн калькулятор довжини зразка.

ymSbUDX

Довірчий інтервал

Цілком імовірно, що ви бачили довірчий інтервал (міра достовірності оцінки), виражена наступною формулою:

20,0% до 2,0%

Скажімо, ви провели дослідження переваг (звичайне морозиво проти фруктової начинки) з достатньою кількістю людей, щоб забезпечити валідність результатів, які ви визначили за допомогою статистичного калькулятора або програми (зверніть увагу, що вибір населення також має значення, але ми опустимо цей аспект для простоти).

Скажімо, результати показали, що 20% респондентів віддають перевагу звичайному розливу. Тепер зверніть увагу на другу частину довірчий інтервал-2,0%. Вона показує верхню і нижню межі частини людей, які віддають перевагу звичайному наповнювані, і називається помилкою. Іншими словами, це вимір відхилення від істинного середнього в декількох повторних дослідженнях.

З запасом похибки 2%, віднімаючи цей показник від 20% дасть нам 18%. Якщо ви додаєте до 20% цих 2%, ми отримуємо 22%. Таким чином, можна з упевненістю сказати, що звичайна начинка віддає перевагу 18-22% людей. Чим менша похибка, тим впевненіше ми можемо бути в оцінці нашого середнього значення результату.

Маючи гарний зразок серед населення, ми можемо сміливо припустити, що якщо ми, наприклад, доводилося інтерв'ю кожному мешканцю країни, 95% відповідей на користь звичайної начинкою буде десь між 18 і 22%. Іншими словами, ми можемо бути відносно впевненими, що 18-22% людей в країні віддають перевагу звичайному фруктового наповнення.

Тому, розмістивши замовлення на акції нашого магазину, слід пам'ятати, що 22% всіх покупок повинні бути регулярними начинкою, а решта (78%)-плід. Тоді ймовірність того, що запаси одного або іншого раптово будуть виконуватися, будуть знижені до нуля, і всі запаси будуть витрачатися рівномірно, до наступного замовлення.

Концепція No 2: довірчий інтервал в A/B тестування

Застосовуючи a/B-тестування змін на веб-сайті, ми отримаємо подібний результат, хоча нам потрібно буде порівняти інтервали між упевненістю в A та B тестах для оцінки значення результатів.

Отже, припустимо, що додамо на сайт нову кнопку «Купити зараз» і сподіваємося, що це призведе до збільшення конверсії. Ми проводимо тести A/B з поточною кнопкою, прийняті для початкового значення і з імовірною новою кнопкою в якості судового процесу.

Пропускаючи a/B-тестування програми, ми отримуємо довірчий інтервал в 10,0% до 1,5% для нашого контролю (Test A) і 20.0% до 2,5% для нового варіанту (Test B).

Висловлюючи кожен результат через цей діапазон, ми бачимо, що 8.5-11,5% відвідувачів будуть надавати перетворення у версії зі старою кнопкою, але 17.5%-22,5% будуть залучати нашу нову, експериментальну кнопку. Навіть з огляду на кожен довірчий інтервал в діапазоні, ми бачимо, що ці два діапазони не перетинаються.

Схоже, наша нова кнопка «Купити зараз» значно підвищує конверсії! Знову ж таки, можна зробити такий висновок за умови, що достатньо відповідного відбору опитаної аудиторії і достатнього розміру вибірки.

Наскільки велика різниця?

У наведеному вище прикладі різниця була помітна, але чи дійсно вона така велика? Давайте на мить забудемо про похибку інтервалу впевненості і просто подивимося на середній коефіцієнт конверсії для кожного тесту.

Випробування показали перетворення 10%, тест B-20%. Простий віднімання (20%-10%-10%) показує нам 10% збільшення конвертації, коли ми впроваджуємо зміни.

Це значення здається досить великим поліпшенням, але це може бути в оману, так як ми розглядаємо тільки абсолютну різницю між показниками. Краще б розглянути різницю між двома значеннями на основі значення параметра Control.

Ми виявили, що різниця становить 10%, а показник становить 10%, тобто, якщо ви берете співвідношення (Розділіть різницю за значенням параметра Control), ми отримуємо 10%/10% q 1,0 до 100%. Тобто, ми бачимо, що коефіцієнт конверсії збільшився на 100%.

Іншими словами, з новою кнопкою ми збільшили конверсію на 100%, тобто в два рази! О, мій! Ми знаємо, що робимо, і додавання нової кнопки було правильним рішенням.

Насправді ми можемо побачити трохи більше. Довірчий інтервал тесту A становить 13,84 до 0,22%, а тест B-15,02 до 0,27%. Зробивши таке порівняння, ми отримуємо 15.02%-13.84%-1,18%. Це відсоткове збільшення конверсії після того, як зміни буде реалізовано.

Тепер, дивлячись на коефіцієнт, ми виробляємо наступні розрахунки: 1,18%/13,84% q 8,5%. Ми бачимо, що конверсія збільшилася на 8,5%, незважаючи на те, що абсолютне відсоткове зростання було лише 1,18%. Таким чином, ми отримуємо досить значне поліпшення. Чи не хотіли б ви збільшити кількість конверсій майже на 10%? Я б не відмовився.

Не забувайте, що інтерес, як правило, показують зміни краще, ніж абсолютні значення. Сказавши, що конверсія зросла на 8,5%, ми бачимо, що це звучить набагато краще і переконливою, ніж якби ми оголосили про абсолютне збільшення 1,18%.

Закриття інтервалів довіри

Існує один аспект, який повинен бути контрольованим: перетин цільових інтервалів двох тестів. Припустимо, тест A має довірчий інтервал в 10-20% для рівня конверсії, а тест B становить 15-25% (ці цифри наводяться для зручності розуміння).

Зверніть увагу, що перекриття цих інтервалів становить 5% і знаходиться в діапазоні 15-20%. З огляду на цю інформацію, важко дізнатися, чи є варіант б насправді приносить очікуваних поліпшень.

Ще трохи пояснити: як правило, 5% перекриття між довірчими інтервалами тестів А і В означає, що зміни не є статистично значущими або розмір вибірки недостатній.

Якщо ви впевнені, що ви зібрали достатню кількість відповідей на основі обчислень калькулятора, ви повинні переосмислити природу ваших змін і спробувати щось інше, що може мати сильний вплив на коефіцієнт конверсії. В ідеалі потрібно знайти варіанти, які, при випробуванню, дадуть довірчий інтервал, що не перетинаються з контроним зразком.

Висновок

Тестування A/B – метод, заснований на статистичному аналізі. Тим не менш, ви не повинні бути статистиком, щоб зрозуміти його основні поняття або результати тестів.

Звичайно, ви можете вивчити математичні рівняння, необхідні для розрахунку статистичних показників тесту, але насправді вам потрібно і, звичайно, більш цікаво зрозуміти, що ці результати будуть означати для вас і які зміни потрібно реалізувати в бізнесі.

Ми обговорили поняття і статистичні терміни, пов'язані з A/B тестування, а також деякі з отриманих значень, які можуть бути використані для прийняття рішень. Розуміння представлених тут концепцій є першим кроком на шляху до серйозних рішень, які будуть базуватися на результатах тестування A/B. Наступний крок полягає в тому, щоб переконатися, що тест проводиться належним чином, щоб бути впевненим в результаті, перш ніж приймати важливі рішення.

Тьху… А тепер ставте лайк, якщо читаєте цю статтю від початку і до кінця =) просто жартую… звичайно, якщо це було корисно для вас.

Чи безкоштовні наступні 5 хвилин? Прочитайте цю статтю та дізнайтеся про 4 важливих якості успішних інтернет-підприємців. У статті є відео від кращих з кращих підприємців, вам обов'язково стане в нагоді.