La Ciencia del AB Test: Estadística de experimentos AB testing
Dejémoslo claro: El AB testing es un método científico para conducir experimentos que nos lleven a una optimización sistemática de las páginas de nuestros sitio web.
Y como todo método científico, tiene métricas y estadística para determinar conclusiones avaladas en resultados numéricos.
Y en relación a esto, me pregunto: ¿Cuántos de los que hacen o han hecho un AB testing mediante herramientas digitales como Google Optimize, entienden a cabalidad el análisis estadístico asociado a un AB test?
Si te sientes aludido en el párrafo anterior, no te preocupes: Mi motivación para escribir este artículo es que comprendas mejor los números y porcentaje de un experimento AB test y cómo tomar una decisión en base a los resultados obtenidos.
Métricas de AB Test: Lo que debes saber
Repasemos entonces los resultados numéricos que se muestran en un reporte de AB Test. Ten en cuenta que para este artículo voy a analizar el reporte que entrega la herramienta Google Optimize, con la que normalmente trabajamos en el equipo de Digital Heads.
Así pues, cuando conduzcas un experimento en esa plataforma, vas a ver un reporte similar a este:
Vamos paso a paso explicando qué significan estos valores.
Los datos observados de Google Analytics
Partamos primero explicando los valores base que se constatan en un experimento AB test. Puede que a algunos les resulte evidente las explicaciones de las métricas de esta primera sección, pero las repaso igualmente para aquellos que no lo entiendan cabalmente.
Sesiones del experimento
Un AB test es un experimento, y como todo experimento, requiere exponer un objeto de estudio a un conjunto de factores.
En este caso, el objeto de estudio es el usuario que interactúa con una página web, y el conjunto de factores son los elementos visuales, comunicativos e interactivos presentes en una la interfaz.
En concreto, el experimento AB Test consiste en probar distintas variantes de esa página web, en donde se presentan de distintas formas los elementos de la interfaz.
Entonces, el número de sesiones de las variantes de un experimento es la cantidad de visitas que recibió cada variante del experimento en un periodo de tiempo.
Aquí, cuando nos referimos a “visitas”, nos estamos refiriendo al total instancias de visitar una web, no al total de visitantes (usuarios). No confundas usuarios con sesiones: Un usuario puede visitar una o más veces una página web, por lo cual el número de sesiones siempre es mayor al número de visitantes.
Conversiones del experimento
En el contexto de Google Analytics y en analítica web, una conversión es la consecución de un acción objetivo que buscamos que realice el usuario en nuestro sitio web.
Por ejemplo, una acción objetivo puede ser el envío de un formulario, el click en un botón, la visita a una página web o la realización de una transacción, etc.
Las conversiones deben medirse en Google Analytics para luego poder implementar el experimento en Google Optimize. El equipo de Digital Heads te puede ayudar a implementar un buen seguimiento de conversiones para tu sitio.
Así como para para cada variante de experimento se miden la sesiones (visitas) que recibió cada variante, también se mide para cada variante el número de conversiones o consecuciones de acción objetivo que logró cada variante de experimento en la sesiones que recibió.
Ten en cuenta que cuando hablamos de conversiones, siempre nos referimos en función de una acción objetivo. En un AB test realizado por Google Optimize, se pueden medir hasta 3 objetivos y analizar los resultados de forma paralela para estos eventos de interés.
Tasa de conversión calculada
Si comprendiste cabalmente las dos métricas anteriores, la tasa de conversión te resultará evidente. Esta métrica es simplemente la división entre el número de conversiones logradas y el número de sesiones recibidas.
Así, una variante ha recibido 100 sesiones y ha conseguido 23 conversiones, la tasa de conversión calculada es 23/100=23%.
Al igual que el número de sesiones y conversiones, la tasa de conversión es calculada y dispuesta para cada variante del experimento.
Más aún, para determinar cuál es la variante que eventualmente resultará ganadora en el experimento, la primera métrica que un gestor de AB testing suele revisar es la tasa de conversión obtenida para cada variante.
¡Pero cuidado! Esta no es la única métrica que deberías fijarte al analizar un experimento. Continua leyendo para realizar un análisis más acabado.
El análisis de Google Optimize
Aunque la variante con mejor tasa de conversión entrega un primer indicio, la conclusión de la variante ganadora del experimento no es tan directa ni sencilla como para basarse únicamente en ese indicador.
Un AB testing busca determinar la alternativa ganadora bajo fundamentos estadísticos, abstrayendo los resultados de los múltiples factores que inciden en las conversiones de las variantes expuestas.
Estos factores pueden ser: el tipo de dispositivo usado, el día de la semana en que se visitó el sitio, el perfil de usuario, entre otros tantos. Para ello, es importante conocer los indicadores estadísticos en un análisis de AB Test.
Probabilidad de obtener el mejor resultado
Este indicador es bastante útil y directo de interpretar. Como su nombre lo indica, simplemente señala cual es la probabilidad para cada variante del experimento de consolidarse como una alternativa que definitivamente ofrezca mejores resultados.
Ten en cuenta que los resultados de este indicador en la columna del reporte de Google Optimize deben sumar 100%. Es decir, esta métrica debe entenderse como una distribución de probabilidad de victoria entre las variantes de un experimento.
Por ejemplo, en un experimento con tres variantes podría tenerse lo siguiente:
Variate | Probabilidad de Obtener mejor resultado: |
Variante Base | 35% |
Variante A | 40% |
Variante B | 25% |
Total: | 100% |
Probabilidad de ser superior a la original
Ésta métrica señala la probabilidad de que una variante del experimento genere una tasa de conversión mejor que la variante original o de base.
Ten en cuenta que, a diferencia del indicador “Probabilidad de obtener el mejor resultado”, esta métrica NO corresponde a una distribución de probabilidad entre las variantes de resultar ser la alternativa con mejor desempeño.
Por el contrario, es una métrica que contrasta la variante base con las variantes alternativas que son sometidas a prueba. Y como toda medida de probabilidad, este indicador fluctúa entre 0 y 1. O en términos porcentuales, entre 0% y 100%.
Lógicamente, mientras más alta sea esta medida de probabilidad, más altas son las chances de que una determinada variable sea en efecto mejor que la versión original.
Tasa de conversión basada en patrones
De todos los indicadores estadísticos de un reporte de AB testing en Google Optimize, este es quizás el menos familiar para los usuarios de esta herramienta.
Google Optimize lo define como: “Los intervalos de rendimiento el 95 % y el 50 % del tiempo.”. Pero, ¿Qué significa esto?. Básicamente se trata de una medida típica de un análisis estadístico: el intervalo de confianza.
En palabras simples, este indicador estadístico se expresa en términos de un rango de valores y está determinado por una medida de probabilidad, que típicamente toma valores de 95%, 90%, 99% o 50%.
Así, un intervalo de confianza de 95% corresponde a un rango de valores que contendrá el resultado de la variable experimento en el 95% de las veces que el experimento sea conducido.
En términos de AB testing, la variable del experimento es la tasa de conversión, y por ello, este rango de valores indicará todos los valores en que podría resultar esa tasa para un valor de confianza determinado.
Como regla general para todo intervalo de confianza, mientras mayor es la probabilidad de contener los resultados posibles de un experimento, mayor es el rango del intervalo de confianza.
En otras palabras, siempre verás que el rango asociado al intervalo del 95% es más grande que el rango asociado al intervalo del 50%.
Para complementar las medidas entregadas en esta columna del reporte, Google Optimize entrega también la mediana del intervalo. Es decir, el valor de la variable de posición central al disponer el conjunto de datos de forma ordenada.
Mejora basada en patrones
Finalmente, para completar el reporte estadístico, Google Optimize ofrece este indicador a modo de rango porcentual.
Se trata de un indicador resultante del modelo predictivo que estima la diferencia porcentual de conversiones de la acción objetivo del experimento que lograría cada variante del experimento versus la variante base u original. Es decir, el incremento o decremento medido en términos porcentuales.
Para aquellos que no sepan cómo se calcula la diferencia porcentual entre dos variables, sepan que esto se calcula con la siguiente fórmula:
{ (resultado de variante) / (resultado base) -1}x100
Así, por ejemplo, si se estima que una variante A lograría 13 conversiones, y la variable base lograría 11 conversiones, la diferencia porcentual de las conversiones que lograría la variante A versus la variante original es:
(13/11-1)x100=18%
Pero como vimos en el indicador anterior, en los resultados estadísticos se entrega típicamente un intervalo de confianza. Y con ello, la mejora basada en patrones también será expresada en términos de un intervalo de valores, desde un valor mínimo a un máximo a lograr como diferencia porcentual respecto a la versión original
Y con este último indicador, termino este tutorial explicativo sobre los indicadores estadísticos de un AB test. Si tienes algún comentario o te queda alguna duda de lo que he explicado en este artículo, no dudes en dejarnos tu comentario. ¡Hasta la próxima!