← Le journalGrowth

A/B testing : comment faire un test A/B propre (guide complet)

Par l'équipe Growth Loupe · 30 mai 2026 · 7 min

Rédigé avec l'assistance de l'IA · édité par Growth Loupe

En bref

Pour faire un test A/B propre : pars d'une hypothèse écrite (si je change X, alors Y, parce que Z), ne change qu'une seule variable à la fois, calcule ta taille d'échantillon AVANT de lancer, et laisse tourner le test au moins 2 à 4 semaines complètes jusqu'à atteindre 95 % de signification statistique. Tant que tu n'as pas le volume prévu, tu ne regardes pas le résultat et tu ne conclus rien. La majorité des tests qui "marchent" sont en réalité du hasard mal lu.

C'est quoi un A/B test, vraiment (et à quoi ça sert)

Un A/B test, c'est une expérience. Tu montres deux versions d'un même élément à deux groupes de visiteurs tirés au hasard : la version A (l'originale, ton témoin) et la version B (ta variante, avec UN changement). Tu mesures laquelle convertit le mieux. Point.

L'objectif n'est pas de "voir si c'est mieux". L'objectif, c'est de prendre une décision avec une preuve, pas avec une intuition. Sans test, tu déploies un nouveau bouton parce que le designer le trouve plus joli. Avec un test, tu sais s'il fait gagner ou perdre de l'argent.

Mais attention : un test A/B n'est valable que s'il est fait proprement. Un test bâclé te donne un chiffre. Ce chiffre a l'air sérieux. Et il est faux. Tu prends alors une décision sur du bruit statistique, tu déploies une variante qui ne change rien (ou qui dégrade), et tu crois avoir "optimisé". C'est le piège numéro un du growth amateur.

  • A = version actuelle (le témoin, ce que tu as déjà)
  • B = variante avec un seul changement isolé
  • Trafic réparti aléatoirement entre les deux, en même temps
  • Tu mesures une métrique de conversion précise, décidée à l'avance

Étape 1 : écrire une vraie hypothèse (pas une idée)

Tout test propre commence par une hypothèse écrite. Pas "on va tester le bouton rouge". Une hypothèse structurée, dans ce format :

« Si je change X, alors Y va se passer, parce que Z. »

Le "parce que Z" est la partie que tout le monde saute, et c'est la plus importante. C'est ta raison. Elle doit s'appuyer sur une friction observée (un point où les gens décrochent, visible dans tes données ou tes enregistrements de session), pas sur un avis. Exemple concret : « Si je remplace le CTA "Envoyer" par "Recevoir mon devis gratuit" (X), alors le taux de clic sur le formulaire va augmenter (Y), parce que les visiteurs hésitent à s'engager sans savoir ce qu'ils reçoivent en retour — c'est une friction de clarté de la valeur (Z). »

Si tu n'arrives pas à écrire le Z, c'est que tu n'as pas de raison de tester. Tu tâtonnes. Et tester au hasard, c'est cramer du trafic.

  • X = la variable que tu changes (une seule)
  • Y = l'effet mesurable attendu, sur UNE métrique
  • Z = la raison, basée sur une friction réelle observée
  • Si le Z est vide ou vaseux, ne lance pas le test

Étape 2 : une seule variable, une seule métrique primaire

La règle d'or, celle qui sépare un test exploitable d'un test poubelle : tu ne changes qu'UNE chose à la fois. Si ta variante B change à la fois le titre, la couleur du bouton et l'image, et qu'elle gagne, tu ne sauras jamais lequel des trois a fait la différence. Tu ne pourras rien réutiliser, rien apprendre.

Tester plusieurs éléments en même temps, ça s'appelle du test multivarié, et ça demande beaucoup plus de trafic pour être lu correctement. Pour 99 % des sites, ce n'est pas adapté. Reste sur de l'A/B simple : un changement, deux versions.

Pareil pour la mesure : choisis UNE métrique primaire avant de lancer. C'est elle qui décide qui gagne. Le reste (temps passé, taux de rebond...) ce sont des métriques secondaires, utiles pour comprendre, mais elles ne tranchent pas. Et choisis une métrique proche de l'argent : un taux de clic peut monter pendant que les ventes baissent. Si tu peux mesurer la conversion finale, c'est toujours mieux qu'un clic intermédiaire.

  • Une variable changée = un apprentissage clair et réutilisable
  • Une métrique primaire décidée AVANT, qui tranche le test
  • Choisis-la le plus proche possible du revenu réel
  • Les métriques secondaires expliquent, elles ne décident pas

Étape 3 : taille d'échantillon et durée (le calcul que personne ne fait)

Voici l'erreur la plus fréquente, et la plus coûteuse : lancer un test, voir au bout de 3 jours que B fait +18 %, crier victoire et tout déployer. Trois jours, c'est du hasard. Sur petit volume, les chiffres dansent dans tous les sens.

Avant de lancer, tu calcules ta taille d'échantillon. Il te faut trois choses : ton taux de conversion actuel (ta baseline), l'effet minimum que tu veux pouvoir détecter (le MDE, par exemple +10 % relatif), et ton seuil de confiance (95 % standard). Tu mets ça dans un calculateur de taille d'échantillon gratuit (Evan Miller, AB Tasty, Optimizely en proposent) et il te donne le nombre de visiteurs nécessaires PAR variante.

Règle simple à retenir : plus ton taux de conversion de base est bas, et plus l'effet que tu cherches est petit, plus il te faut de trafic. Détecter un gain de +2 % demande énormément de volume. Détecter +30 % en demande peu.

Côté durée : laisse toujours tourner au minimum 1 cycle complet, idéalement 2 à 4 semaines. Pourquoi ? Parce que ton trafic du mardi ne se comporte pas comme celui du dimanche, ni celui du jour de paie comme la fin de mois. Couvrir des semaines entières lisse ces variations. Ne coupe jamais un test au milieu d'une semaine.

  • Calcule la taille d'échantillon AVANT de lancer, jamais après
  • Inputs : baseline + effet minimal détectable (MDE) + 95 % confiance
  • Baseline basse ou petit effet = beaucoup plus de trafic nécessaire
  • Durée : 2 à 4 semaines, en semaines complètes, jamais coupé au milieu

Étape 4 : signification statistique (lire le résultat sans se mentir)

La signification statistique répond à une seule question : « Quelle est la probabilité que cet écart soit dû au hasard ? » Le standard, c'est 95 % de confiance (soit une p-value sous 0,05). En clair : il y a moins de 5 % de chances que tu te fasses avoir par le hasard.

Tant que tu n'as pas atteint à la fois ta taille d'échantillon prévue ET 95 % de confiance, tu n'as pas de résultat. Tu as un chiffre provisoire qui ne veut rien dire. Tu ne déploies pas. Tu ne conclus pas.

Et un test peut très bien finir sans gagnant : A et B à égalité, dans la marge d'erreur. Ce n'est pas un échec. C'est une info : ton changement n'a pas d'impact, passe à une hypothèse plus forte. Un "pas de différence" propre vaut mieux qu'un "+15 %" bidon.

  • 95 % de confiance (p < 0,05) = le standard pour décider
  • Pas de volume prévu atteint = pas de résultat, on attend
  • Un test sans gagnant net est une réponse valable, pas un raté
  • L'intervalle de confiance compte autant que le % de gain affiché

Les 7 erreurs qui faussent tout ton A/B test

La plupart des tests A/B ne sont pas faux à cause de la techno, mais à cause de la méthode. Voici les pièges qui transforment un test en illusion. Si tu en coches un seul, ton résultat est à jeter.

  • 1. Arrêter trop tôt ("peeking") : regarder les résultats tous les jours et couper dès que B passe devant. Chaque coup d'œil augmente le risque de faux positif. Fixe la durée à l'avance et tiens-la.
  • 2. Changer plusieurs variables à la fois : tu gagnes, mais tu ne sais pas pourquoi. Apprentissage = zéro.
  • 3. Pas de taille d'échantillon calculée : tu conclus sur 200 visiteurs alors qu'il en fallait 5 000. Pur hasard.
  • 4. Tester pendant une période anormale : soldes, pic de pub, panne, jour férié. Le contexte pollue les deux groupes.
  • 5. Déséquilibre technique : la variante B charge plus lentement ou bugge sur mobile. Tu mesures la lenteur, pas l'idée.
  • 6. Ignorer la significativité : déployer un +6 % à 80 % de confiance. Une fois sur cinq, tu déploies une fausse victoire.
  • 7. Tester un changement minuscule sur petit trafic : changer une nuance de bleu sur un site à 1 000 visites/mois. Tu n'auras jamais le volume pour le détecter. Teste gros, ou ne teste pas.

Prioriser tes tests : le scoring ICE quand tu as 20 idées

Tu auras toujours plus d'idées de tests que de trafic pour les faire tourner. Un test mobilise une partie de ton audience pendant des semaines : tu ne peux pas tout tester en même temps. Il faut prioriser.

La méthode simple, c'est le scoring ICE. Pour chaque idée, tu notes de 1 à 10 trois critères : Impact (si ça marche, combien ça rapporte ?), Confiance (à quel point tu crois que ça va marcher, sur quelles preuves ?), Effort (à inverser : facile = note haute). Tu fais la moyenne, tu classes, tu commences par le haut.

L'intérêt n'est pas la précision du chiffre — c'est de forcer la discussion et d'éviter de tester en premier l'idée la plus séduisante plutôt que la plus rentable. Un test à fort trafic, fort impact potentiel et faible effort passe avant un détail cosmétique. Toujours.

  • Impact : combien ça rapporte si ça gagne (1 à 10)
  • Confiance : la force de tes preuves derrière l'hypothèse (1 à 10)
  • Effort : inversé, le plus simple à implémenter marque le plus haut
  • Score ICE = moyenne des trois ; tu commences par les scores les plus élevés

FAQ

Combien de temps doit durer un test A/B ?

Au minimum 1 cycle complet, et idéalement 2 à 4 semaines, toujours en semaines entières. C'est nécessaire pour lisser les variations entre jours de semaine et week-end, et pour atteindre ta taille d'échantillon prévue. Ne coupe jamais un test au milieu d'une semaine, même si la variante semble gagner : tu fausserais le résultat.

Combien de visiteurs faut-il pour un test A/B fiable ?

Ça dépend de ton taux de conversion actuel et de l'effet que tu veux détecter. Plus ta conversion de base est faible et plus l'amélioration cherchée est petite, plus il faut de trafic. Tu dois le calculer AVANT de lancer avec un calculateur de taille d'échantillon gratuit (Evan Miller, par exemple), en entrant ta baseline, l'effet minimal détectable et un seuil de 95 % de confiance. Sans ce calcul, tu conclus sur du hasard.

C'est quoi la signification statistique à 95 % ?

C'est le seuil qui dit qu'il y a moins de 5 % de chances que l'écart entre A et B soit dû au hasard (une p-value sous 0,05). Tant que tu n'as pas atteint à la fois ta taille d'échantillon prévue et 95 % de confiance, tu n'as pas de résultat exploitable. Déployer une variante à 80 % de confiance, c'est accepter de te tromper une fois sur cinq.

Peut-on tester plusieurs changements en même temps ?

En A/B test classique, non : tu ne changes qu'une seule variable, sinon tu ne sauras jamais lequel des changements a produit l'effet, et tu n'apprends rien de réutilisable. Tester plusieurs éléments simultanément s'appelle du test multivarié, et ça demande beaucoup plus de trafic pour être lu correctement. Pour la grande majorité des sites, reste sur de l'A/B simple : un changement, deux versions.

Pour aller plus loin

La formation Gestion de projet