Calculateur premium

18 les méthodes de calcul d’échantillons

Calculez rapidement une taille d’échantillon, une marge d’erreur, un besoin d’événements ou une estimation minimale selon 18 approches statistiques courantes en recherche, sondage, santé publique, marketing et expérimentation produit.

Calculateur interactif

Choisissez une méthode, saisissez vos hypothèses, puis lancez le calcul. Les champs sont mutualisés afin de couvrir les 18 méthodes les plus utilisées.

Méthode de calcul

Astuce : laissez les valeurs par défaut pour voir des scénarios réalistes, puis adaptez à votre protocole.

Alpha

Puissance

Proportion p1 / taux de base

Proportion p2 / taux alternatif

Écart-type sigma

Différence minimale delta

Marge d’erreur / demi-largeur

Population N

Effet de plan

Taille moyenne de grappe

ICC / corrélation intraclasse

Probabilité d’événement rare

Nombre de prédicteurs

Taux d’événements global

Hazard ratio / ratio ciblé

Pertes prévues

Ratio d’allocation groupe 2 / groupe 1

EPV cible

Échantillon connu n

Type de test

Marge de non-infériorité / équivalence

Les résultats s’afficheront ici après le calcul. Le système propose aussi un ajustement pour les pertes au suivi et un aperçu graphique.

Visualisation

Le graphique compare le résultat de base, l’ajustement pour pertes et une variante de puissance plus élevée quand elle est applicable.

Pour les sondages : utilisez surtout proportion simple, population finie, marge d’erreur et largeur d’IC.
Pour les essais cliniques : deux proportions, deux moyennes, apparié, non-infériorité, équivalence et survie log-rank.
Pour l’analytique produit : A/B test conversion, deux proportions et étude pilote.
Pour les modèles prédictifs : la règle EPV reste une borne minimale utile en régression logistique.

Guide expert : comprendre les 18 méthodes de calcul d’échantillons

Le calcul d’échantillon n’est pas une formalité administrative. C’est un choix méthodologique qui détermine la crédibilité d’une étude, la largeur de ses intervalles de confiance, sa capacité à détecter un effet réel et le bon usage du budget. Une taille trop faible expose au risque d’erreur de type II, c’est-à-dire à conclure à tort qu’il n’existe aucun effet. Une taille excessivement grande peut, à l’inverse, conduire à détecter des différences statistiquement significatives mais cliniquement ou opérationnellement négligeables. Dans un projet sérieux, la taille d’échantillon doit être justifiée en lien avec l’objectif principal, le type de variable, le plan d’étude, la précision souhaitée, l’incertitude attendue et les pertes probables.

Dans ce guide, nous passons en revue 18 méthodes de calcul d’échantillons parmi les plus utilisées. Elles couvrent les besoins des sondeurs, des chercheurs universitaires, des équipes de santé publique, des biostatisticiens, des responsables d’études de marché et des équipes produit. Pour approfondir les principes statistiques, il est utile de consulter des ressources reconnues comme la CDC, le Penn State Department of Statistics et le NIH.

1. Proportion simple

Cette méthode sert à estimer la proportion d’une population présentant une caractéristique donnée, par exemple un taux de satisfaction, une intention d’achat ou une prévalence. La formule classique est fondée sur la variance binomiale : n = z² × p × (1 – p) / e². Quand la proportion attendue est inconnue, on prend souvent p = 0,50, car cela maximise la variance et donc produit une taille prudente. Cette méthode convient aux enquêtes descriptives avec échantillonnage aléatoire simple.

2. Moyenne simple

Quand la variable principale est quantitative, la taille dépend de l’écart-type attendu sigma et de la précision recherchée. On utilise alors n = (z × sigma / e)². Cette méthode est fréquente pour mesurer un score, un délai, une concentration biologique ou un montant moyen. La difficulté pratique réside souvent dans l’estimation préalable de sigma, qui peut venir d’une étude pilote, de la littérature ou d’une base historique.

3. Correction pour population finie

Lorsque la population totale N est limitée et connue, la correction pour population finie réduit la taille nécessaire. Une formule courante est n corrigé = n0 / (1 + (n0 – 1) / N), où n0 est la taille obtenue sans correction. Cette approche est importante pour les audits internes, les études sur une liste fermée de clients, les établissements scolaires, les établissements de santé ou tout univers d’observation restreint.

4. Deux proportions indépendantes

Cette méthode évalue le nombre de sujets nécessaires pour comparer deux groupes sur une variable binaire : conversion, guérison, adoption d’une fonctionnalité, défaut de fabrication, etc. Le calcul dépend des proportions p1 et p2, du niveau alpha, de la puissance désirée et du caractère unilatéral ou bilatéral du test. Plus l’écart attendu entre les groupes est faible, plus l’échantillon doit augmenter. C’est l’outil standard pour les tests A/B lorsque l’issue principale est oui ou non.

5. Deux moyennes indépendantes

Si l’issue principale est continue, par exemple un temps, un score, une note ou un biomarqueur, on compare deux moyennes. Dans sa forme standard à variances égales, la taille par groupe est approximativement n = 2 × (z alpha + z beta)² × sigma² / delta². La valeur delta correspond à la plus petite différence jugée importante. La clé n’est donc pas seulement la significativité statistique, mais la pertinence réelle de l’effet recherché.

6. Moyennes appariées

Dans un plan avant-après ou en crossover, l’analyse porte sur la différence intra-sujet. La taille dépend alors de l’écart-type des différences, souvent inférieur à l’écart-type brut. Les études appariées sont ainsi plus efficaces lorsqu’il existe une forte corrélation entre les mesures. Cela permet de réduire le nombre de participants nécessaires à précision et puissance égales.

7. Proportion avec effet de plan

Dès qu’un plan d’échantillonnage est complexe, notamment en grappes ou par degrés multiples, la variance observée augmente. On corrige alors la taille simple par un effet de plan, souvent noté DEFF. La formule devient n ajusté = n simple × DEFF. Dans des enquêtes de santé ou d’opinion, un DEFF de 1,2 à 2,0 est courant, mais il peut être supérieur selon l’homogénéité des grappes.

8. Prévalence en grappe simplifiée

Une version pratique consiste à calculer d’abord une taille simple, puis à estimer l’effet de plan via DEFF = 1 + (m – 1) × ICC, où m est la taille moyenne de grappe et ICC la corrélation intraclasse. Plus l’ICC est élevée, plus les individus d’une même grappe se ressemblent, et plus il faut augmenter le volume d’observation global. Cette approche est particulièrement utile en épidémiologie, dans les écoles, quartiers, villages ou centres de soins.

9. Détection d’événement rare

Quand l’objectif est simplement d’avoir une forte chance d’observer au moins un cas, on peut utiliser la relation n ≥ ln(1 – confiance) / ln(1 – p). Par exemple, si la probabilité individuelle d’un événement est de 1 %, il faut environ 299 observations pour avoir 95 % de chances de voir au moins un cas. Cette méthode sert dans la surveillance, le contrôle qualité et certaines études de sécurité.

10. Largeur d’intervalle de confiance pour une proportion

Il s’agit d’une reformulation de la méthode 1 en se concentrant explicitement sur la demi-largeur de l’intervalle. Pour un décideur, cela est souvent plus parlant que la seule notion de significativité. Dire que la prévalence estimée sera connue avec une précision de plus ou moins 3 points est une exigence de précision concrète et directement interprétable.

11. Largeur d’intervalle de confiance pour une moyenne

Le même principe s’applique aux variables continues. Si l’étude vise surtout la précision de l’estimation et non la comparaison entre groupes, cette méthode est préférable à une approche basée sur la puissance. Elle est très utilisée dans les enquêtes descriptives, les mesures environnementales, la métrologie et les études pilotes d’estimation.

12. Non-infériorité sur proportion

Une étude de non-infériorité ne cherche pas à démontrer que deux interventions sont identiques, mais qu’une nouvelle option n’est pas inférieure à la référence au-delà d’une marge acceptable. Cette marge doit être justifiée sur le plan clinique, économique ou opérationnel. Le calcul dépend souvent de la proportion attendue dans les deux groupes et de la marge de non-infériorité. Les tailles requises sont fréquemment élevées, car il faut exclure une perte d’efficacité trop importante.

13. Équivalence sur proportion

L’équivalence est plus exigeante que la non-infériorité, car il faut montrer que la différence reste dans un intervalle symétrique acceptable, par exemple plus ou moins 5 points. Cela demande généralement davantage de participants. Cette méthode est courante pour démontrer qu’un procédé, un générique, un parcours digital ou une modalité de délivrance donne des performances comparables à la référence.

14. Régression logistique par EPV

La règle des événements par variable, souvent 10 EPV comme minimum prudent historique, sert de point de départ pour dimensionner une base de modélisation. Si l’on prévoit 10 prédicteurs et un taux d’événements de 20 %, alors un minimum de 500 sujets donne 100 événements, soit 10 EPV. Cette approche est utile en phase de cadrage, même si la littérature moderne recommande des méthodes plus fines selon l’objectif prédictif, le shrinkage attendu et la calibration visée.

15. Survie avec test du log-rank

Pour comparer deux courbes de survie, on calcule d’abord le nombre d’événements nécessaires à partir du hazard ratio ciblé, du niveau alpha et de la puissance. Ensuite, on convertit ce besoin en nombre de sujets selon le taux d’événements attendu. C’est une distinction importante : dans les études de survie, l’information statistique provient surtout des événements observés, pas seulement du nombre brut de participants inclus.

16. Étude pilote

Les études pilotes visent rarement à conclure sur l’efficacité. Elles servent plutôt à estimer la faisabilité, la variance, les taux de recrutement, d’adhésion et de pertes. Des règles pratiques comme 12 à 35 sujets par bras existent selon l’objectif. Si l’enjeu principal est d’estimer un écart-type pour un futur essai, les besoins diffèrent d’une simple vérification de faisabilité logistique.

17. Test A/B conversion

Le test A/B sur un taux de conversion est une application directe de la comparaison de deux proportions. En pratique, les équipes produit oublient souvent d’ajuster pour les tests multiples, les analyses séquentielles ou les expositions déséquilibrées. Un gain attendu de 1 point sur un taux de base de 8 % peut exiger des dizaines de milliers d’utilisateurs selon la puissance cible. L’anticipation du volume réel de trafic est donc indispensable.

18. Marge d’erreur à partir d’un échantillon connu

Parfois, la taille est imposée par le terrain, le budget ou une base clients fermée. La bonne question devient alors : quelle précision puis-je espérer avec n observations ? Pour une proportion, la demi-largeur approximative est e = z × racine de p × (1 – p) / n. Cette méthode permet de repositionner honnêtement l’étude : plutôt qu’affirmer trop, on décrit la précision réellement atteignable.

Comparaison des méthodes selon l’objectif

Méthode	Variable principale	Hypothèses clés	Usage typique	Ordre de grandeur fréquent
Proportion simple	Binaire	p, marge d’erreur, alpha	Sondages et prévalence	Avec p = 0,50 et e = 5 %, environ 385
Deux proportions	Binaire	p1, p2, alpha, puissance	Essais et A/B tests	Souvent 300 à plusieurs milliers par bras
Deux moyennes	Continue	sigma, delta, alpha, puissance	Scores, délais, biomarqueurs	Très sensible au ratio sigma / delta
Population finie	Binaire ou continue	Taille initiale et N	Listes fermées, audits	Réduction notable si N est faible
EPV logistique	Événement binaire	Nombre de prédicteurs, taux d’événements	Modèles de risque	Au moins 10 EPV comme borne prudente traditionnelle
Survie log-rank	Temps jusqu’à événement	Hazard ratio, alpha, puissance, taux d’événements	Essais de survie	Dépend d’abord du nombre d’événements requis

Statistiques utiles pour décider de la taille

Paramètre	Valeurs fréquentes	Impact pratique	Exemple
Alpha	0,05 bilatéral dans la majorité des études	Plus alpha est petit, plus n augmente	Passer de 0,05 à 0,01 peut majorer sensiblement l’effectif
Puissance	0,80 ou 0,90	De 0,80 à 0,90, l’effectif augmente souvent de 20 % à 35 %	Très important quand l’effet attendu est modeste
Pertes au suivi	5 % à 20 % selon le terrain	n ajusté = n / (1 – pertes)	Un besoin de 400 devient 445 avec 10 % de pertes
Effet de plan	1,2 à 2,0 souvent observé en enquêtes en grappes	Multiplie directement la taille simple	385 devient 578 avec un DEFF de 1,5
Proportion inconnue	0,50 comme hypothèse conservative	Maximise la variance et la prudence	Très utilisé dans les questionnaires initiaux

Comment choisir la bonne méthode

Identifiez l’objectif principal : estimation descriptive, comparaison, modélisation, non-infériorité, équivalence ou faisabilité.
Déterminez la variable principale : proportion, moyenne, temps de survie, présence d’événement ou taux de conversion.
Fixez une différence minimale importante : elle doit avoir du sens pour l’action, pas seulement pour la statistique.
Choisissez alpha et puissance : 5 % et 80 % sont fréquents, mais 90 % peut être préférable pour des enjeux critiques.
Anticipez la réalité du terrain : non-réponse, exclusion, abandons, données manquantes, variabilité accrue, corrélation en grappes.
Documentez vos hypothèses : références bibliographiques, étude pilote, audit historique, benchmark marché, base interne.
Prévoyez une analyse de sensibilité : calculez plusieurs scénarios pour mesurer l’effet d’un sigma plus élevé, d’un delta plus petit ou de pertes plus fortes.

Erreurs fréquentes à éviter

Utiliser une formule de proportion pour une comparaison de groupes sans intégrer la puissance.
Oublier le caractère bilatéral du test, ce qui sous-estime la taille nécessaire.
Choisir une différence minimale trop optimiste pour réduire artificiellement n.
Négliger les pertes au suivi ou la non-réponse.
Ignorer l’effet de plan dans un échantillonnage en grappes.
Dimensionner une régression sur le nombre total de sujets au lieu du nombre d’événements.
Confondre étude pilote et étude d’efficacité.
Ne pas distinguer précision descriptive et hypothèse comparative.

Conclusion pratique

Les 18 méthodes de calcul d’échantillons présentées ici ne sont pas concurrentes, elles répondent à des questions différentes. Pour une enquête de prévalence, vous chercherez surtout la précision. Pour un essai comparatif, la puissance et la taille d’effet dominent. Pour une étude de survie, le moteur du calcul est souvent le nombre d’événements. Pour une régression, c’est la densité d’information par variable qui compte. En pratique, le meilleur réflexe consiste à définir l’objectif principal, sélectionner la formule adaptée, puis effectuer une analyse de sensibilité sur les hypothèses les plus incertaines. C’est cette discipline qui transforme un simple calcul d’effectif en vraie stratégie d’étude.

Remarque : les formules proposées ici sont des approximations standards très utiles pour le cadrage. Pour des plans complexes, des analyses séquentielles, des modèles hiérarchiques ou des essais réglementaires, une validation biostatistique dédiée reste recommandée.

18 Les M Thodes De Calcul D Chantillons