Comparaisons statistiques

Nous présentons dans ce chapitre un raisonnement nouveau. Son inventeur, au début de ce siècle, avait pris le pseudonyme de Student. Le problème qui lui était posé était le suivant: l’engrais a-t-il une influence sur le rendement des cultures de pomme de terre ? Pour le résoudre, Student imagine de choisir 4 parcelles. Chacune d’elles est divisée en deux, et on la cultive en traitant l’une des moitiés choisie au hasard, avec de l’engrais et l’autre non. Après la récolte, on calcule les rendements et, pour une parcelle donnée, la différence de rendements entre les deux moitiés avec engrais et sans engrais. Les 4 différences obtenues sont: {11, 30, -6, 13}. Student convient de considérer ces valeurs comme des réalisations d’une variable aléatoire D. Il fait alors l’hypothèse que l’engrais n’a pas d’influence. Si cette hypothèse est vraie, la moyenne E(D) de la variable D est nulle. La démarche se poursuit par une sorte de raisonnement par l’absurde, en vérifiant si les valeurs observées peuvent être considérées comme compatibles ou non avec E(D) = 0. Si elles sont incompatibles, l’hypothèse faite doit être remise en cause, et l’on peut conclure à l’influence de l’engrais... Ce raisonnement, théorisé plus tard par Neyman et Pearson, est appelé le test d’hypothèse.

1 - Tests d'hypothèse

Théorie de Neyman et Pearson

On suppose donnée une certaine variable aléatoire X dont la loi de probabilité dépend des hypothèses que l’on désire tester. Plus précisément, on suppose qu’il existe plusieurs hypothèses H₀, H₁,..., H_n parfaitement connues (qui peuvent être en nombre fini ou non, dénombrable ou non) et que la loi de probabilité dépend de l’hypothèse vraie. Le test va permettre de porter un jugement sur l’hypothèse faite et d’évaluer le degré de validité du jugement, cela à partir de la valeur prise par X.

Nous étudierons d’abord le cas où l’on fait deux hypothèses simples H₀ et H₁. Une hypothèse est dite simple si elle définit complètement et d’une manière unique la loi de probabilité de X; sinon, elle est dite composite. C’est ainsi, par exemple, qu’en présence d’un lot de pièces distinguées en " convenables " et " défectueuses ", les deux hypothèses:

H₀: le lot contient 5 % de déchets
H₁: le lot contient 10 % de déchets

sont des hypothèses simples puisque chacune d’elles définit entièrement le lot. Tandis que les deux hypothèses:

H₀: le lot contient 5 % ou moins de 5 % de déchets
H₁: le lot contient plus de 5 % de déchets

sont des hypothèses composites puisque ni l’une ni l’autre ne définit entièrement le lot.

Supposons donc qu’il existe deux hypothèses simples H₀ et H₁ couvrant l’ensemble des possibilités; cela veut dire que l’une ou l’autre des deux hypothèses H₀ et H₁ est réalisée nécessairement. Dans ce cas, il est possible d’émettre l’un des deux jugements:

H₀ est vraie, donc H₁ est fausse,
H₁ est vraie donc H₀ est fausse.

On peut symboliser cet ensemble par le tableau ci-dessous où figurent, en lignes les états possibles et en colonnes les jugements portés. Le tableau contient les conséquences des différentes combinaisons.

Parmi les deux hypothèses H₀ et H₁, il en existe en général une dont le rejet à tort a des conséquences plus fâcheuses que pour l’autre. Il est donc normal de ne pas traiter H₀ et H₁ de façon symétrique. Admettant alors que H₀ représente une circonstance favorable et H₁ une circonstance défavorable, on peut se tromper de deux manières:

en considérant comme défavorable ce qui est favorable; c’est l’erreur de première espèce;
en considérant comme favorable ce qui ne l’est pas; c’est l’erreur de deuxième espèce.

C’est exactement en ces termes que se posait le problème du contrôle de réception, où ces deux types d’erreur correspondaient à des préoccupations toutes différentes: celle du fournisseur d’une part, et celle du client d’autre part.

Pour relier, maintenant, le jugement porté à l’observation de la variable X, on opère ainsi:

on dit que H₀ est vraie si la valeur observée de X, soit x, se trouve dans un certain domaine w, appelé région d’acceptation de l’hypothèse H₀;
on dit que H₁ est vraie si la valeur observée n’appartient pas à w.

Pour choisir le domaine w, on impose en général deux conditions:

que la probabilité de commettre l’erreur de première espèce soit égale à un seuil déterminé α choisi a priori aussi faible qu’on le veut;
que la probabilité β de commettre l’erreur de deuxième espèce soit minimale.

Il importe de noter en effet que la première condition ne suffit pas, sauf cas très particulier, à définir w de façon unique.

Il est possible maintenant de compléter le tableau précédent en indiquant les règles de jugement et les probabilités pour qu’il soit correct ou faux:

Un tel mode de raisonnement est appelé test d’hypothèse. Le complément à l’unité de β, soit (1-β) est appelé puissance du test: un test est d’autant plus puissant, pour un risque de première espèce fixé, que le risque de deuxième espèce est plus petit.

Détermination de la région d'acceptation

Si l’on note p₀(x|H₀) et p₁(x|H₁) les densités de probabilité de X, respectivement dans le cadre des hypothèses H₀ et H₁, les deux conditions précédentes s’expriment par les deux équations suivantes:

∫_w p₀(x)dx = 1-α

∫_w p₁(x)dx = β minimum

On démontre qu’elles sont satisfaites s’il existe une constante positive λ, telle que pour x appartenant à w:

p₁(x) < λ.p₀(x)    (1)

sous la contrainte:

∫_w p₀(x)dx = 1-α    (2)

La démonstration qui suit n’est pas essentielle.

Supposons qu’une telle constante λ existe et considérons la quantité:

F(w) = ∫_w p₁(x)dx - λ.∫_w p₀(x)dx

En appelant I_w(x) la fonction indicatrice du domaine w, qui prend la valeur 1 si x appartient à w et la valeur 0 sinon, on peut écrire F(w) sous la forme:

F(w) = ∫I_w(x) (p₁(x) - λ.p₀(x)) dx

On constate que F(w) est négatif donc minimum pour:

I_w(x)= 0	 si ⁢ p₁(x) - λ.p₀(x) ⩾ 0

I_w(x)= 1	 si ⁢ p₁(x) - λ.p₀(x) < 0

Or, lorsque F(w) est minimum sous la condition (2), la quantité ∫_w p₁(x)dx, c'est-à-dire β, l’est évidemment aussi. Appliquons ce résultat à deux exemples.

Test sur une proportion

Supposons qu’ayant prélevé un échantillon de n pièces dans un certain lot, on veuille tester l’hypothèse:

H₀: la proportion de déchets est ϖ₀, contre l’hypothèse:
H₁: la proportion de déchets est ϖ₁.

Le nombre de déchets dans l’échantillon est une variable aléatoire définie par les probabilités p₀(k) si H₀ est vraie et p₁(k) si c’est H₁:

p₀(k)= C_n^k ϖ₀^k(1-ϖ₀)^n-k
p₁(k)= C_n^k ϖ₁^k(1-ϖ₁)^n-k

La condition (1) s’écrit:

C_n^k ϖ₁^k (1-ϖ₁)^n-k < λ.C_n^k ϖ₀^k (1-ϖ₀)^n-k

Et, après simplification et passage aux logarithmes, on obtient:

k log(ϖ₀/ϖ₁) + (n-k) log(1-ϖ₀/1-ϖ₁) + log(λ) > 0

soit, pour ϖ₁>ϖ₀:

k < [n log(1-ϖ₁/1-ϖ₀) - log(λ)] / [log(ϖ₁/ϖ₀) - log(1-ϖ₁/1-ϖ₀)] = k_s

L’inégalité se réduit donc à k < k_s. Pour déterminer k_s, il suffit d’utiliser la condition (2) qui s’écrit:

∑₀^k_s C_n^k ϖ₀^k (1-ϖ₀)^n-k = 1-α

On notera que la région d’acceptation ne dépend pas de la valeur ϖ₁, c’est-à-dire de l’hypothèse H₁. Par contre, le risque de deuxième espèce en dépend puisque:

β = ∑₀^k_s C_n^k ϖ₁^k (1-ϖ₁)^n-k

Test sur une moyenne

Soit un échantillon de taille n prélevé dans une population normale d’écart-type σ connu, mais de moyenne μ inconnue. Considérons les hypothèses:

H₀: μ=μ₀
H₁: μ=μ₁

La région d’acceptation est définie par:

1/[(2π)^n/2σⁿ] e^{-1/2 ∑_i=1ⁿ (x_i-μ₁)²/σ²} < λ/[(2π)^n/2σⁿ] e^{-1/2 ∑_i=1ⁿ (x_i-μ₀)²/σ²}

expression que l’on peut écrire aussi:

∑_i=1ⁿ (x_i-μ₀)² - ∑_i=1ⁿ (x_i-μ₁)² < 2 σ² log(λ)

soit, en notant m la moyenne empirique m = 1/n ∑_i=1ⁿ x_i et en supposant que μ₁>μ₀:

m < (μ₀+μ₁)/2 + [σ² log(λ)]/[n(μ₁-μ₀)] = m_s

Pour définir m_s, il suffit d’écrire que:

Prob{M_n>m_s | μ=μ₀} = α,

où M_n désigne la variable aléatoire moyenne d’un échantillon de taille n. Remarquons que, dans ce deuxième exemple aussi, la région d’acceptation ne dépend pas de l’hypothèse H₁.

Cas d'hypothèses composites

En réalité, très souvent, le problème n’est pas de choisir entre deux hypothèses simples H₀ et H₁, mais entre une hypothèse simple H₀ et un ensemble plus ou moins vaste d’hypothèses H₁,..., H_i,..., H_n, ou même à un ensemble continu d’hypothèses H.

Dans ce cas, on peut se ramener au problème précédent en comparant successivement H₀ à chacune des hypothèses de l’ensemble H. Si, par exemple, on compare H₀ à H_i, la méthode exposée plus haut permet de trouver une région w_i telle que le risque de première espèce soit égal à α et que le risque de deuxième espèce β_i soit minimum. On obtient ainsi un ensemble de régions d’acceptation w₁, ..., w_i, ..., w_n et, dans le cas général, on ne peut pas aller plus loin.

Mais il existe un cas particulier très intéressant, celui où les différentes régions w_i ont une partie commune w. Dans ce domaine w, le test utilisé est dit uniformément le plus puissant (en abréviation de l’anglais: UMP). En effet, lorsque X tombe dans w, on est sûr que le risque de première espèce est égal à α et que le risque de deuxième espèce est minimum, quelle que soit l’hypothèse H vérifiée. Les deux exemples précédents constituent une illustration de ce cas, la région d’acceptation étant, comme nous l’avons souligné, indépendante de l’hypothèse H₁. Pas tout à fait cependant: notons, en effet, que nous avons supposé, respectivement dans chacun des deux exemples, que ϖ₁>ϖ₀ et que μ₁>μ₀.

Et nous avons abouti alors à des régions d’acceptation de la forme k<k_s et m<m_s telles que le risque α soit bloqué à l’une des extrêmités de la distribution de la variable étudiée.

Si donc il s’agit de comparer deux hypothèses de la forme: H₀: θ=θ₀ et H₁: θ>θ₀, on est conduit à ce qu’on appelle un test à droite, où le risque de première espèce est bloqué à droite.

Le test d’hypothèses de la forme H₀: θ=θ₀ et H₁: θ < θ₀, conduit à un test appelé test à gauche.

Dans le cas, enfin, d’hypothèses de la forme H₀: θ=θ₀ et H₁: θ ≠ θ₀, il apparait logique de répartir le risque α aux deux extrêmités de la distribution. Le test est alors un test symétrique.

2 - Tests usuels de comparaison à un standard

Rappel des lois outils usuelles

La détermination des régions d’acceptation nécessite la mise en oeuvre des lois de probabilité caractéristiques des échantillons prélevés dans des populations de référence spécifiées. D’où l’extrême importance d’une connaissance précise des lois de probabilité usuelles définies dans le chapitre précédent, mais que nous allons reprendre ici.

Loi normale réduite

Etant donnée une variable qui suit une loi normale de moyenne μ et d’écart-type σ, la variable:
```
U = (X-μ)/σ
```
est distribuée suivant une loi normale réduite (moyenne nulle et écart-type égal à 1).

Etant donnée la variable M_n = 1/n ∑_i=1ⁿ X_i, moyenne d’un échantillon de taille n prélevé dans une population normale (μ, σ), elle suit une loi normale de moyenne μ et d'écart-type σ/√n. Il en résulte que la variable: (M_n-μ)/(σ/√n) suit une loi normale réduite.
Loi du χ²

Etant données ν variables U₁, U₂,... , U_ν indépendantes et suivant des lois normales réduites, la variable:
```
χ_ν² = U₁² + U₂² +...+ U_ν²
```
suit une loi du χ² à ν degrés de liberté.

Il en résulte qu’étant donné un échantillon (X₁,..., X_i,..., X_n), prélevé dans une population normale (μ, σ), la variable:
```
χ_n² = ∑_i=1ⁿ [(X_i-μ)²]/σ²
```
suit une loi du χ² à n degrés de liberté.

Appelant S² = 1/n ∑_i=1ⁿ (X_i- M)² la variance de l’échantillon, la variable:
```
χ_n-1² = 1/σ² ∑_i=1ⁿ (X_i-M)² = nS²/σ²
```
suit une loi du χ² à (n-1) degrés de liberté.
Loi de Student

Etant données (ν+1) variables normales, réduites, indépendantes, la variable:
```
T_ν = U / √[1/ν∑_i=1^ν U_i²]
```
suit une loi de Student à ν degrés de liberté.

Il en résulte qu’étant données M et S² la moyenne et la variance d’un échantillon de taille n prélevé dans une population normale (μ, σ), la variable:
```
T_n-1 = (M-μ) / √[1/n (n.(n-1).S²)
```
(où n.(n-1).S² est l’estimateur sans biais de σ²) suit une loi de Student à (n-1) degrés de liberté.

Comparaison de la moyenne d’une population normale de variance s² connue à une valeur donnée µ₀

Nous allons procéder en 4 étapes.

Faisons l’hypothèse que la moyenne de la population est égale à μ₀:
- H₀: μ=μ₀, l’hypothèse alternative étant:
- H₁: μ≠ μ₀.
Il en résulte que la moyenne M d’un échantillon de taille n suit une loi normale de moyenne μ₀ et de variance σ²/n et que, par conséquent, la variable:
```
U = (M-μ₀)/(σ/√n)
```
suit une loi normale réduite.
Fixons nous un risque α que nous conviendrons de considérer comme négligeable.

Il en résulte un certain intervalle [-u_α/2, u_α/2] dans lequel la variable U a une probabilité (1-α) de tomber si l’hypothèse est exacte et, par conséquent, hors duquel U a une probabilité α petite de tomber. Négliger cette probabilité α, c’est considerer qu’il est impossible de trouver U en dehors de l’intervalle [-u_α/2, u_α/2], si l'hypothèse est vraie.
On calcule à partir des données de l'échantillon effectivement obtenu (x₁,..., x_n) la valeur u de U et on la situe par rapport à l'intervalle [-u_α/2, u_α/2]. On conclut alors de la façon suivante:
- si u tombe à l'extérieur de l'intervalle, on préfère rejeter l'hypothèse, en sachant toutefois qu'on assume le risque α de la rejeter à tort.
- si u tombe à l'intérieur de l'intervalle, cela ne signifie nullement, hélas, que l'hypothèse faite est vraie, mais seulement que les données recueillies ne sont pas en contradiction avec cette hypothèse.
Autrement dit, on est dans l'incapacité de conclure ni en faveur, ni en défaveur de l'hypothèse. On verra que dans les applications pratiques, cela est généralement moins génant qu'il n'y parait, parce que c'est contre un rejet, fait à tort, de l'hypothèse qu'il faut se prémunir, la conservation de l'hypothèse correspondant au statu quo.

Comparaison de la variance d’une population normale à une valeur donnée s₀²

Faisant l’hypothèse:

H₀ = σ² = σ₀²

la quantité:

χ² = nS²/σ₀² = 1/σ₀² ∑_i=1ⁿ (X_i- M)²

suit une loi du χ² à (n-1) degrés de liberté.

Il en résulte que, si l’hypothèse est vraie, nS²/σ₀² a la probabilité (1-α) de tomber dans l’intervalle [χ₁², χ₂²] où χ₁² et χ₂² sont lus dans la table de la loi du χ² à (n-1) degrés de liberté. Il suffit alors, comme précédement, de calculer la valeur nS²/σ₀² à partir des observations, de la placer par rapport à l’intervalle [χ₁², χ₂²] et enfin de conclure.

Comparaison de la moyenne d’une population normale (de variance inconnue) à une valeur donnée µ₀

Faisant l’hypothèse:

H₀: μ=μ₀

la quantité:

T = (M-μ₀) / √(S²/(n-1))

suit une loi de Student à (n-1) degrés de liberté. Le test revient à placer la quantité:

t = (m-μ₀)/(σ*/√n) (où σ*² = ns²/(n-1))

par rapport à l’intervalle [-t_α/2, t_α/2] lu dans la table de Student à (n-1) degrés de liberté.

Tests des appariements

Nous avons présenté, dans l’introduction du chapitre, le dispositif expérimental qui consiste, disposant de n parcelles, à diviser chacune de ces parcelles en deux, et à cultiver chaque parcelle en soumettant l’une des moitiés à un certain traitement et l’autre moitié à un autre traitement. A chaque parcelle correspondront, en fin de culture, deux rendements appariés.

Imaginons un autre exemple, dans lequel on veuille confronter deux appareils de mesure et que, pour ce faire, on utilise n supports en procédant, sur chacun d’eux, à deux mesures à l’aide des deux appareils soumis à examen. Les deux mesures seront dites appariées et les résultats obtenus se présenteront, en définitive, comme suit:

mesures 1: x₁, x₂,..., x_i,..., x_n
mesures 2: y₁, y₂,..., y_i,..., y_n

Soit d_i la différence d_i = (y_i - x_i) et soient m_d et σ_d* la moyenne et l'écart-type estimés des différences. On admet que les d_i sont des réalisations d’une variable D qui suit une loi normale. Le test de l’hypothèse H₀: E(D)=0 (pas d’influence du traitement ou pas de différence entre les appareils de mesures) est le test présenté au paragraphe précédent avec μ₀ = 0.

3 - Comparaison sur échantillons de deux populations normales

Comparaison des variances de deux populations normales

La comparaison de deux populations normales revient à se demander si elles ont même moyenne et même variance puisque ces deux paramètres suffisent à déterminer entièrement une distribution normale. Pour des raisons théoriques qui apparaitront dans un paragraphe suivant, la comparaison des variances doit précéder celle des moyennes.

Soient n₁ et s₁² la taille et la variance de l’échantillon extrait de la première population, et soient n₂ et s₂² la taille et la variance de l’échantillon extrait de la deuxième population. Nous savons que les estimations sans biais des variances σ₁² et σ₂² des deux populations s’écrivent:

σ₁*² = (n₁.s₁²)/(n₁-1) et σ₂*² = (n₂.s₂²)/n₂-1

Dans l’hypothèse d’égalité des variances des deux populations: σ₁² = σ₂² = σ², ces deux estimations ne diffèrent qu’en raison des aléas de l’échantillonnage. Il en est de même de leur quotient f= σ₁*²/σ₂*² qui ne diffère de 1 qu’à cause des aléas de l’échantillonnage.

Le statisticien Snedecor, auteur du test classique que nous allons présenter, a retenu cette forme et calculé la loi de probabilité de la variable:

F(ν₁,ν₂) = (χ₁²/ν₁)/(χ₂²/ν₂)

où χ₁² et χ₂² sont deux variables aléatoires indépendantes qui suivent des lois du χ² à ν₁ et ν₂ degrés de liberté.

Dans l’hypothèse d’égalité des variances des deux populations, si l’on désigne par S₁² et S₂² les variables, dont les variances des échantillons qui en sont extraits au hasard, sont des réalisations, n₁S₁²/σ² et n₂S₂²/σ² sont indépendantes et suivent des lois du χ² à (n₁-1) et (n₂-1) degrés de liberté. Il en résulte, par définition de cette variable, que le quotient:

F = [n₁S₁²/n₁-1] / [n₂S₂²/n₂-1]

suit une loi de Snedecor à (n₁-1) et (n₂-1) degrés de liberté. Par conséquent, la quantité:

f= σ₁*²/σ₂*²

est une réalisation, si l’hypothèse d’égalité des variances est vérifiée, d’une loi de Snedecor.

Cette loi définie, la suite des opérations est maintenant bien connue. Se fixant un seuil de probabilité α négligeable, on lit dans la table de Snedecor à (n₁-1) et (n₂-1) degrés de liberté les valeurs f₁ et f₂ correspondant au dessin ci-dessous.

Telles qu’elles sont présentées, les tables de la loi de Snedecor portent, en tête de colonnes, le nombre de degrés de liberté du numérateur ν₁ et, en tête de lignes, celui du dénominateur ν₂; elles fournissent, à l’intersection de la colonne ν₁ et de la ligne ν₂, la limite supérieure f₂ de l'intervalle d’acceptation. Elles fournissent donc, à l’intersection de la colonne ν₂ et de la ligne ν₁, la valeur 1/f₁ de l’intervalle d’acceptation.

Estimation de s²

En admettant que le résultat du test précédent ne s’oppose pas à l’hypothèse d’égalité des variances, il peut s’avérer utile d’estimer la valeur commune σ² des variances des deux populations.

Puisque n₁S₁²/σ² et n₂S₂²/σ² sont des variables indépendantes qui suivent des lois du χ², respectivement à (n₁-1) et (n₂-1) degrés de liberté leur somme (n₁S₁²+n₂S₂²)/σ² suit une loi du χ² à (n₁+n₂-2) degrés de liberté, dont la moyenne et la variance sont respectivement (n₁+n₂-2) et 2(n₁+n₂-2).

Il en résulte que la variable (n₁S₁²+n₂S₂²)/(n₁+n₂-2) est un estimateur sans biais et convergent de σ², puisque

E[(n₁S₁²+n₂S₂²)/(n₁+n₂-2)] = σ² et
σ²[(n₁S₁²+n₂S₂²)/(n₁+n₂-2)] = 2σ⁴/(n₁+n₂-2) → 0.

Par conséquent, la quantité:

σ*² = (n₁s₁²+n₂s₂²)/(n₁+n₂-2)

calculée à partir des observations, est une estimation sans biais de σ².

Comparaison des moyennes de deux populations normales

Dans l’hypothèse de populations normales, une fois testée l’égalité des variances, il suffit de tester l’égalité des moyennes pour pouvoir considérer que les populations sont identiques. Les raisons théoriques qui conduisent à présenter la comparaison des variances avant celle des moyennes peuvent, à ce stade, être explicitées. En effet, le test de comparaison des variances ne faisait aucune hypothèse sur l’égalité des moyennes. Par contre, le test d’égalité des moyennes implique l’égalité des variances. Il est donc nécessaire de vérifier cette égalité avant de s’intéresser aux moyennes.

Cela étant, soient deux populations normales P₁ et P₂ de moyennes μ₁ et μ₂, mais de même variance σ². Soient n₁ et n₂ les tailles de deux échantillons ℰ₁ et ℰ₂ prélevés au hasard respectivement dans chacune de ces deux populations; soient m₁ et m₂ leurs moyennes, et soient s₁² et s₂² leurs variances.

Dans ces conditions, il est permis de considérer que:

m₁ est une réalisation d’une variable M₁ normale, de moyenne μ₁ et de variance σ²/n₁,
m₂ est une réalisation d’une variable M₂ normale, de moyenne μ₂ et de variance σ²/n₂,
s₁² et s₂² sont des réalisations de variables S₁² et S₂² telles que la variable (n₁S₁² + n₂S₂²)/σ² suit une loi du χ² à (n₁+n₂-2) degrés de liberté et est indépendante de M₁ et M₂.

Faisons maintenant l’hypothèse que μ₁=μ₂=μ. Il en résulte que la variable (M₁ - M₂) suit une loi normale de moyenne nulle et de variance égale à la somme des variances de M₁ et M₂, c’est-à-dire à σ²(1/n₁ + 1/n₂). Par conséquent, la variable:

U= (M₁-M₂)/(σ√(1/n₁+1/n₂))

suit une loi normale réduite.

Pour éliminer la quantité σ inconnue, il suffit de considérer le quotient:

T = =

qui suit une loi de Student à (n₁+n₂-2) degrés de liberté. Pour simplifier l’écriture, on peut tenir compte de ce que figure, au dénominateur, l’expression de l’estimateur sans biais de σ². Par conséquent t = (m₁-m₂)/(σ*√(1/n₁+1/n₂) est une réalisation d’une loi de Student qu’il suffit, pour conclure, de placer par rapport à l’intervalle [-t_α/2, t_α/2] correspondant au risque α choisi.

Si t n’appartient pas à l’intervalle, on dit souvent que la différence entre les moyennes observées est significative au risque α et, sinon, qu’elle n’est pas significative.

Estimation de la différence des moyennes des populations

Si la différence observée entre les moyennes m₁ et m₂ des échantillons est significative (d’une différence entre les moyennes μ₁ et μ₂ des populations), il peut s’avérer utile d’estimer la différence Δ=μ₁-μ₂. La variable (M₁-M₂) est évidemment un estimateur sans biais de Δ. Quant à la détermination de l’intervalle de confiance, elle repose sur la prise en compte de la variable:

T =

qui suit une loi de Student à (n₁+n₂-2) degrés de liberté.

On a, par conséquent, au risque α près:

(m₁-m₂) - t_α/2 σ*√(1/n₁+1/n₂) < Δ < (m₁-m₂) + t_α/2 σ*√(1/n₁+1/n₂)

Exercices

Vous pouvez entrer la réponse sous forme décimale (1.33), fractionnaire (4/3), ou encore passer une expression numérique: (5.5+2.5)/3/2
Il y a une tolérance sur la réponse de 0.001. Soyez précis, et ne confondez pas probabilité et pourcentage !

Exercice 1

On a prélevé, au hasard dans une population normale de moyenne μ et d’écart-type σ, un échantillon de taille n=10. La moyenne et la variance calculées sur cet échantillon sont respectivement m=4 et s²=6.

Calculer une estimation sans biais de σ et son intervalle de confiance au risque 5%.
Tester l’hypothèse σ=2 au risque 5%.
En admettant σ connu égal à 2, tester l’hypothèse μ=3 au risque 5%.
Tester, au risque 5%, l’hypothèse μ = 3 sans faire aucune hypothèse sur la valeur de σ.
Calculer une estimation sans biais de μ et son intervalle de confiance au risque 5% sans faire aucune hypothèse sur la valeur de σ.
En admettant μ connu égal à 3, est-il possible d’envisager un test plus efficace que celui mis en oeuvre en b) pour tester l’hypothèse σ=2 ?

Cet exercice permet de poser les notions du chapitre et de faire le lien avec le chapitre 4.
En particulier, ne pas confondre intervalle de confiance d'une variable (questions a, e, cf. chapitre 4) et test d'hypothèse (questions b, c, cf. ce chapitre).

Exercice 2

Pour comparer les rendements de deux variétés de blé A et B, on a ensemencé 10 couples de deux parcelles voisines, l’une en variété A, l’autre en variété B, les 10 couples étant répartis dans des localités différentes. On a obtenu les résultats suivants:

Que peut-on conclure de ces résultats (Au risque alpha=5%)?

Calcul des paramètres
Moyenne échantillon
Variance échantillon
Écart-type empirique

Exercice sur les appariements. On va travailler sur la variable différence entre les 2 récoltes.

Exercice 3

On donne ci-après les pourcentages de matière grasse dans un aliment, déterminés sur 10 échantillons par deux méthodes d’analyse différentes A et B.

Comparer ces deux méthodes au risque alpha = 5%.

Calcul des paramètres
Moyenne échantillon
Variance échantillon
Écart-type empirique

Exercice sur les appariements, identique dans son raisonnement au 5.2. On va travailler sur la variable différence entre les 2 résultats.

Exercice 4

On a prélevé au hasard un échantillon ℰ₁ de taille n₁ = 10 dans une population normale P₁ de moyenne μ₁ et d’écart-type σ₁. La moyenne et la variance calculées sur cet échantillon sont respectivement m₁ = 4 et s₁² = 6.
On préleve au hasard un échantillon ℰ₂ de taille n₂ = 15 dans une population normale P₂ de moyenne μ₂ et d’écart-type σ₂. La moyenne et la variance calculées sur cet échantillon sont respectivement m₂ = 7 et s₂² = 20.

Tester l’hypothèse σ₂ = σ₁, au risque 5%.
Tester l’hypothèse σ₂ = 2σ₁, au risque 5%.
En admettant que σ₂ = 2σ₁, calculer une estimation sans biais de σ₁, à partir des deux échantillons, et son intervalle de confiance au risque 5%.
Utiliser un test du χ² pour tester simultanément les hypothèses σ² =4 et σ₁ =2.
En admettant que σ₂ = 2σ₁ = 4, tester, au risque 5%, l’hypothèse μ₂ = 2μ₁.
Calculer une estimation de μ₁ à partir des deux échantillons, en admettant que μ₂ = 2μ₁ et son intervalle de confiance au risque 5%.

a) hypothèse σ₂ = σ₁, au risque 5%.
Estimation variance 1
Estimation variance 2
Réalisation Snédécor
Paramètre Snédécor

b) hypothèse σ₂ = 2σ₁, au risque 5%.
Réalisation Snédécor
Paramètre Snédécor

Questions c à f
Voir solution

Comme le 5.1, cet exercice permet de poser les notions du chapitre et de faire le lien avec le chapitre 4. En particulier, ne pas confondre intervalle de confiance d'une variable et test d'hypothèse. Pour un exercice paramétré, voir exercice 5.1.

Exercice 5

Il y a des raisons de penser que l'épaisseur de la cire dont sont enduits des sacs en papier est plus irrégulière à l'intérieur qu'à l'extérieur. Pour le vérifier 75 mesures de l'épaisseur ont été faites et ont donné les résultats suivants:

surface intérieure: ∑x=71.25 et ∑ x² =91
surface extérieure: ∑y=48.75 et ∑ y² =84.

Faire un test pour déterminer, au risque 5%, si la variabilité de l'épaisseur de la cire est plus grande à l'intérieur qu'à l'extérieur des sacs.
Revenant à la loi de F, calculer l'intervalle de confiance à 95% du rapport des variances.

a) hypothèse σ₂ = σ₁, au risque 5%.
Estimation variance x
Estimation variance y
Paramètre Snédécor

b) Voir Solution

Exercice faisant appel à la loi de Snedecor. Dans le b), il faudra se ramener à la loi de F, cf. poly.

Exercice 6

Deux chaines de fabrication produisent des transistors. Des relevés effectués pendant 10 jours ont donné les résultats suivants:

ligne 1: m_x=2800 et ∑ (x-m_x)²=103600
ligne 2: m_y=2680 et ∑ (y-m_y)²=76400

On admettra que les écarts-type σ_x et σ_y sont inconnus mais égaux.

Peut-on conclure, au risque de 5%, à une différence entre les productions moyennes des deux lignes ?
Quel est l'intervalle de confiance à 95% de la différence ?

Il s'agit de la comparaison de deux distributions normales à partir de deux échantillons qui en sont issus. Ici, pas besoin de tester d'abord les écarts-types, on calcule la valeur d'un estimateur commun puis on testera l'hypothèse d'égalité des moyennes.

	12	15
9	3.87	3.77

Ch.5 Comparaisons Statistiques

Introduction

Tests d'hypothèse

Tests usuels de comparaison à un standard

Comparaison sur échantillons de deux populations normales

Exercices

Comparaisons statistiques

1 - Tests d'hypothèse

Théorie de Neyman et Pearson

Détermination de la région d'acceptation

Test sur une proportion

Test sur une moyenne

Cas d'hypothèses composites

2 - Tests usuels de comparaison à un standard

Rappel des lois outils usuelles

Comparaison de la moyenne d’une population normale de variance s² connue à une valeur donnée µ₀

Comparaison de la variance d’une population normale à une valeur donnée s₀²

Comparaison de la moyenne d’une population normale (de variance inconnue) à une valeur donnée µ₀

Tests des appariements

3 - Comparaison sur échantillons de deux populations normales

Comparaison des variances de deux populations normales

Estimation de s²

Comparaison des moyennes de deux populations normales

Estimation de la différence des moyennes des populations

Exercices

Exercice 1

Exercice 2

Exercice 3

Exercice 4

Exercice 5

Exercice 6

Ch.5 Comparaisons Statistiques

Introduction

Tests d'hypothèse

Tests usuels de comparaison à un standard

Comparaison sur échantillons de deux populations normales

Exercices

Comparaisons statistiques

1 - Tests d'hypothèse

Théorie de Neyman et Pearson

Détermination de la région d'acceptation

Test sur une proportion

Test sur une moyenne

Cas d'hypothèses composites

2 - Tests usuels de comparaison à un standard

Rappel des lois outils usuelles

Comparaison de la moyenne d’une population normale de variance s² connue à une valeur donnée µ0

Comparaison de la variance d’une population normale à une valeur donnée s0²

Comparaison de la moyenne d’une population normale (de variance inconnue) à une valeur donnée µ0

Tests des appariements

3 - Comparaison sur échantillons de deux populations normales

Comparaison des variances de deux populations normales

Estimation de s²

Comparaison des moyennes de deux populations normales

Estimation de la différence des moyennes des populations

Exercices

Exercice 1

Exercice 2

Exercice 3

Exercice 4

Exercice 5

Exercice 6

Comparaison de la moyenne d’une population normale de variance s² connue à une valeur donnée µ₀

Comparaison de la variance d’une population normale à une valeur donnée s₀²

Comparaison de la moyenne d’une population normale (de variance inconnue) à une valeur donnée µ₀