-
La logique de l'inférence statistique
-
inférer
- inférer ~= déduire
-
passer du connu à l'inconnu
-
connu
- Les mesures prises sur un échantillon
-
inconnu
- = ce qu'elles peuvent vouloir dire
-
=> mesurer la crédibilité d'une mesure
-
échantillon trop petit = risqué
- il serait "faux" de généraliser à partir de trop
peu d'observations
- le poids moyen d'une université à partir
de la mesure de seulement 2 de vos camarades
-
échantillon trop grand= couteux
- mesurer le poids de l'ensemble des lycéens
- à partir de combien d'observations
peut on "croire" à un résultat ?
-
le but des statistiques inférentielles
est de quantifier cette imprédictibilité
-
= quel est la probabilité que la moyenne de poids que j'ai mesuré
soit en désaccord de 10 kilos avec la moyenne réelle ?
- = P( |m-µ| > 10 )
- avec m : moyenne mesurée
- avec µ : moyenne de l'échantillon
-
= la crédibilité d'un résultat se
traduit par une probabilité d'erreur
- souvent calculable
- l'intuition, elle, peut être trompeuse
- Dans la vie de tous les jours on attend pas d'avoir
suffisament d'observations pour en tirer des résultats
significatifs.
-
théorie Vs pratique
- les calculs peuvent être effectués par une machine, mais
le raisonnement qui vous poussera à utiliser une
formule ou une autre doit être parfaitement maitrisé
- ce raisonnement est logique et se passe d'un bagage mathématique
-
il est possible de s'en sortir avec des connaissances minimales de type
"dans ce type de situation j'utilise telle formule" mais cela :
- limite votre capacité d'adaptations à certains problèmes
- et vous fait prendre des risques (incapacité de saisir l'absurdité d'une démarche)
en effet une analyse superficielle d'un problème de stats peut induire
très vite des erreurs, car on rentre dans un processus de solution non adapté
-
aptitude désirée
- connaître les "recettes" et les raisons et
conditions d'utilisation des recettes
-
Population et échantillon
-
2 classes de questions
- à quel point je peux connaître la population en m'intéressant à un échantillon de cette population
- ou
- si je connais la population, à quel point les mesure que je prendrai dans l'échantillon sont proches
-
Laplace
- Connaître l'urne à partir des billets qu'on tire
- ou
- prévoir les billets qu'on tire à partir de la connaissance
de l'urne
-
vocabulaire important
-
différents indices
-
Indice concernant la population
= paramètre
- on la note en lettre grecque
- c'est une constante
- Topic
-
Indice concernant un échantillon
= statistique
- on la note en lettre latine
- c'est une variable aléatoire qui suit une distribution
- Topic
- moyenne : m
- ecart type : E
- on l'apelle l'erreur-type
- variance : s
- fréquence : f
- probabilité : p
- contrairement au paramètre, la statistique
est une variable aléatoire
-
statistique de test
- forme normalisée d'une statistique
(statistique avec des paramètres prédeterminés)
-
pourquoi recourir à une statistique de test
- les statistiques suivent des distributions ont des paramètres, comme
on peut pas prévoir toutes ces distribution, on met en place une
transformation de la statistique pour que cette nouvelle statistique
(statistique de test) suive une distribution avec des paramètres normalisés
- lorsque on avait X ~ N (µ,s) on posait z=(X-µ)/s et on a alors
z ~ N ( 0 , 1 ) ce qui permet de se ramener à des valeurs précalculées.
(voir cours précédent ou exercices précédents si cet exemple ne vous dit rien)
-
distribution d'échantillonnage
- = distribution d'une statistique
-
elle dépend de la taille de l'échantillon
- son écart-type (appelé alors erreur-type)
diminue en fonction de la taille de l'échantillon
- en effet si par exemple on mesure un poids moyen, au plus
on prend d'observations, au plus la probabilité que la moyenne mesurée soit
proche de la moyenne véritable augmente
-
d'autres distributions sont décrites en fiche 7 il n'est pas utile des les avoir en tête,
notez simplement ces différents points :
-
il ne faut pas confondre la distribution
d'une statistique et d'une variable
- lors des derniers exercices nous avons travaillé avec la distribution d'une variable
en supposant par exemple que la note des élèves suivaient une loi normale
ce cas est rare.
- la distribution d'une statistique serait par exemple la distribution
de la moyenne des notes prise sur un échantillon
-
la distribution d'une variable est quelque chose qu'on connait souvent mal
-> pas d'équation mathématique
- si on veut avoir une vue synthétique de la distribution
de ces variables, il est d'usage de construire un histogramme
-
Cela n'empêche pas de connaître la distribution
d'une statistique issue de ces variables
- en d'autres termes on prévoit souvent mieux la moyenne
des variables que les variables elles-mêmes
- le "théorème central limite" explique par exemple
que la distribution de la moyenne de variables issues d'une
même distribution (dont on ne connait que la moyenne et l'écart type)
va pouvoir être décrite par une gaussienne dont on a les paramètres
- C'est ce qu'explique plus ou moins l'encadré DE1 en fiche 12
je vous propose en exercice une formulation plus claire
et plus utilisable dans la pratique
-
intervalle de confiance
- permet de fixer un intervalle dans lequel
on est sur à (par exemple) N% que l'estimation est correcte
-
Exemple
- " il y a 95% de chance que la population française
aie des intentions de vote pour Mr X entre 40 et 50 %"
- permet de quantifier l'imprédicitibilité d'une mesure
-
lien avec les tests d'hypothèses
-
SI
- Ho
-
ALORS
- on a un intervalle de confiance [P1, P2] de 95 %
-
OR
- la statistique est en dehors de cet intervalle
-
DONC
- on rejète Ho
- c'est le raisonnement
classique en test d'hypothèse
-
TEST DE SIGNIFICATION
-
la fiche 10 est excellente
et suffisamment concise.
- lisez là
-
quelques points qui me paraissent importants
-
on pose Ho de manière à pouvoir
fixer un paramètre pour faire calculs
- on parle bien ici de l'indice
concernant la population (cf vocabulaire important)
- ne pas pouvoir rejeter l'hypothèse nulle n'est pas synonyme d'acceptation
-
c'est pour cela qu'on effectue un raisonnement par l'absurde
- "si je veux montrer H1, je montre que H0 (qui est sa négation)
est aberrante d'un point de vue statistique"
-
analogie avec la justice
-
le risque de condamner un innocent est différent
du risque d'innocenter un coupable
- cas où on libère tout le monde
- risque d'enfermer un innocent : 0
- risque de libérer un coupable : élevé
- cas où on enferme tout le monde
- risque d'enfermer un innocent : élevé
- risque de libérer un coupable : 0
-
limite de l'analogie
-
En statistiques un seul des deux risques
est facilement calculable, c'est pourquoi il y a un cas
ou on peut conclure (coupable), et un cas ou on ne peut rien dire (pas assez de preuve)
- la démarche est de supposer innocent, et de regarder
si les faits sont incompatibles (mauvais alibi etc..)
-
En justice la présomption d'innocence tient de l'éthique
tandis que dans le cas des statistiques on choisit de se baser sur l'hypothèse qui
fixe des paramètres pour un calcul.
- généralement un seul des risques est calculable, celui de rejet Ho à tord :
C'est la p value
- il existe des cas où on peut calculer les 2 risques
- Topic
- les notes de Jean suivent une gaussienne N(12,3)
celles de Pierre suivent un gaussienne N(16,1)
Une copie sans nom avec la note 14 appartient soit à Jean soit à Pierre.
On peut calculer les risques de rejeter H0 "la copie appartient à Jean" à tord
où de l'accepter à tord.
-
Topic
-
on cherche à prouver qu'un médicament
induit un effet sur les notes d'un élève (on suppose
que en temps normal ses notes suivent une
loi normale de moyenne 13 et d'écart-type 2.
Après avoir pris ce médicament, il obtient un N, peut-on dire
que cela a induit un effet ?
- On prend l'hypothèse inverse : il n'y a pas d'amélioration
-
Cela fixe les paramètres de la distribution supposée de l'élève -> N(13,2)
- En effet si on avait pris pour hypothèse qu'il y avait
modification, on n'aurait pas pu fixer des paramètres proprement
-
On peut calculer P(X≥N)
- exercice classique
-
2 cas
- 1
- cette valeur est inférieure à 5%
- on juge alors que cela ne peut être du au hasard
- on rejette l'hypothèse nulle
- => on conclut "il y a amélioration"
- 2
- cette valeur est supérieure à 5%
- => on ne peut rien dire
-
Topic
- Si on se posait la question :
"y a t-il modification du niveau après prise du médicament"
- alors on est plus sévère sur les conditions de rejets
- valeur inférieure à 5% sur la bilatérale externe
- ou 2.5% sur l'unilatérale externe
- explication mathématique :
- on se demande si P(|X| ≥N ) < 5 %
- donc 5% sur la bilatérale externe
- or comme P( |X| ≥ N ) = 2x P ( X ≥ N )
- donc 2.5% sur l'unilatérale externe