1. La logique de l'inférence statistique
    1. inférer
      1. inférer ~= déduire
      2. passer du connu à l'inconnu
        1. connu
          1. Les mesures prises sur un échantillon
        2. inconnu
          1. = ce qu'elles peuvent vouloir dire
      3. => mesurer la crédibilité d'une mesure
        1. échantillon trop petit = risqué
          1. il serait "faux" de généraliser à partir de trop peu d'observations
          2. le poids moyen d'une université à partir de la mesure de seulement 2 de vos camarades
        2. échantillon trop grand= couteux
          1. mesurer le poids de l'ensemble des lycéens
        3. à partir de combien d'observations peut on "croire" à un résultat ?
      4. le but des statistiques inférentielles est de quantifier cette imprédictibilité
        1. = quel est la probabilité que la moyenne de poids que j'ai mesuré soit en désaccord de 10 kilos avec la moyenne réelle ?
          1. = P( |m-µ| > 10 )
          2. avec m : moyenne mesurée
          3. avec µ : moyenne de l'échantillon
        2. = la crédibilité d'un résultat se traduit par une probabilité d'erreur
          1. souvent calculable
        3. l'intuition, elle, peut être trompeuse
        4. Dans la vie de tous les jours on attend pas d'avoir suffisament d'observations pour en tirer des résultats significatifs.
    2. théorie Vs pratique
      1. les calculs peuvent être effectués par une machine, mais le raisonnement qui vous poussera à utiliser une formule ou une autre doit être parfaitement maitrisé
      2. ce raisonnement est logique et se passe d'un bagage mathématique
      3. il est possible de s'en sortir avec des connaissances minimales de type "dans ce type de situation j'utilise telle formule" mais cela :
        1. limite votre capacité d'adaptations à certains problèmes
        2. et vous fait prendre des risques (incapacité de saisir l'absurdité d'une démarche) en effet une analyse superficielle d'un problème de stats peut induire très vite des erreurs, car on rentre dans un processus de solution non adapté
      4. aptitude désirée
        1. connaître les "recettes" et les raisons et conditions d'utilisation des recettes
  2. Population et échantillon
    1. 2 classes de questions
      1. à quel point je peux connaître la population en m'intéressant à un échantillon de cette population
      2. ou
      3. si je connais la population, à quel point les mesure que je prendrai dans l'échantillon sont proches
      4. Laplace
        1. Connaître l'urne à partir des billets qu'on tire
        2. ou
        3. prévoir les billets qu'on tire à partir de la connaissance de l'urne
    2. vocabulaire important
      1. différents indices
        1. Indice concernant la population = paramètre
          1. on la note en lettre grecque
          2. c'est une constante
          3. Topic
        2. Indice concernant un échantillon = statistique
          1. on la note en lettre latine
          2. c'est une variable aléatoire qui suit une distribution
          3. Topic
          4. moyenne : m
          5. ecart type : E
          6. on l'apelle l'erreur-type
          7. variance : s
          8. fréquence : f
          9. probabilité : p
          10. contrairement au paramètre, la statistique est une variable aléatoire
      2. statistique de test
        1. forme normalisée d'une statistique (statistique avec des paramètres prédeterminés)
        2. pourquoi recourir à une statistique de test
          1. les statistiques suivent des distributions ont des paramètres, comme on peut pas prévoir toutes ces distribution, on met en place une transformation de la statistique pour que cette nouvelle statistique (statistique de test) suive une distribution avec des paramètres normalisés
        3. lorsque on avait X ~ N (µ,s) on posait z=(X-µ)/s et on a alors z ~ N ( 0 , 1 ) ce qui permet de se ramener à des valeurs précalculées. (voir cours précédent ou exercices précédents si cet exemple ne vous dit rien)
      3. distribution d'échantillonnage
        1. = distribution d'une statistique
        2. elle dépend de la taille de l'échantillon
          1. son écart-type (appelé alors erreur-type) diminue en fonction de la taille de l'échantillon
        3. en effet si par exemple on mesure un poids moyen, au plus on prend d'observations, au plus la probabilité que la moyenne mesurée soit proche de la moyenne véritable augmente
      4. d'autres distributions sont décrites en fiche 7 il n'est pas utile des les avoir en tête, notez simplement ces différents points :
        1. il ne faut pas confondre la distribution d'une statistique et d'une variable
          1. lors des derniers exercices nous avons travaillé avec la distribution d'une variable en supposant par exemple que la note des élèves suivaient une loi normale ce cas est rare.
          2. la distribution d'une statistique serait par exemple la distribution de la moyenne des notes prise sur un échantillon
        2. la distribution d'une variable est quelque chose qu'on connait souvent mal -> pas d'équation mathématique
          1. si on veut avoir une vue synthétique de la distribution de ces variables, il est d'usage de construire un histogramme
        3. Cela n'empêche pas de connaître la distribution d'une statistique issue de ces variables
          1. en d'autres termes on prévoit souvent mieux la moyenne des variables que les variables elles-mêmes
          2. le "théorème central limite" explique par exemple que la distribution de la moyenne de variables issues d'une même distribution (dont on ne connait que la moyenne et l'écart type) va pouvoir être décrite par une gaussienne dont on a les paramètres
          3. C'est ce qu'explique plus ou moins l'encadré DE1 en fiche 12 je vous propose en exercice une formulation plus claire et plus utilisable dans la pratique
  3. intervalle de confiance
    1. permet de fixer un intervalle dans lequel on est sur à (par exemple) N% que l'estimation est correcte
    2. Exemple
      1. " il y a 95% de chance que la population française aie des intentions de vote pour Mr X entre 40 et 50 %"
    3. permet de quantifier l'imprédicitibilité d'une mesure
    4. lien avec les tests d'hypothèses
      1. SI
        1. Ho
      2. ALORS
        1. on a un intervalle de confiance [P1, P2] de 95 %
      3. OR
        1. la statistique est en dehors de cet intervalle
      4. DONC
        1. on rejète Ho
      5. c'est le raisonnement classique en test d'hypothèse
  4. TEST DE SIGNIFICATION
    1. la fiche 10 est excellente et suffisamment concise.
      1. lisez là
    2. quelques points qui me paraissent importants
      1. on pose Ho de manière à pouvoir fixer un paramètre pour faire calculs
        1. on parle bien ici de l'indice concernant la population (cf vocabulaire important)
      2. ne pas pouvoir rejeter l'hypothèse nulle n'est pas synonyme d'acceptation
      3. c'est pour cela qu'on effectue un raisonnement par l'absurde
        1. "si je veux montrer H1, je montre que H0 (qui est sa négation) est aberrante d'un point de vue statistique"
      4. analogie avec la justice
        1. le risque de condamner un innocent est différent du risque d'innocenter un coupable
          1. cas où on libère tout le monde
          2. risque d'enfermer un innocent : 0
          3. risque de libérer un coupable : élevé
          4. cas où on enferme tout le monde
          5. risque d'enfermer un innocent : élevé
          6. risque de libérer un coupable : 0
      5. limite de l'analogie
        1. En statistiques un seul des deux risques est facilement calculable, c'est pourquoi il y a un cas ou on peut conclure (coupable), et un cas ou on ne peut rien dire (pas assez de preuve)
          1. la démarche est de supposer innocent, et de regarder si les faits sont incompatibles (mauvais alibi etc..)
        2. En justice la présomption d'innocence tient de l'éthique tandis que dans le cas des statistiques on choisit de se baser sur l'hypothèse qui fixe des paramètres pour un calcul.
          1. généralement un seul des risques est calculable, celui de rejet Ho à tord : C'est la p value
          2. il existe des cas où on peut calculer les 2 risques
          3. Topic
          4. les notes de Jean suivent une gaussienne N(12,3) celles de Pierre suivent un gaussienne N(16,1) Une copie sans nom avec la note 14 appartient soit à Jean soit à Pierre. On peut calculer les risques de rejeter H0 "la copie appartient à Jean" à tord où de l'accepter à tord.
    3. Topic
      1. on cherche à prouver qu'un médicament induit un effet sur les notes d'un élève (on suppose que en temps normal ses notes suivent une loi normale de moyenne 13 et d'écart-type 2. Après avoir pris ce médicament, il obtient un N, peut-on dire que cela a induit un effet ?
        1. On prend l'hypothèse inverse : il n'y a pas d'amélioration
        2. Cela fixe les paramètres de la distribution supposée de l'élève -> N(13,2)
          1. En effet si on avait pris pour hypothèse qu'il y avait modification, on n'aurait pas pu fixer des paramètres proprement
        3. On peut calculer P(X≥N)
          1. exercice classique
        4. 2 cas
          1. 1
          2. cette valeur est inférieure à 5%
          3. on juge alors que cela ne peut être du au hasard
          4. on rejette l'hypothèse nulle
          5. => on conclut "il y a amélioration"
          6. 2
          7. cette valeur est supérieure à 5%
          8. => on ne peut rien dire
        5. Topic
          1. Si on se posait la question : "y a t-il modification du niveau après prise du médicament"
          2. alors on est plus sévère sur les conditions de rejets
          3. valeur inférieure à 5% sur la bilatérale externe
          4. ou 2.5% sur l'unilatérale externe
          5. explication mathématique :
          6. on se demande si P(|X| ≥N ) < 5 %
          7. donc 5% sur la bilatérale externe
          8. or comme P( |X| ≥ N ) = 2x P ( X ≥ N )
          9. donc 2.5% sur l'unilatérale externe