-
recueil de données
-
Quelques définitions
-
Population
- vaste ensemble d’unités statistiques regroupées au titre
d’une caractéristique commune
-
EXEMPLE
- la population peut être constituée
- d'objets
- les HLM
- les pièces fabriquées par une machine
- ..
- d’évènements
- accidents de la route
- décès
- ..
- de personnes
- les habitants de Paris
- les agriculteurs,
- les personnes privées d’emploi,
- les personnes souffrant de troubles cardiaques
- ..
- ..
-
échantillon
- sous-ensemble de la population.
-
Unités statistiques
-
éléments (objets ou sujets)
sur lesquels
- on va prélever une ou plusieurs information(s)
- sur lesquels on va opérer une ou plusieurs mesure(s)
-
Variable
- caractéristique étudiée chez des unités statistiques et
susceptible de prendre différentes valeurs ou états.
-
EXEMPLE
- la taille
- le QI
- le poids
- la note obtenue au baccalauréat de Français
- la couleur préférée
- ...
-
Modalités
- ce sont les différent(e)s valeurs ou états possibles d’une variable
-
la variable « sexe »
possède deux modalités :
- la modalité « homme »
- la modalité « femme »
- lorsque numérique : on parle de valeurs
-
Propriétés :
-
Exhaustivité :
toute unité statistique mesurée doit être présente
au moins dans une modalité possible de la variable
- sexe : (rien)
-
Exclusivité :
toute unité statistique mesurée doit être présente au plus dans
une modalité possible de la variable.
- sexe : homme, femme
- conclusion : 1 seule modalité
-
Application
-
situation
- un chercheur se demande si, en CM2, les garçons ont de
meilleures performances en géographie que les filles (relation entre le
sexe et la performance).
-
Topic
-
La population impliquée est ...
- Les élèves en CM2
-
les échantillons sont
- les garçons en CM2
- les filles en CM2
-
Les unités statistiques sont …
- les élèves (un par un)
-
les variables
- performance
- sexe
-
modalités
- pour la première variable
- note allant de 0 à 20
- pour la deuxième variable
- sexe : homme/femme
-
Echelle de mesure
-
definition
- ensemble des modalités d’une variable
-
différents cas
-
Echelle nominale
-
propriétés
- pas de hierachie
-
Topic
- sexe
- nom de famille
- oui/non/peut-être
-
si seulement 2 modalités
- => nominale dichotomique
-
Echelle ordinale
-
propriétés
- une hierarchie
- mais pas proprités numérique
-
Topic
- pas du tout » / « un peu » / « moyennement »/« très » / « tout à fait »
- classement dans la classe (1er, 2m, etc..)
-
Echelle d’intervalle
-
propriétés
- une hierarchie
- "propriété numérique"
- => On peut mesurer l'écart
entre deux valeurs (certains nombre d'unités)
- => Les différentes modalités successives d’une échelle
d’intervalle sont donc séparées par des intervalles égaux
-
Topic
- taille
- poids
- note en classe
- ...
-
mesures et représentations
-
Le tri à plat
-
prérequis
-
pourcentage et fréquence
- pourcentage
- 100*(effectif/effectif total)
- fréquence
- effectif/effectif total
- par conséquent : pourcentage/100
-
différence entre effectifs
et effectifs cumulés
- effectif :
- permet de savoir "combien de personnes ont X"
- effectifs cumulés
(croissants en l'occurence)
- Permet de savoir
"combien de personnes ont X ou moins"
- conséquence : necessite d'avoir
des valeurs ordonnées (echelle ordinale)
- de la même manière on parlera de
- Effectifs cumulés croissants
- Fréquences cumulées croissantes
- Pourcentages cumulés croissants
-
comment construire un tri à plat ?
-
On construit un tableau au sein duquel on reporte sur
la première ligne la liste de toutes les modalités possibles de la variable.
- + une colonne "total" qui permettra de noter l'effectif total
et de vérifier vos calculs de fréquences et d'effectifs
- Sur la deuxième ligne, on fait correspondre,
à chacune de ces modalités, l’effectif qui lui est associé.
- Sur la troisième ligne, on fait correspondre, à chacune de ces modalités,
la fréquence ou le pourcentage qui lui est associé.
- Si et seulement si la variable est ordinale ou d’intervalle : sur une quatrième ligne, on indique
la suite des effectifs cumulés croissants et sur une cinquième ligne, la suite des fréquences ou pourcentages cumulés croissants.
-
representations graphiques
des données
-
echelle nominale
- camembert
- diagramme en batons
- diagramme en étoile
-
echelle ordinale
-
histogramme
- =diagramme en baton "collés"
- excel fait ça très bien
-
représentations numériques des
données
-
Indice de position
- permet de résumer (souvent assez grossierement) des données
-
le mode
- il s’agit de la modalité la plus fréquente de la distribution
-
la médiane
- la médiane est la modalité qui partage
l’ensemble des observations en deux « moitiés » d’effectifs égaux
- Topic
- méthode
- on cherche le moment ou l'effectif cumulé va dépasser l'effectif total / 2
- 2 cas
- soit on est entre 2 modalités (comme dans l'exemple ci dessus)
et on prend le milieu (8.5 en l'occurence)
- soit on est sur une modalité, ce sera la mediane
- pour le tableau jaune la médiane est sur
"parfois" car :
- l'effectif total/2 = 60
- 25 < 60
- 25 + 40 > 60
-
La moyenne
- m = somme des observations / nombre d’observations
- la moyenne de 12, 14 et 15 est 12+14+15 / 3 = 13,6
- en se servant d'un tableau d'effectifs
- Topic
- permet simplement de remplacer 13 +13+13 par 13x3
- Topic
- Topic
-
Indice de dispersion
- un indice de dispersion indique à quel point une distribution
est regroupée (ramassée) ou, au contraire dispersée (étalée), autour de
l’indice de position utilisé
-
Intervalle de variation (étendue)
- xmax - xmin
- Topic
- Topic
-
Les quartiles
- même principe que pour la médiane mais pour
- Q1 : 25 %
- Q2 : 50 %
- correspond à la médiane
- Q3 : 75 %
- Topic
- Topic
- déciles, centiles...
-
écart-type
- Topic
- c'est la racine de la variance
- Topic
- Topic
- Topic
-
la boîte à moustache
- Topic
-
Eléments importants à retenir
pour les statistiques descriptives
-
Topic
-
Population
-
échantillon
- unité statistique
- variable
- modalités suivent une échelle
- nominales
- ordinales
- intervalle de valeur
- une des trois
-
quelques représentations
- tableau (effectifs, frequences, fréquence cumulés,
pourcentage, pourcentage cumulé etc...)
- histogramme
- diagramme à moustache
- savoir lire et construire
-
quantités importantes
- moyenne
- variance et écart type
-
loi normale
-
prérequis
-
comprendre ce qu'est une
variable aléatoire
- on peut le comprendre comme
un élément pris au hasard
-
exemple
- le poids d'un élève
-
convention
- on la note souvent X si il n'y en a qu'une
-
à quoi ça sert
- par exemple de pouvoir écrire : P(X>70)=0.5
- ce qui se comprendrait comme : si je prends le poids d'un élève choisi au hasard
la probabilité que son poids dépasse 70 kilos est de 0.5
-
comprendre ce qu'est une distribution
-
Définition
- l’ensemble des valeurs xi que prend cette variable associé à
l’ensemble des pourcentages (Pi) d’apparition de ces valeurs xi.
-
dans la pratique
- Il y a différent type de hasard, la distribution vous informe de la manière
dont le hasard particulier que vous étudiez s'exprime
- exemples
- distribution associée à l'experience de
la piece de monnaie
- => (pile,1/2),(face,1/2)
- loi uniforme entre 0 et 1
- => autant de chance de tomber
- entre 0 et 0,3
- ou entre 0,3 et 0.6
- car les segments
sont de longueurs égales
-
comment
les représenter
- par une loi de probabilité
- = courbe dont l'aire en dessous
nous indique les probabilités désirées
- pour la loi uniforme entre 0 et 1
- Topic
- l'aire grise correspond à la probabilité de "tomber entre a et b "
(ce qui s'écrit P(a<X<b) )
- conséquence importante
- l'aire totale fait toujours 1
- cela sert beaucoup dans la pratique
-
Vocabulaire
- on peut parler aussi de loi de probabilité
- on dit qu'une variable aléatoire suit une
distribution/loi .... (gaussienne par exemple) de paramètre ....
(si il y a des paramètres)
-
Définition de la loi normale
-
définition exacte
- l'équation de cette loi de probabilité n'est pas necessaire
pour les calculs que vous aurez à faire
-
juste pour la curiosité :
- Topic
- avec µ la moyenne et sigma l'écart type
-
ce qu'il faut savoir
- c'est une loi très fréquente
dans les phénomènes aléatoires
-
elle a une forme de cloche
- Topic
- on l'appelle aussi la loi gaussienne
-
elle a deux paramètres
- la moyenne
- et l'écart type
- on écrira X~N(m,s) pour dire que X suit une gaussienne de
moyenne m et d'écart type s
-
comment utiliser la loi normale ?
-
calculer une probabilité =
trouver l'aire sous la courbe
-
exemple
- Topic
- aire barrée en orange = probabilité de
trouver un individu dont la taille est supérieure à
1m80
- comment la calculer
-
premier problème
- l'aire sous la courbe ne peut pas se calculer facilement
- donc on utilise des calculs qui ont déjà été fait ( cf la table de la loi normale centrée réduite)
-
deuxième problème
- on ne peut pas faire ces calculs pour toutes les gaussiennes possibles
-
on fait ses calculs pour une seule gaussienne
- de moyenne : 0
- de variance : 1
- on l'appelle donc la loi normale centrée réduite
- Topic
- la deuxième image est interessante car elle vous donne la probabilité
"de tomber" dans un intervalle de 1, 2 ou 3 écart-types de la moyenne
- à un écart type près
- 68% des échantillons
- 2 écarts types
- 95 % des échantillons
- 3 écarts types
- 99.7 %
- cela reste vrai quelque soit
la moyenne et l'écart type !
- si on a X~N(14,3) alors P(14 - 3 < X < 14 + 3 ) = 68 %
- cela n'est pas à apprendre par coeur mais peut vous donner une idée
des probabilités que vous allez trouvez selon "à combien d'écart type"
vous vous écartez de la moyenne.Cela peut donc être pratique pour vérifier d'un coup d'oeil
la vraissemblance de votre résultat
- on établit des règles pour passer d'un problème comme celui vu plus haut (avec la taille)
à un problème sur la loi normale centrée réduite
-
dans la pratique
- On transforme la quantité désirée (ici 180) en une valeur qui correspondra au même problème
mais avec la gaussiène centrée réduite (voir dessin)
- Topic
-
FORMULE :
- z0 = (x0 - m)/s
- m : moyenne
- s : écart-type
- avec x0 la mesure dont on veut la transformée
- et zo la nouvelle mesure
-
d'un point de vue mathématique on peut écrire
- P(X>x0)=P(Z>z0) avec Z~N(0,1)
- revoir la note de cours sur les variables
si cette notation vous semble difficile
-
DERNIERE ETAPE
- on cherche dans la table de la loi normale centrée réduite
la quantité associée au z0 ainsi trouvé
- c'est la probabilité recherchée
-
vocabulaire
-
on dit que
- z0 est la transformée en z de x0
- ou
- z0 est la valeur centrée réduite associée à x0