1°) Le langage statistique.

Le mot " statistique " vient du latin " status " qui signifie état. Une étude statistique consiste à observer et à étudier une particularité commune chez un groupe de personnes ou de choses. Les personnes ou les choses sont ce que l’on appelle des individus. Le groupe formé par ces individus est dénommé population. Cette particularité est elle appelée caractère.

Par exemple, on peut étudier les notes obtenues par les élèves d’une classe à un devoir. La population considérée est celle de la classe. Tous les individus de cette population présentent la particularité d’avoir une note. C’est le caractère.

L’étude statistique commence par un recueil de données. Par exemple dans le cadre des notes obtenues par une classe, on a que l’individu X a obtenu par exemple la note de 10.

Les différentes valeurs pouvant être prises par un caractère portent le nom de modalité. Ainsi par exemple, 10 est une modalité que peut prendre la caractère note. 15 est une autre modalité possible de ce même caractère.

Mais savoir que tel individu présente telle modalité est peu parlant d’un point de vue global. Par contre savoir combien d’individus présentent cette modalité est nettement plus intéressant. Par modalité, on compte est le nombre d’individus qui la présentent.

Ainsi obtient-on une série statistique à une variable (sous-entendu un seul caractère est pris en compte et étudié).

En voici quelques exemples :

 

Série statistique No.1 : Etude de la population formée par les députés nouvellement élus selon leur appartenance politique.

Parti PCF PS PRS DVG Ecolo. Divers UDF RPR DVD FN
Nombre 38 241 12 21 7 1 108 134 14 1

PRS : Parti Radical Socialiste – DVG : Divers Gauche – DVD : Divers Droite.

Le caractère " appartenance politique " est un caractère qualitatif. Les modalités présentées par les individus sont PCF, PS, PRS… Ce sont des valeurs caractéristiques. On les qualifie de qualité. D’où le nom de caractère qualitatif !

 

Série statistique No.2 : Etude de la population formé par la classe 501 selon leur moyenne en maths au troisième trimestre.

Note 3 5 6 7 8 9 10 12 13 14 15 16
Nombre 1 2 3 3 7 3 2 2 3 3 2 2

Nombre d’élèves ayant obtenu la note.

Le caractère " moyenne en maths " est un caractère quantitatif discret. Quantitatif car la moyenne de chaque individu est un nombre. Discret car la moyenne ne prend être égale qu’à un nombre limité de valeurs.

 

Série statistique No.3 : Etude de la population française selon le temps passé quotidiennement devant le petit écran.

Temps moins de 1h.
[0 heure ; 1 h[
Entre 1 et 2h.
[1 h ; 2 h[
Entre 2 et 3h.
[2 h ; 3 h[
Entre 3 et 4h.
[3 h ; 4 h[
Plus de 4 h.
[4 h ; 5 h[
Pourcentage 10,1 15,1 17,1 16 41,7

Une personne peut regarder la télévision pendant 2 heures 38 alors qu’une autre peut ne la regarder que durant 2 heures 40. Pour un responsable publicitaire, cette différence de deux minutes n’est pas très parlante. De plus, connaître le temps exact que l’on passe devant le petit écran n’est pas une chose aisée. On le sait toujours à peu prés mais jamais exactement. C’est pour cette raison que l’on regroupe les modalités (2 heures 38 par exemple) en ce que l’on appelle des classes qui sont en fait des intervalles de modalités (par exemple l’intervalle [2 heures ; 3 heures[).

Ce caractère est dit quantitatif (car on peut le compter ou le mesurer) continu car un grand nombre de modalités pouvant être prises, on les regroupe en plage continue ou en intervalle de valeurs.

 

Effectifs, fréquences et cumulés…

L’effectif d’une modalité est le nombre d’individus de la population étudiée vérifiant la dite modalité. Par exemple dans l’étude No.1, l’effectif de la modalité UDF est de 108 car 108 députés sont apparentés à l’UDF.

La fréquence d’une modalité est le quotient de l’effectif de la dite modalité par le nombre d’individus composant la population étudiée. Par exemple, la fréquence de la modalité UDF est de 18,72% (c’est-à-dire 108 / 577).

Afin de rendre une étude plus lisible et plus exploitable, on peut regrouper entre elles certaines modalités proches. On les regroupe en classe. Par exemple dans la série statistique No.1, on peut mettre d’un côté toutes les modalités qui sont plutôt de gauche (à savoir PCF, PS, PRS, Ecolo., DVG) et de l’autre toutes celles qui sont plutôt de droite (UDF, RPR et DVD). La série statistique No.1 devient alors une série statistique 1.b.

Classe Gauche
(PCF + PS + PRS + …)
Droite
(RPR + UDF + DVD)
Reste
(FN + Divers)
Effectif 319 256 2

L’effectif cumulé de la classe " gauche " est de 319 individus. La fréquence cumulée de cette même classe est 55,29 %.

 

 

2°) Les différents indicateurs d’une série statistique.

La moyenne.

On ne peut parler de moyenne que pour un caractère de type quantitatif. En effet faire la moyenne de toutes les modalités politiques n’est guère évident !

Quant la série a un caractère quantitatif discret (c’est le cas de la série 1), il est aisé de calculer la moyenne. On sait combien d’individus présentent telle valeur (ou modalité).

Dans le cadre d'une série à caractère quantitatif discret, une formule donne la moyenne :

Par exemple, la moyenne de la série statistique No.1 est égale à 9,76 c’est-à-dire

Dans le cas d’une série à caractère quantitatif continu, on procède légèrement différemment. A proprement parler, ce n’est pas une moyenne que l’on calcule mais une estimation de la moyenne.

Pour l’exemple, nous allons le faire avec la série statistique No.3.

Pour chaque classe, on calcule la "valeur moyenne" de la classe. Par exemple, dans ceux qui regardent la télé entre 1 et 2 heures, il y a ceux qui la regardent 1 heure 12 et ceux qui la contemplent pendant 1 heure 57. Pour compenser le déficit de l’un par l’excédent de l’autre, on décide qu’en moyenne tous les individus de cette classe la regardent pendant 1 heure 30 ou 1,5 heure. C’est le milieu de l’intervalle.

Pour calculer cette estimation de la moyenne, on utilisera la formule en vigueur pour une série à caractère quantitatif et discret en remplaçant chaque modalité xi par la valeur moyenne trouvée pour cette i-ème classe.

Il faut donc calculer :

Ainsi la moyenne du temps passé devant ce meuble si réussi, est de 3,14 heures.

 

La variance et l’écart type.

Deux séries statistiques peuvent avoir à peu de choses prés la même moyenne tout en étant totalement différentes.

Les deux séries statistiques ci-dessus représentent les températures moyennes mensuelles observées à San Francisco et Tokyo. Il s’agit là de deux séries statistiques dont les individus sont les mois de l’année et le caractère étudié est la température moyenne au cours du dit mois.

Ces deux séries présentent à peu prés la même moyenne. A savoir 13,7° pour San Francisco et 13,5° pour Tokyo. Mais les températures semblent plus dispersées au Japon qu’en Californie. Pour mettre en valeur cette dispersion, on a créé deux indicateurs : la variance et l’écart-type.

Par exemple, pour San Francisco le calcul de la variance est donné par :

D'où une variance égale à 1,95 (Ce n'est en fait qu'une valeur approchée)..

Pour obtenir l’écart-type, il suffit de prendre la racine carrée de 1,95 soit 1,39.

Tokyo affiche une variance de 7,8 soit un écart-type de 2,79. Une dispersion des températures plus grande du côté nippon entraîne une variance et un écart-type nettement plus élevés.

L’écart-type traduit en fait une distance moyenne existant entre la modalité de chaque individu et la moyenne.

L’écart-type est de la même grandeur que le caractère. C’est-à-dire que si le caractère est une mesure en mètre alors l’écart-type est aussi une mesure en mètre. C’est la racine carrée de cette somme de carrée qui en est la cause.

 

Calcul de la variance pour une série à caractère quantitatif discret.

Nous avons déjà vu une formule permettant de calculer la moyenne dans ce cas précis. Nous allons en voir une pour la variance.

Grâce à cette formule, nous pouvons calculer la variance de la série statistique No.1 qui est égale à 12,3. Ce qui nous donne un écart-type égal à 3,5.

Cette formule peut être simplifiée. Nous admettrons que :

Pour savoir comment l’on obtient cette formule simplifiée de la variance, cliquer sur le bouton ci-dessous.

 

Calcul de la variance pour une série à caractère quantitatif continu.

Comme dans le cas de la moyenne, c’est la formule d’une série à caractère quantitatif discret qui s’applique en remplaçant toutefois xi par le milieu de la i-ème classe.


Cette page ainsi que la quasi-totalité des éléments et de la programmation qui la composent ou qui en dépendent, ont été conçus et réalisés par Jérôme ONILLON. Elle est exclusivement mise en ligne par la taverne de l'Irlandais.
(c) AMLTI Aout 1997/Novembre 1998/Janvier 2003. Tous droits réservés.