1- ORIGINE HISTORIQUE
DU TERME RÉGRESSION
Le terme de régression a été introduit par Francis Galton.
Dans un article célèbre, Galton a constaté que, même si les parents de grande
taille avaient tendance à avoir de grands enfants et que les parents de petite
taille avaient de petits enfants, la taille des enfants de parents
exceptionnellement grands ou inhabituellement courts tend à se déplacer vers la
taille moyenne de la population. La loi de régression universelle de Galton a
été confirmée par son ami Karl Pearson, qui a recueilli plus de mille enregistrements
de hauteurs de membres de groupes familiaux. Selon Galton, il s’agissait d’une
«régression à la médiocrité».
2- L'INTERPRÉTATION
MODERNE DE LA RÉGRESSION
L'interprétation moderne de la régression est cependant très
différente. En gros, on peut dire :
L'analyse de régression porte sur l'étude de la dépendance
d'une variable, la variable dépendante, sur une ou plusieurs autres variables,
les variables explicatives, en vue d'estimer et / ou de prédire la moyenne ou
les termes des valeurs connues ou fixes (en échantillonnage répété) de ces
dernières.
L'importance de cette vue de l'analyse de régression
deviendra plus claire au fur et à mesure de notre progression.
3- RELATIONS STATISTIQUES OU
DÉTERMINISTES
En analyse de régression nous nous intéressons à ce que l'on
appelle la dépendance statistique, non fonctionnelle ou déterministe, entre des
variables telles que celles de la physique classique. Dans les relations
statistiques entre variables, nous traitons essentiellement des variables
aléatoires ou stochastiques, c'est-à-dire des variables ayant des distributions
de probabilité. En revanche, dans la dépendance fonctionnelle ou déterministe,
nous traitons également des variables, mais ces variables ne sont ni aléatoires
ni stochastiques.
La dépendance du rendement des cultures sur la température,
les précipitations, l'ensoleillement et les engrais, par exemple, est de nature
statistique en ce sens que les variables explicatives, bien que certainement
importantes, ne permettront pas à l'agronome de prédire le rendement des
cultures avec exactitude en raison des erreurs de mesure. Ces variables ainsi
que de nombreux autres facteurs (variables) qui affectent collectivement le
rendement mais peuvent être difficiles à identifier individuellement. Ainsi, il
y aura forcément une certaine variabilité «intrinsèque» ou aléatoire dans le
rendement d'une culture dépendante qui ne peut pas être entièrement expliquée,
quel que soit le nombre de variables explicatives considérées.
Dans les phénomènes déterministes, en revanche, nous
traitons avec des relations du type, disons, présenté par la loi de la gravité
de Newton, qui stipule: Chaque particule dans l'univers attire toute autre
particule avec une force directement proportionnelle au produit de leurs masses
et inversement proportionnelle au carré de la distance qui les sépare. Autre
exemple est la loi d’Ohm, qui stipule: Pour les conducteurs métalliques sur une
plage de température limitée, le courant C est proportionnel à la tension V. La
loi de Boyle sur le gaz, la loi de Kirchhoff sur l’électricité et la loi de
Newton sur la mobilité, sont d’autres exemples de ces relations déterministes.
4- RÉGRESSION ET
CAUSATION :
Bien que l'analyse de régression traite de la dépendance
d'une variable par rapport à d'autres variables, elle n'implique pas
nécessairement un lien de causalité. Selon Kendall et Stuart, «une relation
statistique, aussi forte soit-elle, ne puisse jamais établir un lien de
causalité: nos idées sur la causalité doivent provenir de statistiques
extérieures, en définitive d'une théorie ou d'une autre».
Dans l'exemple de rendement des cultures cité précédemment,
il n'y a aucune raison statistique de supposer que les précipitations ne
dépendent pas du rendement des cultures. Le fait que nous traitons le rendement
des cultures dépendant (entre autres) de la pluviosité est dû à des
considérations non statistiques: Le sens commun suggère que la relation ne peut
pas être inversée, car nous ne pouvons pas contrôler les précipitations en
faisant varier le rendement des cultures.
Dans tous les exemples cités, il convient de noter qu’une
relation statistique ne peut en soi impliquer logiquement un lien de causalité.
Pour imputer une causalité, il faut faire appel à des considérations a priori
ou théoriques. Ainsi, dans la théorie keynésienne de la consommation, on peut
invoquer la théorie économique en affirmant que les dépenses de consommation
dépendent du revenu réel.
5 5- REGRESSION ET CORRELATION
L'analyse de corrélation est étroitement liée à l'analyse de
régression mais en est très différente conceptuellement. L'objectif principal
est de mesurer la force ou le degré d'association linéaire entre deux variables.
Le coefficient de corrélation mesure cette force d'association (linéaire). Par
exemple, nous pourrions être intéressés par la corrélation (coefficient) entre
le tabagisme et le cancer du poumon, entre les scores aux examens de
statistiques et de mathématiques, entre les notes de lycée et les notes
collégiales, etc. Comme nous l’avons déjà noté, dans l’analyse de régression,
une telle mesure ne nous intéresse pas principalement. Au lieu de cela, nous
essayons d'estimer ou de prédire la valeur moyenne d'une variable sur la base
des valeurs fixes d'autres variables. Ainsi, nous voudrons peut-être savoir si
nous pouvons prédire le score moyen d’un examen de statistiques en connaissant
le score d’un élève à un examen de mathématiques.
La régression et la corrélation présentent des différences
fondamentales qu'il convient de mentionner. Dans l'analyse de régression, il
existe une asymétrie dans le traitement des variables dépendantes et
explicatives. La variable dépendante est supposée être statistique, aléatoire
ou stochastique, c'est-à-dire avoir une distribution de probabilité. Les
variables explicatives, en revanche, sont supposées avoir des valeurs fixes
(échantillonnage répété).
En revanche, dans l’analyse de corrélation, nous traitons
toutes les variables (deux) de manière symétrique; il n'y a pas de distinction
entre les variables dépendantes et explicatives. Après tout, la corrélation
entre les résultats aux examens de mathématiques et de statistiques est la même
que celle entre les résultats aux examens de statistiques et de mathématiques.
De plus, les deux variables sont supposées être aléatoires. La plupart des théories de la corrélation
reposent sur l'hypothèse du caractère aléatoire des variables, alors que la
plupart des théories de régression sont conditionnelles à l'hypothèse selon
laquelle la variable dépendante est stochastique, mais les variables
explicatives sont fixes ou non
stochastique.
0 Comments:
Enregistrer un commentaire