LA NATURE DE L'ANALYSE DE LA RÉGRESSION :






    1- ORIGINE HISTORIQUE DU TERME RÉGRESSION

Le terme de régression a été introduit par Francis Galton. Dans un article célèbre, Galton a constaté que, même si les parents de grande taille avaient tendance à avoir de grands enfants et que les parents de petite taille avaient de petits enfants, la taille des enfants de parents exceptionnellement grands ou inhabituellement courts tend à se déplacer vers la taille moyenne de la population. La loi de régression universelle de Galton a été confirmée par son ami Karl Pearson, qui a recueilli plus de mille enregistrements de hauteurs de membres de groupes familiaux. Selon Galton, il s’agissait d’une «régression à la médiocrité».

    2-  L'INTERPRÉTATION MODERNE DE LA RÉGRESSION

L'interprétation moderne de la régression est cependant très différente. En gros, on peut dire :
L'analyse de régression porte sur l'étude de la dépendance d'une variable, la variable dépendante, sur une ou plusieurs autres variables, les variables explicatives, en vue d'estimer et / ou de prédire la moyenne ou les termes des valeurs connues ou fixes (en échantillonnage répété) de ces dernières.
L'importance de cette vue de l'analyse de régression deviendra plus claire au fur et à mesure de notre progression.

   3- RELATIONS STATISTIQUES OU DÉTERMINISTES

En analyse de régression nous nous intéressons à ce que l'on appelle la dépendance statistique, non fonctionnelle ou déterministe, entre des variables telles que celles de la physique classique. Dans les relations statistiques entre variables, nous traitons essentiellement des variables aléatoires ou stochastiques, c'est-à-dire des variables ayant des distributions de probabilité. En revanche, dans la dépendance fonctionnelle ou déterministe, nous traitons également des variables, mais ces variables ne sont ni aléatoires ni stochastiques.
La dépendance du rendement des cultures sur la température, les précipitations, l'ensoleillement et les engrais, par exemple, est de nature statistique en ce sens que les variables explicatives, bien que certainement importantes, ne permettront pas à l'agronome de prédire le rendement des cultures avec exactitude en raison des erreurs de mesure. Ces variables ainsi que de nombreux autres facteurs (variables) qui affectent collectivement le rendement mais peuvent être difficiles à identifier individuellement. Ainsi, il y aura forcément une certaine variabilité «intrinsèque» ou aléatoire dans le rendement d'une culture dépendante qui ne peut pas être entièrement expliquée, quel que soit le nombre de variables explicatives considérées.
Dans les phénomènes déterministes, en revanche, nous traitons avec des relations du type, disons, présenté par la loi de la gravité de Newton, qui stipule: Chaque particule dans l'univers attire toute autre particule avec une force directement proportionnelle au produit de leurs masses et inversement proportionnelle au carré de la distance qui les sépare. Autre exemple est la loi d’Ohm, qui stipule: Pour les conducteurs métalliques sur une plage de température limitée, le courant C est proportionnel à la tension V. La loi de Boyle sur le gaz, la loi de Kirchhoff sur l’électricité et la loi de Newton sur la mobilité, sont d’autres exemples de ces relations déterministes.

   4-  RÉGRESSION ET CAUSATION :

Bien que l'analyse de régression traite de la dépendance d'une variable par rapport à d'autres variables, elle n'implique pas nécessairement un lien de causalité. Selon Kendall et Stuart, «une relation statistique, aussi forte soit-elle, ne puisse jamais établir un lien de causalité: nos idées sur la causalité doivent provenir de statistiques extérieures, en définitive d'une théorie ou d'une autre».
Dans l'exemple de rendement des cultures cité précédemment, il n'y a aucune raison statistique de supposer que les précipitations ne dépendent pas du rendement des cultures. Le fait que nous traitons le rendement des cultures dépendant (entre autres) de la pluviosité est dû à des considérations non statistiques: Le sens commun suggère que la relation ne peut pas être inversée, car nous ne pouvons pas contrôler les précipitations en faisant varier le rendement des cultures.
Dans tous les exemples cités, il convient de noter qu’une relation statistique ne peut en soi impliquer logiquement un lien de causalité. Pour imputer une causalité, il faut faire appel à des considérations a priori ou théoriques. Ainsi, dans la théorie keynésienne de la consommation, on peut invoquer la théorie économique en affirmant que les dépenses de consommation dépendent du revenu réel.

5  5-  REGRESSION ET CORRELATION



L'analyse de corrélation est étroitement liée à l'analyse de régression mais en est très différente conceptuellement. L'objectif principal est de mesurer la force ou le degré d'association linéaire entre deux variables. Le coefficient de corrélation mesure cette force d'association (linéaire). Par exemple, nous pourrions être intéressés par la corrélation (coefficient) entre le tabagisme et le cancer du poumon, entre les scores aux examens de statistiques et de mathématiques, entre les notes de lycée et les notes collégiales, etc. Comme nous l’avons déjà noté, dans l’analyse de régression, une telle mesure ne nous intéresse pas principalement. Au lieu de cela, nous essayons d'estimer ou de prédire la valeur moyenne d'une variable sur la base des valeurs fixes d'autres variables. Ainsi, nous voudrons peut-être savoir si nous pouvons prédire le score moyen d’un examen de statistiques en connaissant le score d’un élève à un examen de mathématiques.
La régression et la corrélation présentent des différences fondamentales qu'il convient de mentionner. Dans l'analyse de régression, il existe une asymétrie dans le traitement des variables dépendantes et explicatives. La variable dépendante est supposée être statistique, aléatoire ou stochastique, c'est-à-dire avoir une distribution de probabilité. Les variables explicatives, en revanche, sont supposées avoir des valeurs fixes (échantillonnage répété).
En revanche, dans l’analyse de corrélation, nous traitons toutes les variables (deux) de manière symétrique; il n'y a pas de distinction entre les variables dépendantes et explicatives. Après tout, la corrélation entre les résultats aux examens de mathématiques et de statistiques est la même que celle entre les résultats aux examens de statistiques et de mathématiques. De plus, les deux variables sont supposées être aléatoires.  La plupart des théories de la corrélation reposent sur l'hypothèse du caractère aléatoire des variables, alors que la plupart des théories de régression sont conditionnelles à l'hypothèse selon laquelle la variable dépendante est stochastique, mais les variables explicatives sont fixes ou  non stochastique.

0 Comments:

Enregistrer un commentaire