Analyse des régressions logistiques

Comme l'analyse des régressions linéaires multiples, l'analyse des régressions logistiques multiples est de caractériser les relations entre une variable dépendante (ou variable à expliquer Y) et plusieurs variables prises en compte simultanément (X1, X2, X3, . . . Xn).

 

Dans le modèle de régression linéaire multiple, la variable à expliquer (Y) est exprimée en fonction d’un intercept (ou ordonnée à l’origine) a0, des variables explicatives (Xi) rattachées à leurs coefficients ai et à un terme de bruit ε :

y = a0 + a1x1 + · · · + apxp + ε.

 

Mais dans le modèle de régression logistique multiple c'est le logit de la probabilité (p) de la réalisation de la variable à expliquer (Y) qui est exprimé en fonction d’un intercept (ou ordonnée à l’origine) a0, et des variables explicatives (Xi) rattachées à leurs coefficientsai et à un terme de bruit ε :

Ln(p/(1-p)) = logit(p) = a0 + a1x1 + ··· + apxp + ε .

 

En outre, à la différence de la régression linéaire (où la variable à expliquer est une variable quantitative), la régression logistique s’applique lorsque la variable à expliquer (Y) est qualitative. Les variables explicatives (Xi) peuvent être qualitatives ou quantitatives.

 

La régression logistique est une méthode permettant de distinguer « l’effet propre » de chaque variable explicative Xi des« effets parasites » induits par les autres variables (appelées « covariables »).Cela permet ainsi de contrôler l’effet de possibles facteurs de confusion, de diminuer le bruit de fond induit par ces covariables, d’améliorer la précision de l’estimation et de réaliser un ajustement de l’odds ratio (OR) sur des covariables (on parle d’OR ajusté).

 

L'OR fournit une information sur la force et le sens de l’association entre une variable explicative (Xi) et la variable à expliquer (Y).L’OR (ou rapport des cotes), est une mesure de dépendance entre deux variables, il est toujours positif et compris entre 0 et +∞. Lorsqu’il vaut 1, les deux variables sont indépendantes. Au contraire, plus l’OR est proche de 0 ou de+∞, plus les variables sont liées entre elles.

 

La régression logistique constitue alors une méthode de choix pour rechercher et déterminer les facteurs de risque ou les facteurs de succès d’une action,tout en tenant compte des facteurs de confusion. Il faut cependant garder à l’esprit que l’identification d’une liaison entre une variable expliquée (Y) et une ou des variables explicatives (Xi) ne témoigne pas forcément d’un lien de causalité et il convient de garder une certaine prudence dans l’interprétation des résultats.

 

Comme pour la construction du modèle de régressions linéaires, certaines conditions d’application doivent être vérifiées pour réaliser une régression logistique. Outre l'absence de colinéarité entre les variables explicatives,il convient d’avoir un nombre suffisant d’objets/ évènements par rapport au nombre de variables explicatives (Xi). La règle générale est d’avoir au moins dix fois plus d’objets que de variables explicatives potentielles. Enfin, il faut estimer non seulement la qualité du modèle en comparant les prédictions du modèle aux données réelles, mais aussi sa capacité de généralisation en testant sa capacité à prédire correctement la valeur de Y lorsque les objets/ évènements n'appartiennent pas au tableau T(n,p) utilisé pour construire le modèle (bootstraping, crossvalidation, ...).

 

On trouvera un exemple d'application dans l'onglet Perceptions des auvergnats.

 

Contact

© 2014 Tous droits réservés.

Créer un site internet gratuitWebnode