Analyse des régressions linéaires
L'analyse des régressions multiples consiste à estimer les contributions respectives des variables X1, X2, .. Xi, Xp d'un tableau de mesures T(n,p) à la valeur d'une variable quantitative Xjde ce tableau, renommée Y. Les variables X1, X2, .. Xi, Xpsont qualifiées de variables explicatives potentielles -- ou variables exogènes (2); Y est qualifiée de variable à expliquer -- ou variable endogène. On trouvera une application de cette méthode dans Economie des territoires (Méta analyse du coefficient multiplicateur de la base économique des territoires).
Dans ce but, pour chaque objet oi de T(n,p), on cherche les coefficients mutiplicateurs a1,a2,...ai, ap, qui, affectés aux valeurs des variable X1, X2, .. Xi, Xp -- permettraient en sommant les produits a1X1, a2X2 ... d'obtenir une valeur aussi proche que possible -- à la valeur εiprés -- de la valeur observée Yi.
On obtient ainsi n équations -- qualifiées d'équations de régression, qui s'écrivent :
y1 = a0 + a1x1;1 + · · · + apx1;p + ε 1
y2 = a0 + a1x2,1 + · · · + apx2,;p + ε 2
...
yn = a0 + a1xn,1 + · · · + apxn,;p + ε n
Ce qui peut être résumé par la présentation matricielle comme suit :
où yi est la i-ème observation de la variable Y ; Xi;j est la i-ème observation de la j-ème variable ; εi
nommée "erreur d'estimation", résume les informations manquantes qui permettrait d'expliquer linéairement les valeurs de Y à l'aide des p variables Xj. Soit encore de manière plus compacte par y=Xa + ε
Le travail consiste donc à chercher les valeurs des p composantes du vecteur des régresseurs a = {a1,a2,ai,... ap} qui minimisent la somme des carrés des résidus (∑(yi−a0−a1x1;1−...−apx1;p) 2
Ce qui s'écrit sous forme matricielle : a = (X'X)-1 X'Y , avec X' = transposée de X ;
X'X = matrice de variance des variables exogènes = matrice des corrélations entre Y et X1, X2, .. Xi, Xp.
L'évaluation globale de la pertinence du modèle de prédiction s'appuie sur l'équation d'analyse de variance SCT = SCE + SCR, où:
SCT, somme des carrés totaux, traduit la variabilité totale de l'endogène ;
SCE, somme des carrés expliqués, traduit la variabilité expliquée par le modèle ;
SCR, somme des carrés résiduels correspond à la variabilité non-expliquée par le modèle.
Le coefficient de détermination R2= SCE/SCT=1-SCR/SCT permet de traduire la variance expliquée par le modèle. R=sqrt(R2) est le coefficient de corrélation multiple. Toutefois, le R ² ne permet pas de savoir si le modèle est statistiquement pertinent pour expliquer les valeurs de y. Dans ce but, on se réfère au test de Fisher : F=(R2/p)/((1-R2)/(n-p-1)).