Introduction
Nous avons vu comment modéliser une variable dépendante Y, de type continue, à l’aide de la régression linéaire
Cependant, dans un très grand nombre d’applications, la variable réponse d’intérêt Y peut prendre uniquement deux valeurs possibles, et peut ainsi être représentée par une variable indicatrice binaire prenant les valeurs 0 et 1.
Exemples
Est-ce que le client a fait un achat lors de sa dernière visite sur le nouveau site Web transactionnel de l’entreprise ?
Réponses possibles : oui ou non.
Est-ce que le client nous a quitté pour un concurrent au cours des 12 derniers mois ?
Réponses possibles : oui ou non.
Questions
Est-ce qu’on peut prédire à l’aide des variables indépendantes X1, X2, …, Xp (qualitatives et/ou quantitatives) caractérisant le client, la probabilité d’un oui (ou d’un non) pour la réponse ?
Ou encore,
Est-ce qu’on peut déterminer quelles sont les variables indépendantes X1, X2, …, Xp (qualitatives et/ou quantitatives) caractérisant le client, qui sont importantes pour expliquer la probabilité d’un oui (ou d’un non) pour la réponse ?
Exemple
Un analyste étudie l’effet du nombre de mois d’expérience des experts dans le développement de sites Web transactionnels et la capacité de ces derniers de livrer la marchandise telle que promis dans les délais prévus, selon la complexité du site à développer.
Réponses possibles : livré dans les délais prévus oui ou non;
variable indépendante : nombre de mois d’expérience de l’expert.
Exemple (suite)
Modélisation
Considérons le modèle de régression linéaire simple :
Yi = 0 + 1Xi + i Yi = 0 ou 1, i=1,…,n
Et puisque E( i )= 0 , nous obtenons
E(Yi)= 0 + 1Xi
De plus, nous avons :
P(Yi = 1)= pi et P(Yi = 0)= 1 – pi avec pi [o,1]
Donc, E(Yi)= 1x pi + 0x(1 – pi ) = pi
Et ainsi, E(Yi)= 0 + 1Xi = pi
Exemple (suite)
Problèmes avec la modélisation linéaire pour une réponse oui/non
Les erreurs ne sont pas distribuées selon une loi normale
les variances ne sont pas constantes pour chaque valeur de Xi
mais le problème le plus important est que E(Yi)= 0 + 1Xi n’est pas contrainte à prendre des valeurs entre 0 et 1, alors que pi représente une probabilité qui doit prendre des valeurs dans l’intervalle [0,1].
Documentul este oferit gratuit,
trebuie doar să te autentifici in contul tău.