WORLD BANK - PRÉDICTION DE REVENUS

Mise en contexte:
La banque dans laquelle nous travaillons souhaite cibler de nouveaux clients potentiels, plus particulièrement les jeunes en âge d'ouvrir leur tout premier compte bancaire. Cependant, elle souhaite cibler les prospects les plus susceptibles d'avoir, plus tard dans leur vie, de hauts revenus. L'équipe dans laquelle vous travaillez a donc reçu pour mission de créer un modèle permettant de déterminer le revenu potentiel d'une personne. "Quelles informations avons-nous ?" demandions-nous à notre supérieur, qui nous répond : "À vrai dire... quasiment aucune : uniquement le revenu des parents, car nous allons cibler les enfants de nos clients actuels, ainsi que le pays où ils habitent. C'est tout ! Ah oui, une dernière chose : ce modèle doit être valable pour la plupart des pays du monde. Je vous laisse méditer là-dessus… Bon courage !" Ainsi, je proposerai une régression linéaire avec 3 variables : - Le revenu des parents. - Le revenu moyen du pays dans lequel habite le prospect. - L'indice de Gini calculé sur les revenus des habitants du pays en question. Les données: On m'a confié un fichier (que nous appellerons "df") qui contient les données de la World Income Distribution, datée de 2008. Cette base de données est composée principalement d'études réalisées au niveau national pour bon nombre de pays, et contient les distributions de revenus des populations concernées.J'ai également téléchargé les indices de Gini estimés par la Banque mondiale, disponibles à cette adresse. Libre à moi de trouver également d'autres sources, ou de recalculer les indices de Gini à partir de la World Income Distribution. Il me faudra également récupérer le nombre d'habitants de chaque pays présents dans ma base. Mon travail sera alors segmenté en 4 missions distinctes.

Mission 1 : Résumer les données utilisées: - Années des données utilisées. - Nombre de pays présents. - Population couverte par l'analyse (en termes de pourcentage de la population mondiale). Les données de la World Income Distribution présentent pour chaque pays les quantiles de la distribution des revenus de leur population respective. Nous appellerons ici chaque quantile une classe de revenu. Ainsi, la valeur de la colonne income pour un quantile donné peut être vue comme le revenu moyen des personnes appartenant à la classe de revenu correspondante à ce quantile.

Mission 2 :
  • Montrer la diversité des pays en termes de distribution de revenus à l'aide d'un graphique. Celui-ci représentera le revenu moyen (axe des ordonnées, sur une échelle logarithmique) de chacune des classes de revenus (axe des abscisses) pour 5 à 10 pays que j'aurais choisis pour montrer la diversité des cas.
  • Représenter la courbe de Lorenz de chacun des pays choisis.
  • Pour chacun de ces pays, représenter l'évolution de l'indice de Gini au fil des ans.
  • Classer les pays par indice de Gini. Donner la moyenne, les 5 pays ayant l'indice de Gini le plus élevé et les 5 pays ayant l'indice de Gini le plus faible.

  • Mission 3 : Dans l'état actuel, nous avons à disposition deux des trois variables explicatives souhaitées : - mj le revenu moyen du pays j. - Gj l'indice de Gini du pays j. Il nous manque donc, pour un individu i, la classe de revenu c_i_parents de ses parents, quel que soit le nombre de parents de i. Nous allons donc simuler cette information grâce à un coefficient pj (propre à chaque pays j) mesurant une corrélation entre le revenu de l'individu i et le revenu de ses parents. C'est le coefficient d'élasticité, il mesure la mobilité intergénérationnelle du revenu. Pour chaque pays, nous allons utiliser une génération aléatoire de la classe de revenu des parents, à partir de ces seules deux informations : - Le coefficient d'élasticité pj. - La classe de revenu de l'enfant c_i_child. Nous utiliserons un protocole détaillé afin de générer une simulation aléatoire de 500 individus pour chaque classe de revenus de chaque pays (ce qui nous fera plus de 5 millions d'individus).

    Mission 4 : Nous chercherons maintenant à expliquer le revenu des individus en fonction de plusieurs variables explicatives : le pays de l'individu, l'indice de Gini de ce pays, la classe de revenus des parents, etc. Nous appliquerons une ANOVA sur nos données, en n’incluant comme variable explicative que le pays de l’individu et nous analyserons la performance du modèle. Pour chacune des régressions suivantes, je testerai 2 versions : l'une en exprimant le revenu moyen du pays et les revenus (parents & enfants) en logarithme (ln), l'autre en les laissant tels quels, afin de choisir la version la plus performante. Nous appliquerons une régression linéaire sur nos données, en incluant comme variables explicatives uniquement le revenu moyen du pays de l’individu et l’indice de Gini du pays de l’individu, et en tirerons le pourcentage de variance expliquée par votre modèle. Selon ce modèle, nous donnerons la décomposition de variance totale expliquée par : - Le pays de naissance (ie. le revenu moyen et l’indice de Gini) ; - Les autres facteurs non considérés dans le modèle (efforts, chance, etc.). On améliorera le modèle précédent en incluant maintenant la classe de revenu des parents pour en tirer le pourcentage de variance expliquée par ce nouveau modèle. En observant le coefficient de régression associé à l’indice de Gini, nous verrons si l'on peut affirmer que le fait de vivre dans un pays plus inégalitaire favorise plus de personnes qu’il n’en défavorise. Selon ce dernier modèle, nous donnerons la décomposition de variance totale expliquée par : - Le pays de naissance et le revenu des parents - Les autres facteurs non considérés dans le modèle (efforts, chance, etc.)