Subscribe to be notified for updates: RSS Feed

Le Scoring

ciblage-scoring-clientDéfinition :
A partir de l’observation du comportement passé ou présent un score consiste à rechercher un modèle pour prédire le comportement futur ou un élément inconnu.
On cherche les caractéristiques qui influencent (positivement ou négativement) un phénomène.
Objectif : permettre d’estimer la probabilité d’apparition d’un événement.
Démarche :

  1. Cadrage de l’étude
  2. Recueil, audit et préparation des données
  3. Modélisation
  4. Mise en production

1) L’étape de cadrage est cruciale, car le score ne sera opérationnel que s’il répond réellement aux différentes attentes.

  • La Cible : Désigne le phénomène à modéliser, i.e la variable à expliquer. Toute la difficulté réside dans le fait de trouver le bon indicateur permettant de « tracer » le phénomène.

Ex : le churn ne sera pas tracé par la clôture du compte mais par l’envoi d’une demande de résiliation.
Le but étant de pouvoir anticiper la demande et essayer de conserver les clients de façon proactive et non pas réactive.

  • La Périmètre : La réflexion sur le périmètre est une étape primordiale, sans laquelle un score peut se révéler inutilisable ou de mauvaise qualité.

Ex : Si on prédit le churn à 1 mois mais les opérationnels ont besoin de 2 mois pour mettre en place des actions de rétention => au moment où nous serons capables de lister les clients à risque, l’opérationnel ne disposera plus d’assez de temps pour agir !
Points clefs pour éviter une mauvaise définition du périmètre :
>Identifier le besoin opérationnel, la façon dont sera utilisée le score
>Identifier les phénomènes ponctuels ou de saisonnalité

  • L’Historique :

On distingue 2 types d’historiques :

    • Un historique figé : Soit un historique figé avec prise en compte de l’intégralité de la vie du client depuis, par exemple, son entrée en relation, soit un historique figé avec la même période d’observation pour tous les clients.
    • Un historique glissant : Historique glissant en fonction de la réalisation de l’événement scoré.

2) Voici les 5 phases théoriques précédant l’étape de modélisation pour un score.

  • Construction des agrégats :

Les agrégats et indicateurs permettent de qualifier la population d’étude (Exemple : âge, CA, revenu, nombre de produits achetés,…). Les agrégats et les indicateurs sont rassemblés pour construire une vision « complète » et « unique » de chaque individu de la population d’étude : la matrice de travail.

  • Discrétisation

La discrétisation des variables simplifie la lecture et la compréhension des résultats, et permet de prendre en compte les liaisons non linéaires entre les variables. Les bornes des classes sont déterminées « manuellement » de façon à ce que les effectifs de chaque modalité ne soient pas trop faibles. Elles sont aussi déterminées d’une façon logique et pertinente au regard du phénomène que l’on cherche à prévoir.

  • Analyse comparative

L’analyse comparative a pour objectifs de connaître le comportement général des clients « CIBLE=1 » et de caractériser les éléments permettant a priori de différencier les clients « CIBLE=1 » et « CIBLE=0 ». Elle permet d’identifier les variables les plus pertinentes au regard du pouvoir de discrimination sur la cible. Une variable discrimine d’autant mieux la « cible » que les taux de cible des différentes modalités de la variable sont disparates.

  • Dichotomisation des variables

Les variables explicatives en entrée de la PROC LOGISTIC (SAS) sont usuellement des variables dichotomiques. Une fois cette étape réalisée, il est nécessaire de supprimer l’une des variables dichotomisées pour éviter les corrélations avec la constante. En générale la variable la moins significative ou avec un effectif relativement faible est supprimée.

  • Étude des corrélations

Les variables ou les modalités trop fortement corrélées ne doivent pas être introduites ensemble dans la modélisation. En effet, il en résulterait un biais dans l’estimation des coefficients détecté par un problème de signe du coefficient dans le modèle. Si deux variables sont corrélées, l’une d’elle devra être exclue du modèle.
3) La phase de modélisation.
La modélisation consiste à :

  • Déterminer la meilleure combinaison de variables pour expliquer le phénomène à prévoir (cible=1)
  • Elaborer une formule calculant la note de chaque client : note=a+sum(bixi)

où a désigne le poids de base appliqué à tous (la constante),
xi : les variables qui interagissent sur le fait de devenir “cible=1”
et bi : les poids statistiquement significatifs associés. Le modèle mathématique le plus souvent utilisé est la régression logistique. Cette méthode fournit un modèle Logit qui est une fonction logarithmique d’une probabilité.

  • La sélection des variables du modèle peut-être réalisée suivant plusieurs méthodes :
    • une méthode descendante (BACKWARD) : celle-ci part du modèle complet et élimine à chaque étape la variable la moins significative sur la base du test du Chi-deux de Wald jusqu’à ce que toutes les variables soient significatives.
    • une méthode ascendante (FORWARD) : à chaque étape, on introduit la variable qui fait le plus augmenter le score.
    • une méthode mixte (STEPWISE) : c’est une procédure de sélection ascendante dans laquelle une variable déjà sélectionnée peut être enlevée si elle devient non significative au cours des itérations.

En général, plusieurs itérations avec les différentes méthodes sont nécessaires pour trouver la meilleure formule.

  • Pour vérifier la pertinence du modèle nous analyserons :
    • Le niveau de significativité des variables
    • La pertinence métier des variables
    • Les signes dans le modèle : Si dans le modèle, le signe du coefficient associé est différent de la conclusion de l’analyse comparative, alors le modèle comporte des variables corrélées. Il faut donc revenir à l’étude des corrélations et reprendre la modélisation

Le pouvoir de discrimination du modèle, (la qualité d’un modèle est son pouvoir de classement des clients dont CIBLE=« 1 » par rapport au hasard).
Plus le décile est élevé plus le taux de cible dans le décile doit être élevé, et ce sans inversion.

  • Pour vérifier la validité du score un échantillon test est créé avant la modélisation, sur lequel est appliqué le modèle final pour vérifier sa pertinence et sa stabilité, et ceci par décile, à savoir que les taux de cible sur les 2 échantillons doivent être proches.

Voilà, vous savez tout ! N’hésitez pas à me demander des précisions ou des compléments.

5 Comments:


  • By rahali 03 août 2013

    Tout d’abord je vous remercie pour cette présentation pertinente et complète. Ensuite, je voudrais avoir votre avis sur une problématique. J’essaie de construire une fonction de scoring afin de noter les entreprises d’une centrale. Le problème c’est que je ne dispose pas d’un échantillon test. C’est à dire que les entreprises de cette centrale n’ont jamais été notées au préalable. Comment vérifier la validité du modèle à ce moment ?
    Je vous remercie d’avance.

    • By Pascal BIZZARI 24 août 2013

      Bonjour,

      Merci pour votre message.

      Concernant votre problématique, vous devez découper votre population d’entreprises en deux groupes (apprentissage et validation).

      Le groupe d’apprentissage vous permettra de bâtir votre modèle et celui de validation servira de test pour démontrer sa stabilité.

      A votre disposition si vous avez d’autres questions.

      Bien à vous,

      P.

  • By Elodie 21 juin 2016

    Bonjour,
    Merci pour votre article très bien construit sur le scoring, c’est très clair.
    Je suis actuellement en train de réaliser un score de perte de vitesse d’un client (baisse de son comportement d’achat : vient moins souvent, achète pour un montant inférieur…) et je bloque sur un point. Peut-être avez-vous déjà rencontré mon problème :
    Comme je dois scorer la perte de vitesse du client, je vais comparer différentes périodes. Or selon les périodes les comportements d’achat peuvent être différents et je peux donc comparer des choses non comparables (par exemple si je compare l’été à une autre période, en été les gens achètent moins parce qu’ils partent en vacances, ça ne veut pas dire qu’ils perdent de la vitesse). Le problème c’est que je ne peux pas écarter les périodes atypiques car je dois réaliser un score qu’on puisse appliquer tous les trimestres en faisant glisser l’historique. De plus pour réaliser mon score j’ai seulement 2 ans d’historique ce qui ne me permet pas de faire une étude poussée de la saisonnalité.
    Avez-vous une idée de la façon dont gérer ce problème avant de réaliser le score ?

    Merci d’avance,

    • By Pascal BIZZARI 20 août 2016

      Bonjour,
      Merci pour votre commentaire.
      Une solution simple consiste à fonctionner par analyse de cohorte pour lisser la saisonnalité.
      Il vous faut donc analyser la perte de vitesse des clients dont le dernier achat a été réalisé sur le mois N, puis celle des clients de N+1 … Et ainsi de suite sur 12 mois. De telle façon vous pouvez prendre en compte toutes les périodes spécifiques et les lisser pour créer votre définition de la « cible » à appliquer pour l’ensemble de votre base.
      En espérant que cela pour vous aider.
      N’hésitez pas à m’écrire par mail via la rubrique contact (pour plus de réactivité de ma part 😉 ) http://lesitedesdataminers.fr/2013/04/22/pascal-bizzari/#.V7gbXsSvinM

  • By li 15 mar 2017

    bonjour,
    pourriez vous m’expliquer ++ la phase:•Dichotomisation des variables??
    cordialement,

Laissez un commentaire



Error. Page cannot be displayed. Please contact your service provider for more details. (19)

Copyright 2013 lesitedesdataminers.fr