Subscribe to be notified for updates: RSS Feed

Blog Archive

Home
Articles
22 avr 2013

Fiches Témoignages

By There are no tags 0 comments

1367269267_testimonialVous trouverez dans cette partie des témoignages d’acteurs connus & reconnus dans le monde du Data Mining.
Voici la liste des articles de cette catégorie :

Je tiens à remercier chaleureusement René Lefébure d’avoir gentiment accepté de répondre à mes questions. Ce temoignage est le reflet d’un parcours remarquable, parcours qui j’espère vous donnera à tous un gain de motivation pour votre propre avenir. lire la suite

Je commence cet article en remerciant amicalement Mme TISS d’avoir accepter de nous livrer son parcours, afin de donner à tous les étudiants une idée de leur futur proche. lire la suite

22 avr 2013

Fiches Méthodologiques

By There are no tags 1 comments

1367269007_docVous trouverez dans cette partie la liste des articles méthodologiques pour mener à bien vos projets Data Mining.
Les articles essaient donc de traiter les principales méthodologies Data Mining.
Voici la liste des articles de cette catégorie :

A partir de l’observation du comportement passé ou présent un score consiste à rechercher un modèle pour prédire le comportement futur ou un élément inconnu. On cherche les caractéristiques qui influencent (positivement ou négativement) un phénomène… lire la suite

La segmentation consiste à découper une population en des groupes d’individus homogènes. De plus la segmentation se doit de créer des groupes qui entre eux sont les plus différents possibles… lire la suite

Le concept CRISP-Dm (CRoss-Industry Standard Process for Data Mining) est une méthodologie qui consiste à définir un cadre pour la conduite de projets data mining. Cette méthodologie a été mise au point en 1996… lire la suite

De plus en plus la mise en place d’actions de fidélisation est conditionnée par le besoin d’être capable de mesurer leur efficacité. En effet avant de mettre en production une action, elle va être developpée sur un échantillon de clients, puis comparée à un groupe de témoins… lire la suite

Lors de la mise en place d’un score (Cf Méthodologie du Scoring ) un des paramètres a ne pas négliger est le pilotage de la performance. En effet une fois votre modèle constuit, il va être ré appliqué avec une certaine fréquence (15 jours, un mois, un trimestre …etc.), et si vous ne prenez pas la peine de suivre la performance du score à chaque ré application, il va arriver un moment ou le score ne sera plus pertinent sans que vous le sachiez… lire la suite

Le cercle relationnel est une nouvelle notion à laquelle on s’intéresse tout particulièrement depuis quelques années et dont l’intérêt ne cesse de croître. Mais de quoi s’agit-il ? Et pourquoi cette notion devient-elle aujourd’hui incontournable …? lire la suite

Dans mes précédents articles, je vous ai présenté le scoring dans sa globalité, avec les méthodes de pilotage de sa performance et avec un exemple d’application marketing. Aujourd’hui j’aimerais vous sensibiliser à la possibilité d’utiliser cette technique dans ce que l’on appelle couramment de la qualification. Mais de quoi s’agit-il … ? lire la suite

Cette problématique pourra se poser à vous que vous soyez en poste en tant qu’interne chez un client final, ou que vous soyez consultant dans une société de services. lire la suite

La valeur client est une notion à laquelle les entreprises s’interessent avec insistance depuis peu de temps. Ces projets consistent la plupart du temps à chercher un moyen de définir la rentabilité des clients et ceci en intégrant une dimension temporelle. lire la suite

22 avr 2013

Fiches Références

By There are no tags 0 comments

1367420404_file-managerVous trouverez dans cette partie la liste des articles incontournables pour bien comprendre la place et le rôle que peut jouer le Data Mining.
Les articles traitent donc du Data Mining globalement, avec ses aspects « données », « opérationnels » et de « pilotage ».
Voici la liste des articles de cette catégorie :

Le métier de Consultant Data mining dans une société de service est un bon tremplin pour commencer sa carrière quand on vient de finir ses études et que l’on n’a pas forcément une vision très claire du métier et du secteur dans lequel on veut mettre en œuvre ses compétences statistiques… lire la suite

“L’Accompagnement Marketing … kézako ?” Ce concept est très souvent peu connu par les jeunes dataminers qui arrivent sur le marché du travail. En effet, en sortant d’un cursus mathématiques et statistiques, beaucoup d’entre eux ne sont pas familiers avec les concepts de marketing opérationnel… lire la suite

Voici une petite liste des connaissances minimales à maîtriser qui sont complémentaires pour faire le lien entre le Data Mining et le Marketing. Ce glossaire est un premier niveau d’approche, chaque terme pouvant en effet être plus longuement détaillé, mais ce n’est pas le but de cet article… lire la suite

Dans cet article nous allons nous intéresser aux outils de la relation client, c’est à dire aux canaux de communication, et plus particulièrement à la combinaison des outils. En effet l’essor des technologies de l’information et de la communication ont permis l’émergence de nouveaux canaux de diffusion de l’information de masse, entrainant ainsi l’apparition de nouveaux modèles économiques… lire la suite

Le Web et le Data Mining ont comme points communs d’être des technologies récentes et d’être en développement constant depuis leur création. Aujourd’hui la tendance nous amène à croiser ces deux technologies, mais la structure actuelle du Web ne facilite pas la mise en place d’analyses Data Mining… lire la suite

Voici un petit article pour vous donnez une vision globale d’une architecture standard de base de données. Ceci vous permettra de bien comprendre les concepts de Data WareHouse, Datamart, ETL … lire la suite

Facebook, Twitter, LinkedIn, Viadeo, Blogs 2.0, … tous ces mots font désormais partis de notre quotidien, et qui dit informations disponibles rebondit naturellement sur connaissance client. Mais comment procéder … ? lire la suite

Retrouver un article sur le blog du Groupe AVISIA qui présente les différentes compétences qui constituent la Data Science et du Big Datalire l’article

20 avr 2013

Fiches Liens

By There are no tags 0 comments

1367420590_wwwVous trouverez dans cette partie une petite sélection de sites qui vous permettront d’approfondir certains sujets.

Blog animé par René LEFEBURE, un des pionniers du Data Mining et du CRM en France.

Professeur à l’INSA, Directeur du Département de Génie Mathématique et Modélisation dans l’université de Toulouse 3.

En charge de la statistique et du data mining dans un grand groupe bancaire français, il enseigne également la statistique et le data mining au niveau DESS – Master 2 dans les Universités de Paris-Dauphine et de Rennes 1. Intervient à l’ISUP (Institut de Statistique de l’Université de Paris)

Je vous propose un petit récapitulatif des principaux liens donnant accès à des cours de data mining.

Pour aller plus loin dans la realisation de projets de datamining, de datascience, de big data ou encore de digital.

1367267875_27-Edit TextJe vous propose un petit récapitulatif des principaux liens donnant accès à des cours de data mining.
Au fur et à mesure j’integrerai bien entendu les supports des cours que je dispense. Mais ces derniers sont pour l’instant en refonte pour être ré actualisés car la matière evolue chaque jour et des nouvelles tendances sont à prendre en comptes.
Cette page n’est pas forcément exhaustive, donc si vous avez des liens que vous souhaitez faire partager, n’hésitez pas à m’écrire pour me les soumettre.
Soumettre un site web

  • Page de Philippe BESSE : Professeur à l’INSA – Directeur du Département de Génie Mathématique et Modélisation

Page très complète qui reprend à la fois des cours théoriques étayés par des travaux pratiques, mais aussi des introductions sur certains logiciels comme R ou SAS. Si vous ne deviez retenir qu’un seul lien, forcément ça serait celui là !!!
Cours de Data mining et Travaux pratiques de Philippe BESSE

  • Page de Stéphane TUFFERY : En charge de la statistique et du data mining dans un grand groupe bancaire français. Enseigne la statistique et le data mining au niveau DESS – Master 2 dans les Universités de Paris-Dauphine et de Rennes 1. Intervient à l’ISUP (Institut de Statistique de l’Université de Paris)

Auteur d’un des livres de référence pour tout bon dataminer « Data Mining et statistique décisionnelle » aux Éditions Technip (préface de Gilbert Saporta), Mr met en ligne les cours donnés en DESS et Master 2 d’Économétrie entre 1999 et 2007. Il explique que ces supports sont consacrés aux techniques de statistique décisionnelle, data mining et scoring, et à leur mise en œuvre en entreprise. La liste des thèmes abordé est vaste :

Statistique décisionnelle, data mining, datamining, kdd, crm, grc, eda, analyse des données, classification, clustering, segmentation, arbres de décision, détection des associations, régression linéaire, analyse discriminante, régression logistique, GLM, modèle linéaire général, classement, scoring, analyse de survie, réseaux de neurones, séparateurs à vastes marges, algorithmes génétiques, text mining, web mining, dataminer, logiciels.

Cours de Data mining de Stéphane TUFFERY

  • Page de Ricco RAKOTOMALALA : Maître de Conférences à l’Université Lyon 2, Membre de ERIC (Equipe de Recherche en Ingénierie des Connaissances)

Cette page recense les supports utilisés pour les enseignements de Data Mining de Mr RAKOTOMALALA. Comme l’auteur le précise, pour la majorité, il s’agit de « slides » imprimés en PDF, très peu formalisés qui mettent avant tout l’accent sur le fil directeur du domaine étudié et recensent les points importants. En effet il conserve le détail des explications, les formules et les démonstrations adéquates aux étudiants qui assisteront à ses cours. Certains supports peuvent être accompagnés de fichiers de données sous forme de classeurs EXCEL utilisés pour illustrer ses cours ; parfois également, des didacticiels montrant la mise en oeuvre de la technique avec un logiciel gratuit est proposé. Les logiciels utilisés sont principalement SIPINA pour les arbres de décision et TANAGRA pour les autres techniques.
Cours de Data mining de Ricco RAKOTOMALALA

  • Page de Olivier DECOURT : Formateur et consultant indépendant sur SAS, SPAD, l’analyse statistique et le Data Mining. Il enseigne SAS dans plusieurs universités (IUT STID, ENSAI…).

Voici un site très ludique, qui donne accès à la fois à des supports sur le data mining, mais aussi à des macros SAS ou des tutoriels très pédagogiques. En effet Mr DECOURT vous expliquera tout les secrets du data mining « comme si vous etiez sa fille ».
Cours de Data mining de Olivier DECOURT

  • Page de El-Ghazali TALBI : Professeur à Polytech’Lille – Université de Lille 1 – Leader de la team DOLPHIN

La page de présentation des publications de Mr TALBI regorge de liens et autres documents qui tournent autours des sujets de la fouille de données et des statistiques. On retrouve notamment un support de cours de datamining qui donne un tour d’horizon.
Cours de Data mining de El-Ghazali TALBI

20 avr 2013

Fiches Littératures

By There are no tags 0 comments

Lefebure-R-Data-Mining-Livre-895926127_MLVous trouverez dans cette partie des ouvrages utiles si vous voulez approfondir vos connaissances.
Voici quelques ouvrages que je vous recommande :

  • “Data minng” aux éditions Eyrolles de R.Lefébure et G.Venturi

Le data mining consiste à extraire et à analyser, par des méthodes statistiques, un large volume de données puisées dans le data warehouse de l’entreprise, en vue de découvrir des tendances ou des règles qui s’avéreront utiles pour définir la stratégie marketing et commerciale. Cet ouvrage vous donnera les clés d’une intégration réussie en proposant une méthodologie de conduite de projet, complétée par une étude de cas détaillée.
“Gestion de la relation client” aux éditions Eyrolles de Ed Peelen , Frédéric Jallat , Eric Stevens et Pierre Volle.
La gestion de la relation client (GRC en français, ou CRM en anglais pour Customer Relationship Management est un champ en plein développement où se combinent technologies de l’information, marketing et stratégie en vue d’accroître la performance de l’entreprise et sa différentiation concurrentielle. La GRC est devenue l’une des principales préoccupations des organisations dont le principe est simple mais essentiel : comment identifier, attirer et fidéliser les meilleurs clients pour assurer la croissance à long terme de l’entreprise ?

  • “SAS, Maîtriser SAS Base et SAS Macro” (SAS 9 et versions antérieures) aux éditions Dunod de O.Decourt et H.Kontchou-Kouomegni

Ce livre se veut une introduction à SAS, utile à tous car se consacrant à la manipulation des données. Le statisticien et le non-statisticien y trouveront matière à réflexion : tous ont des problèmes de pré-traitement de l’information avant quelque tâche que ce soit, de la production de listings aux régressions, en passant par les tableaux de bord. Le livre s’adresse aux utilisateurs débutants et confirmés. Les premiers y trouveront les grands principes de SAS, une présentation de l’interface et des concepts de base (table, variable, format, étape Data, procédure, ODS), des principales instructions. Les seconds y mettront à jour leurs connaissances en incluant les nouveautés de la version 9 (signalées dans le livre), et trouveront des synthèses sur des sujets difficiles (ODS, macro-langage, formats, fonctions SAS, …).

  • “Data Mining et statistique décisionnelle” aux éditions Technip de S.Tufféry

Stéphane TUFFERY est docteur en mathématiques. En charge de la statistique et du data mining, dans un grand groupe bancaire français, il enseigne le data mining en master d’ingénierie économique dans les universités de Rennes 1 et de Paris-Dauphine, et intervient à l’Institut de Statistique de l’Université de Paris.

  • “Data mining pour le Web” aux éditions Eyrolles de Patrick Naïm & Mylène Bazsalicza

Patrick Naïm est ingénieur de l’École centrale de Paris et fondateur d’Elseware, société spécialisée dans la modélisation quantitative et le data mining appliqués aux domaines de la finance, des télécommunications et du commerce électronique. Il est l’auteur de plusieurs livres sur les technologies du data mining et leurs applications. Mylène Bazsalicza est responsable marketing et communication de la société Elseware et titulaire d’un DESS de commerce international à l’université de Paris-XII et d’un DESS d’économie à l’université de Paris-I.

computer-studentJe commence cet article en remerciant amicalement Mme TISS d’avoir accepter de nous livrer son parcours, afin de donner à tous les étudiants une idée de leur futur proche.
Il s’agit ainsi du témoignage de Nadia TISS, 25 ans, qui a choisi de faire sa carrière professionnelle dans le Data Mining
Nadia, pourrais-tu en quelques mots décrire ton parcours de formation ?
N.Tiss :
2006 : Master 2 IS (Ingénierie de la statistique) CNAM/Versailles
2007 : Master 1 SIAD (système d’information et Aide à la Décision) Lille 1
2008 : Chargée d’études chez l’un des principaux opérateurs de télécommunications

Pourquoi as tu choisi ces études et ce secteur du Data mining ?

N.Tiss : En réalité, quand je suis rentrée en licence de statistiques je n’avais aucune idée de ce qui m’attendais, je sortais d’un DEUG MIAS, je savais que je continuerai à faire des mathématiques en ayant choisi cette licence, mais quand j’entendais parler des statistiques je m’imaginais l’INSEE…
Et puis non, dès le premier semestre on a attaqué la méthode des moindres carrés ordinaires pour construire des modèles explicatifs et prédictifs, l’année d’après on a passé en revu toute l’analyse des données (ACP, AFC, classifications…).
C’est l’objectif des méthodologies du datamining qui m’a attiré dans ce domaine. Le fait de pouvoir expliquer des comportements, d’essayer de les comprendre ou de prévoir un événement, c’est ce qui me plait dans ce métier.
Le premier contact avec le monde du travail est une étape importante, c’est le moment ou l’on confronte ses acquis avec la réalité opérationnelle. Peux-tu nous raconter ta première expérience professionnelle ?
N.Tiss : J’ai eu la chance de faire ma dernière année de Master en alternance chez Orange Internet. Je pense que l’expérience professionnelle de dernière année est la plus importante parce qu’elle nous permet de mieux appréhender le monde du travail et particulièrement notre futur métier.
Chez Orange, j’ai travaillé à la Direction du Marketing Home Grand Public France en tant que Dataminer. Ce poste est rattaché à la Direction de l’Analyse du Marché et de la Connaissance Client. Tout au long de cette année, j’ai pu réaliser des analyses permettant d’éclairer et d’approfondir la compréhension des grandes tendances du marché, ainsi que des études sur les usages et comportements des clients.
Ma première typologie je l’ai faite sur les usages de la VoIP (technique qui permet de communiquer par la voix via l’Internet). Je vous épargne toute l’analyse exploratoire et la méthodologie utilisée mais une fois les classes définies, pour les rendre opérationnelles au niveau marketing, j’ai dû déterminer ce que chacune d’entre elle apporte en termes de chiffre d’affaire.
C’est à partir de telles études que les chefs de produit peuvent calibrer les offres, tout en tenant compte des impératifs financiers. D’autres études sont réalisées en parallèle : simulation tarifaire, enquêtes clients…
Et au final, mon étude a permis le lancement d’une option Minutes mobiles + international illimité vers 25 pays.
Belle réalisation ! Et c’est donc pour ces aspects que tu as choisi ce métier ? D’ailleurs comment vois-tu ton évolution future ?
N.Tiss : Exactement c’est pour cela que j’ai choisi le DM : pour participer aux actions marketing, d’ailleurs d’ici 5 ans c’est du coté Marketing décisionnel que je me vois …
Il ne me reste plus qu’à te remercier de la part de l’ensemble des étudiants qui se retrouveront dans ton parcours.

Make-moneyLa valeur client est une notion à laquelle les entreprises s’intéressent avec insistance depuis peu de temps. Ces projets consistent la plupart du temps à chercher un moyen de définir la rentabilité des clients et ceci en intégrant une dimension temporelle.
Cette recherche à bien entendu pour but d’améliorer les investissements de l’entreprise car la valeur client, par la mesure de la rentabilité, est un indicateur fort dans la définition des stratégies de différenciation.
De façon générique, l’approche de ce genre de sujet se fait par le biais de 3 chantiers principaux
1°) Définition de la valeur monétaire
Dans ce premier chantier, on essaiera de répondre aux questions suivantes :

  • Quelle est la valeur actuelle pour chacun de mes clients ?
  • Quelle peut être sa valeur future ?

Bien sur en fonction de votre secteur activité, la définition de la valeur est différente et un des enjeux majeurs de ce genre de projet est d’arriver à lister et chiffrer les coûts au niveau individuel. En effet on arrivera facilement à savoir combien rapporte un client … mais combien il coûte reste une question bien plus difficile à résoudre.
2°) Définition de la durée de vie
Ici le but de l’analyse consistera à définir :

  • Pendant combien de temps chacun de mes clients va-t-il générer de la valeur ?

On cherchera ainsi à pouvoir anticiper l’allocation des investissements en fonction du potentiel du chacun de nos clients ou de nos groupes de clients.
3°) Définition de la valeur marché
Enfin cette dernière partie concerne plus la vision marché que la vision individuelle et on se demandera :

  • Quelle est la valeur potentielle de mes clients sur le marché ?

Ici le but de la démarche consiste à identifier le pourcentage du chiffre d’affaire que votre entreprise capte dans la part totale des dépenses des clients sur votre secteur (<=> taux de nourriture)
Cet article reste volontairement évasif car cette même problématique et le contenu de chaque chantier sera abordé de façon très différents d’une entreprise à l’autre.

imagesEx : Choix d’un outil Data mining
Cette problématique pourra se poser à vous que vous soyez en poste en tant qu’interne chez un client final, ou que vous soyez consultant dans une société de services.
Sur internet vous trouverez plusieurs définitions d’un benchmark, mais voici celle qui me semble la plus proche de notre problématique :
Le benchmarking (ou analyse comparative) est une technique de marketing qui consiste à étudier et analyser les aspects techniques, fonctionnels et budgétaires des différents acteurs du marché afin de s’en inspirer ou de sélectionner le meilleur pour le mettre en place.
Je vous propose de faire un petit tour des différentes questions à se poser, et des aspects à prendre en compte.
Tout d’abord ce projet se décompose en deux étapes :

  • Consultation des différents éditeurs du marché
  • Etude comparative et sélection

1°) Consultation des différents éditeurs
Cette étape est très importante car si vous ne posez pas les bonnes questions, votre étude comparative ne sera pas pertinente.
Voici la décomposition de cette partie :

1.1) Définir auprès des éditeurs les règles de la consultation : Mode de fonctionnement de la consultation, procédure de dépouillement des offres, confidentialité, planning.
1.2) Analyse technique et fonctionnelle.

-> Description des Systèmes existants, de l’architecture, du modèle de données, des volumétries, des différents projets impactés
-> Description des besoins, des objectifs opérationnels, des besoins métier et data mining, et enfin du profil des utilisateurs
-> Description de la solution cible recherchée en termes d’architecture, d’alimentation des datamarts, et de calcul d’agrégats
-> Description des fonctionnalités attendues au niveau Datamining et d’administration

2°) Etude comparative :

2.1) Pour chacun des critères précédemment cités, on évaluera les solutions consultées par un pourcentage de couverture de tous les besoins.
2.2) Au niveau des différentes fonctionnalités des outils ainsi que de la convivialité des interfaces, on procèdera à un POC (Proof Of Concepts) permettant d’avoir une démonstration de chaque outil sur un cas concret.
2.3) Egalement on procédera à une comparaison des différentes solutions via une analyse SWOT (Comparaison des Forces / Faiblesses / Risques / Opportunités)
2.4) Enfin une fois que les différences entre les solutions sont mises mise en relief, l’analyse budgétaire vient clôturer les débats afin de sélection la solution à mettre en place.

Cet article reste volontairement évasif sur le contenu de différentes parties car il evolue d’une mission à l’autre.
Mais comme pour tous mes articles n’hésitez pas à me contacter si vous avez besoin des précisions supplémentaires

3D Character and Question MarkDans mes précédents articles, je vous ai présenté le scoring dans sa globalité (Cf. article), avec les méthodes de pilotage de sa performance (Cf. article) et avec un exemple d’application marketing (Cf. article).
Aujourd’hui, j’aimerais vous sensibiliser à la possibilité d’utiliser cette technique dans ce que l’on appelle couramment de la qualification. Mais de quoi s’agit-il … ?

Définition : La qualification par scoring consiste à modéliser une information en partie manquante, voir totalement manquante, sur un portefeuille de clients ou de prospects.

Exemple : L’Age et la CSP sont des variables socio démographiques parmi les plus impactantes sur le comportement d’un individu.
En effet, on comprend bien qu’un étudiant de la place St Pierre à Toulouse n’aura pas le même comportement d’achat qu’un retraité sur la côte d’azur.
But : Ce type de projet a donc pour objectif d’arriver par le biais de l’ensemble des informations disponibles à extrapoler la donnée manquante afin de l’utiliser pour d’autre analyses.
Exemple : Chez la plupart des opérateurs téléphoniques, lorsque vous avez moins de 26 ans, vous pouvez beneficier d’un avantage « SMS illimités » 24/24, 7/7.
Un opérateur souhaitant diffuser un emailing publicitaire pour mettre en avant ce produit à son lancement ne peut pas se permettre de l’envoyer à tout ses clients, premièrement car cela lui coûterait très cher … et secondement tout les clients de plus de 26 ans recevant ce message seraient hors cible.
Dans ce cas précis, imaginons que l’opérateur ne connaisse la date de naissance uniquement que de 50% de ses clients … l’opérateur ne pourrait donc pas contacter ses clients. Il va donc chercher à extrapoler l’âge des clients manquants afin de récupérer une partie de ce potentiel.
Méthodologie: Ici, nous allons être globalement confronté à deux cas de figure, un cas simple et un cas un peu plus complexe.
Le 1er cas consiste à modéliser une variable binaire, c’est-à-dire à 2 modalités (0/1). Ici c’est assez simple, on utilise la régression logistique classique et on déroule. (Si besoin cf. article Le Scoring).
Dans l’exemple de notre opérateur, cela revient à modéliser la probabilité d’avoir moins de 26 ans.
Le 2nd cas un peu plus complexe consiste a modéliser une variable polynomiale, c’est-à-dire à plus de 2 modalités. Ici, on va devoir soit faire un score pour chaque modalité … soit passer par une régression polytomique. (Ce cas fera d’ailleurs prochainement le sujet d’un article afin d’être complet)
Dans l’exemple de notre opérateur cela revient à modéliser la probabilité que le client ait moins de 26ans, ou entre 26 et 46 ans, ou entre 46 et 66 ans ou plus de 66 ans.
Conclusion : Ainsi à partir de maintenant, n’excluez plus les données faiblement remplies, si elles vous semblent pertinentes en terme « métier », essayez d’abord de les compléter via une modélisation.


1 2 3

Error. Page cannot be displayed. Please contact your service provider for more details. (1)

Copyright 2013 lesitedesdataminers.fr