Entretien avec Mick Levy, Business & Decision
Bertrand Dosseur : Le titre de ton ouvrage « Sortez vos données du frigo, manifeste pour une exploitation intensive et responsable des données et de l’IA » a forcément attiré mon attention ! Première question : fallait-il écrire un manifeste pour libérer les données de leurs entraves ? Et qui sont les geôliers qui tiendraient ces données captives quelque part dans un coin sombre et obscur de l’entreprise ?
Mick Levy : Il fallait bien un manifeste parce que mon constat est qu’il y a énormément d’entreprises qui n’ont pas eu cette prise de conscience que toutes les sociétés détiennent des données et que ces données constituent un actif-clé. Je plaide vraiment pour qu’une prise de conscience s’impose ! Quel autre actif de l’entreprise reste aussi inerte ? Qui accepterait d’avoir un actif avec tant de valeur et ne rien en faire ? C’est assez hallucinant, bien sûr ce n’est pas le cas pour toutes, mais c’est le cas pour encore beaucoup d’organisations. Alors, oui, il fallait un manifeste, c’est un peu mon combat militant que d’exploiter beaucoup plus fortement la data au service de l’entreprise.
Les données propriétaires, un actif à part entière de l’entreprise
BD : Quelles seraient les principales forces de résistance à l’œuvre ?
ML : Elles sont multiples ! On constate encore des guerres de chapelles : le marketing dira « les données clients sont mes données » et ne voudra pas les partager avec d’autres départements. Pareil pour le département logistique… En fait, le vrai geôlier, c’est l’organisation elle-même. D’un côté il y a les métiers qui disent « bon bah les données c’est une affaire de techs » et du côté IT c’est « je m’en occupe : elles sont bien au frigo, bien conservées et bien sécurisées… j’ai fait mon boulot, maintenant, pour les usages, c’est aux métiers de s’en emparer… ». La responsabilité vient des deux, surtout si on considère que les données sont un actif à part entière de l’entreprise. Il faut mettre en face une organisation alignée pour faire fructifier cet actif ; le jour où on nomme un Chief Data Officer et qu’il siège au CODIR comme tous les autres directeurs responsables des actifs de l’entreprise, alors l’organisation devient data-driven. C’est là qu’il y a un véritable tournant.
BD : Tu parles souvent des 4 grands domaines de l’IA dans les organisations : l’excellence opérationnelle, l’intimité client, la maîtrise des risques et l’innovation produits et services. Est ce qu’il est possible d’établir une hiérarchie entre ces sujets, est-ce qu’on peut les opérer de façon simultanée ?
ML : Tous ces sujets sont nécessaires et intéressants pour créer de la valeur. Si on veut aller vite et si on vise avant tout le ROI sur ces projets-là, l’expérience montre que c’est plutôt la première famille, celle de l’amélioration de l’efficacité opérationnelle qu’il faut prioriser.
Par ailleurs, on constate que les organisations ont souvent tendance à faire leurs premiers projets data un peu dans un coin en mode « side-project ». Ce n’est pas une bonne idée car on se rend compte que c’est en adressant le cœur de métier qu’on a le plus d’impact et que l’IA rend les meilleurs services. Parce qu’en fait c’est là où la transformation est la plus forte, c’est là où le retour sur investissement est véritablement intéressant avec un effet de levier important. Certes, c’est plus risqué, certes, l’investissement initial peut être plus important, certes, ça bouscule des processus clés de l’entreprise, mais l’expérience montre clairement que c’est là que tu as les meilleurs gains.
BD : Dans tous ces grands domaines d’usage et cas d’usage très concrets issus de votre expérience auprès de nombreux clients chez Business & Décision que tu cites dans ton livre, celui qui m’a particulièrement intéressé, c’est le numéro 7 qui concerne un projet porté par une grande entreprise de travaux publics dont l’objectif consistait à prédire un taux de réussite à la réponse aux marchés publics ; sujet qui nous intéresse chez EXPLORE… c’est une belle histoire, parce qu’en plus elle n’est pas forcément très successful… ce qui est aussi intéressant dans les histoires, c’est aussi les échecs. Tu peux nous en dire un peu plus ?
ML : Tu peux en tirer effectivement beaucoup d’enseignements. C’est une grande entreprise de Travaux Publics qui veut mettre en place un algo de lead scoring de manière à prédire ses chances de remporter une affaire dans le cadre d’un appel d’offres public. En effet, les investissements sur les appels d’offres publics peuvent se chiffrer en millions d’euros. Cette décision d’investissement est donc à prendre avec un maximum d’éléments objectifs. Donc l’entreprise a voulu mettre en œuvre cette application de lead scoring, et il se trouve que ça a lamentablement échoué parce que dès les premières tentatives, on s’est très vite rendu compte qu’on ne parviendrait pas à mettre un algorithme fiable. Le lead scoring est pourtant un des algorithmes les plus classiques de l’intelligence artificielle, normalement ça aurait dû très bien fonctionner. Pourquoi ça n’a pas fonctionné ? Parce que les données internes de l’entreprise, en l’occurrence provenant du CRM, étaient de qualité médiocres et très incomplètes. Il manquait plein d’informations sur les clients, sur les parties prenantes dans la décision, sur les contacts, sur les précédentes affaires qui avait été gagnées ou perdues… et à la fois de mauvaise qualité, des informations qui n’étaient pas à jour, qui étaient parfois erronées… Du coup, le projet s’arrête assez vite, les premiers audits nous ont montré qu’on n’y arriverait jamais, mais l’entreprise a en revanche tiré des enseignements de ce projet. Ils se sont dit qu’ils allaient d’abord retravailler sur la qualité des données dans le CRM, retravailler sur l’implication des commerciaux dans le CRM, la complétude des données avec des opérations du type « chasse à l’info », des incentives… et l’envie de relancer le projet dès que la qualité des données sera au rendez-vous. Le second enseignement, est qu’il aurait été aussi judicieux d’exploiter plus fortement des données externes, en plus de celles en open data. Il aurait pu être intéressant de disposer de sources complémentaires, je pense par exemple aux attributaires, des données de concurrence, typologie des projets et des chantiers, des appels d’offres publics…
Les données tierces, un complément essentiel
BD : Parlons justement des données tierces… On a beaucoup évoqué les données propriétaires venant de l’organisation elle-même, de son système d’information. Comment définis-tu ces « données tiers », il y a quoi derrière : de l’open data, des données de producteurs comme EXPLORE ou d’autres gisements… ?
ML : Si on fait un bref rappel, il y a donc les données dites « first party » qui sont celles directement détenues et créées par l’entreprise. Ce sont les données certaines, des données propriétaires, générées à partir de situations que l’entreprise a elle-même vécu. Les données « second party » sont celles provenant de partenaires directs, et les « third party » sont les données à proprement parler externes. Tout cela crée une énorme variété de données exploitables, depuis des données disponibles en open data, en passant par des données qui peuvent être achetées à des data providers, des données de tracking sur internet, des DMP… Ces données sont considérées comme venant compléter les informations dont on dispose dans l’entreprise, et, dans tous les cas, elles sont essentielles pour contextualiser les constats de l’entreprise. Quand on parle par exemple de prédiction des ventes, la prédiction va se faire non seulement sur la saisonnalité mais aussi sur la prise en compte du contexte météo, économique et démographique.
BD : C’est vrai qu’on peut avoir le sentiment qu’il y a une accélération de la production de données first party du fait de la généralisation de la numérisation des processus métiers dans l’entreprise. Est-ce qu’on a encore besoin de données tierces, alors qu’elles ont un coût, qu’elles ne sont pas toujours alignées avec notre propre référentiel interne, alors qu’on voit qu’il est déjà difficile d’exploiter ce qui est exploitable sur ses propres bases, sur des données que l’on sait être certaines, de qualité, disponibles… ? Comment peut-on se positionner par rapport à ça ?
ML : La valeur de la donnée tiers va être énorme. Certes, on a de plus en plus de données first party qu’il va falloir travailler en priorité car ce sont les données qu’on est les seuls à détenir et qui peuvent donner un avantage concurrentiel. Mais il va falloir de plus en plus contextualiser, avoir une vision de l’écosystème. Et ça, on ne peut l’obtenir uniquement avec ses propres données. D’ailleurs, dans les méthodologies que je décris dans le livre et que nous employons chez Business & Decision sur tous nos projets, on inclut une phase d’étude des données externes, on va chercher, on va fouiller, on va étudier les données qui sont disponibles sur le marché, gratuites ou pas, qui pourraient amener de l’information utile pour l’algorithme qu’on veut mettre en place.
BD : Donc il y’a de la place pour des providers qui ont à cœur de travailler une donnée originale, de qualité, orientée métier… Car comment construire une offre qui puisse rencontrer la demande : de la donnée universelle, de la donnée très segmentée par univers de métier ou par type d’usage ?
ML : Les données externes, c’est clairement la jungle : l’écosystème n’est pas organisé, il n’y a pas de portail unique pour voir d’un seul coup toutes les données disponibles du monde. De plus, il y en a qui sont gratuites, d’autres qui ne le sont pas, il y a des fournisseurs qui donnent accès à des données gratuites mais à un niveau de granularité très haut pour donner envie et qui font payer les données détaillées. Donc, c’est un domaine qui est encore très peu organisé finalement.
L’autre point, c’est la qualité. Il y a eu beaucoup de projets ratés parce que les données third party peuvent être de très mauvaise qualité. C’est sûr que les data providers qui proposent de la donnée de qualité vont pouvoir clairement se démarquer du lot ! Quand on parle de données de qualité, c’est un bon niveau de détail, un bon niveau de complétude, une fraîcheur optimale et surtout une excellente exploitabilité (en termes de format, d’accessibilité par API…). On voit de plus en plus d’organisations qui mettent en place des data marketplaces internes avec une équipe chargée de faire de la curation d’informations externes, de cataloguer ces informations, de les rapatrier au sein du data lake de l’entreprise de façon régulière pour qu’elles soient directement exploitables par les Data analysts.
La « chasse à la data », un élément clé de compétitivité
BD : On trouve ce profil de chasseur de données par exemple chez Bpifrance qui a une personne dédiée, qui source et détecte des données pour les mettre à disposition des métiers, que ce soient des données externes ou internes. On n’a pas fini de découvrir de nouvelles fonctions autour de la donnée !
ML : En effet ! Je travaille avec un client dans l’assurance qui a rapatrié quelque chose comme 2000 sources de données externes dans son data lake ! Il y a un côté systématique puisque c’est un assureur généraliste, il a besoin d’adresser de multiples marchés : professionnels, particuliers…. D’où une variété de sources de données très large.
BD : Aujourd’hui, tout s’accélère, on voit plus que jamais ceux qui sont déjà dans le match, ceux qui le sont un peu moins, et peut être encore un peu moins qu’il y a encore quelques mois… Est-ce que désormais le match est joué ? Est-ce qu’il y a des entreprises qui sont destinées à ne jamais être data-driven et à la rigueur ce n’est pas grave ? Comment vois-tu les choses à très court terme ?
ML : Ce qu’on peut voir déjà, c’est que les boîtes qui ont beaucoup exploité la data avant, étaient bien plus prêtes pour affronter la période que l’on connaît depuis 12 mois, lors de laquelle tout le monde a eu besoin de visibilité. Toutes les entreprises qui avaient déjà démarré leur transformation par l’IA s’en sont mieux sorties que les autres. C’est un élément clé de compétitivité, de réponse à l’incertitude en période de crise, et même si tu n’es pas présent dans les locaux, le business a continué à tourner. Donc en réalité, la crise a participé à accélérer la digitalisation de manière générale, et la « dataification » en particulier avec… donc ça va encore très certainement s’accélérer. Est-ce que toutes les entreprises ont vocation à être data-driven ? Moi je pense que toutes les entreprises ont intérêt à être data-driven, elles ont tout intérêt à exploiter les données qu’elles détiennent car toutes en détiennent : un simple ERP, un simple CRM, c’est déjà une base installée. Après je ne fais pas partie de ceux qui disent « Ah si vous n’êtes pas data-driven, vous allez tous mourir ! ». Non, il y aura d’autres manières de s’en sortir, cependant les données sont clairement un vecteur de compétitivité et d’accélération de performance qu’il serait juste dommage de ne pas exploiter.
BD : … et nous aussi chez EXPLORE, nous sommes solidaires du mouvement de libération de la data ! On en libère tous les jours, c’est notre cause, libérer de la data pour qu’elle soit utilisée le plus possible dans de multiples scénarios. C’est ce qu’on observe chez nos clients au quotidien avec beaucoup d’enthousiasme, car il y a beaucoup d’intelligence et de créativité aussi dans la façon d’imaginer les scénarios d’usage… et ce n’est pas fini !