“Oups, j’ai embauché un Data Scientist”

Paul PETON
9 min readJul 14, 2019

--

En 2012, le métier de Data Scientist a été élu, par la Harvard Business Review, métier le plus sexy du XXIème siècle et sur le marché mondial de l’emploi, la demande était encore grandissante en 2018 d’après le LinkedIn Workforce Report. Si l’on peut déjà s’interroger sur l’usage de l’adjectif sexy pour qualifier une profession, il faut surtout se méfier de la hype et de son cycle dont le modèle appelle une inévitable retombée. Mais il est trop tard pour revenir en arrière, vous venez de recruter un.e Data Scientist… Et trois grandes problématiques vont se dresser devant vous :

A) quelle est l’équation économique de l’embauche d’un.e Data Scientist ?

B) que faire faire à un.e Data Scientist au sein de mon organisation ?

C) comment faire pour garder un.e Data Scientist dans mon organisation ?

Quelle est l’équation économique de l‘embauche d’un.e Data Scientist ?

Dès son arrivée dans l’entreprise, le Data Scientist est un centre de coûts. Tout d’abord, il touche un salaire, rétribution de sa force de travail mise à disposition de l’employeur, et la négociation a été âpre, car aujourd’hui, la demande est plus forte que l’offre. Ensuite, il faudra lui fournir un outil de travail et une première erreur serait de lui proposer un poste bureautique classique. Les logiciels de Data Science sont gourmands en RAM et en CPU et même si vous disposez d’un babyfoot pour occuper les Data Scientits pendant les temps de calcul, il sera sûrement plus judicieux de prévoir dès le début un minimum de 16 Go de RAM et un processeur i5 dernière génération. Mais pour être encore plus efficace, on lui fournira une machine virtuelle dans un cloud public ou privé, machine dont les caractéristiques pourront être revues à la hausse ou la baisse. Non, en fait, à la hausse uniquement. Heureusement, les outils de Data Science les plus répandus sont Open Source et les coûts d’équipement s’arrêteront là, au moins dans un premier temps. Enfin, comme les entreprises de l’événementiel ont compris qu’il y a un marché du buzz autour de l’IA (comprendre le Machine Learning, id est une régression logistique avec une surcouche visuelle bien marquetée), on libèrera le Data Scientist quelques jours dans l’année pour qu’il puisse assister à des salons et revenir avec un laptop chargé de stickers.

Passons maintenant aux bénéfices attendus de l’activité du Data Scientist. Étant donné que cette personne ne produit « que » de l’information, on souhaitera que cette information aide à la décision. Nous n’entrerons pas ici dans les mécanismes de prise de décision au sein des organisations et ni dans la difficulté d’appréhender l’approche data driven (voir ce très bon billet de blog), surtout lorsque le cœur d’activité d’une organisation n’est pas centré sur la donnée.

Gageons que le Data Scientist ne produira peut-être pas au cours de ses premiers mois le modèle prescriptif magique qui augmentera la marge de l’entreprise de 30%. En revanche, il aura certainement beaucoup transpiré à nettoyer des jeux de données issus d’extractions des bases de production. Grâce à ses outils barbares pour les néophytes que sont les boîtes à moustaches et les écarts-types, il aura trouvé quantité de données aberrantes ou de doublons dont la correction améliorera grandement la qualité des données de l’entreprise. Ce n’est pas encore une création de valeur mais c’est un premier pas et il n’est pas négligeable.

Que faire faire (d’utile) à un.e Data Scientist au sein de mon organisation ?

Nous allons maintenant explorer cinq tâches qui sont souvent demandées aux Data Scientists. Pour chacune, nous évaluerons (de manière totalement subjective et en assumant une part de mauvaise foi) la quantité d’erreur commise en confiant chacune de ces tâches à un Data Scientist.

1. Produire des tableaux de bord de data visualisation

Au dernier salon du Big Data, vous avez assisté à des démonstrations de Tlik, Bableau et Power QI (NDA : les noms de ces solutions ont volontairement été modifiés). Dans votre entreprise, les métiers attendent depuis si longtemps d’accéder aux données et ils comptent fermement sur le Data Scientist pour leur proposer un outil efficace et sexy (encore une fois).

Quantité d’erreur : 2/5

Certains Data Scientists peuvent se prendre de passion pour la data visualisation et ils apporteront une approche analytique intéressante si elle reste compréhensible pour les métiers. Ceux-ci d’ailleurs se sont déjà approprié les premiers dashboards. Ils les impriment avant de saisir les chiffres dans une feuille Excel pour réaliser leur propre analyse. Mais cela fera sûrement l’objet d’un autre article.

2. Automatiser des tâches en production (data engineering)

Vous l’aviez pourtant bien écrit dans la fiche de poste, il fallait maîtriser les technologies Big Data suivantes : Hadoop, MapReduce, Spark, Java, Scala, Python, R, Kafka, Informatica, Elastic Search, Mongo DB, Cassandra, Docker et Kubernetes. La connaissance de TensorFlow est un plus. Un an d’expérience demandé. Pourtant, depuis déjà trois semaines, votre Data Scientist junior lutte avec cette tâche d’archivage d’un flux de streaming vers le Data Lake. Cela ne doit pourtant pas être si complexe à automatiser mais il s’acharne sur une obscure librairie Python et se perd sur StackOverFlow. Vous ne voyez pas comment cela va aboutir et vous songez, à contre-cœur, à faire appel à une société de consulting…

Quantité d’erreur : 3/5

Notre conseil : ne pas recopier sur l’offre d’emploi la liste des technologies qui ont été présentés lors des cinq dernières éditions du salon du Big Data.

Corolaire : penser l’architecture du projet data (data architect)

Le Proof of Concept de cette application sous R Shiny est terminé, les beta testeurs en sont très satisfaits et n’attendent plus que le passage en production car aujourd’hui, l’application tourne sur le laptop du Data Scientist. A la première réunion avec la DSI, deux questions ont été soumises aux Data Scientists : l’application s’intègre-t-elle nativement dans l’Active Directory ? le coût des licences Shiny Server a-t-il été prévu au budget ? Non. Et non. Dommage.

3. Adapter des librairies de Deep Learning pour résoudre des problématiques complexes

Enfin, un véritable challenge pour le Data Scientist ! Aujourd’hui, les meilleures libraires peinent à bien classifier des vidéos de plusieurs heures ou à réaliser du speech to text dans des environnements très bruyants. Vous êtes convaincu que c’est à la portée du Data Scientist junior que vous venez de recruter. Tout du moins, c’est ce que vous attendez au regard du salaire que vous lui versez. Ici, votre probabilité de déception dépasse largement l’accuracy du modèle de classification qui sera obtenu.

Quantité d’erreur : 4/5

A la sortie de cinq années d’études post Bac, un Data Scientist maîtrise a priori les outils existants. Il faudra sans doute quelques années de plus, voire un doctorat, pour être en capacité d’adapter ces outils à des problématiques sortant des sentiers battus.

Corolaire : utiliser des API de services cognitifs commerciaux

Votre smartphone reconnaît votre visage, il comprend votre voix et retrouve toutes les photos de votre chat automatiquement. Si votre entreprise veut bénéficier des mêmes fonctionnalités, elle peut faire appel aux fournisseurs de cloud public qui mettent à disposition des services cognitifs sous la forme d’API. Le laptop dernière génération de votre Data Scientist est finalement trop puissant pour faire tourner uniquement Postman et un navigateur Web. Remettez-lui un terminal léger et rangez son laptop dans un placard des services généraux. Ces stickers sont décidément bien pénibles à décoller !

4. Réaliser des analyses statistiques, explorer la donnée (data miner)

Depuis des années, des études sur échantillon, des sondages allant de quelques dizaines à quelques centaines d’observations donnent des résultats très intéressants. Mais c’était avant l’apparition du salon du Big Data. Identifier des corrélations qui ne soient pas fallacieuses, débusquer des différences significatives, rapprocher des individus au sein de groupes cohérents et interprétables, tout cela est un (très beau) métier. Veillons toutefois à mettre les choses dans le bon ordre : qui sont les destinataires de l’étude et quel est leur véritable pouvoir de décision ou d’action ?

Attention, il faudra du temps pour trouver des « pépites d’or » au cours de ce forage de données. La patience a toujours été une vertu. Les sprints agiles sont plutôt une obsession de l’époque.

Quantité d’erreur : 1/5

L’erreur commise serait ici de ne pas avoir recruté un Data Scientist suffisamment compétent. Au fait, lui avez-vous fait passer des tests techniques lors de votre recrutement ? Si oui, ces tests permettaient-ils vraiment d’évaluer la compétence à trouver de l’information plutôt qu’à cruncher des fichiers tar.gz contenant des clés de hash ? Vous aviez pourtant vérifié en amont son ranking sur Kaggle…

5. Extraire, nettoyer, consolider les données (data prep)

Lors des premières explorations de données, les Data Scientists ont découvert qu’il n’y avait sans doute pas de contrôle dans l’ERP quant à la saisie de certaines données. Il existe en effet une bonne demi-douzaine de formats pour une même date, tout du moins quand la valeur n’est pas manquante. Etonnamment, dans le CRM, vous retrouvez un grand nombre de personnes qui doivent être de la même famille tant leurs noms sont proches : test, TEST2, testtest… Sans oublier aaa, John Doe ainsi que wxcvbn.

Quantité d’erreur : 0/5

Vos données n’ont jamais été aussi propres, vous disposez maintenant de ce fameux golden dataset ! Quarante ans après sa création, le langage SQL fait toujours des merveilles, surtout quand on l’intègre dans une PROC SQL. Ne reste plus qu’à trouver des cas d’usage pour valoriser ces données, tiens, pourquoi pas un dashboard ? Pourtant, votre Data Scientist semble s’ennuyer fermement et ne reste même plus jouer au babyfoot le soir.

Risque de démission dans le prochain mois : 95%. Faut-il aussi vous donner la marge d’erreur ?

Résumons tout cela maintenant au travers d’un nuage de points.

Et maintenant, comment faire pour garder ce.tte Data Scientist dans mon organisation ?

Ça y est, vous êtes convaincu, les Data Scientists jouent un rôle fondamental au sein de votre entreprise et leurs travaux ont sensiblement amélioré la création de valeur de votre organisation. Mais vous remarquez que votre meilleur élément vient de passer son statut LinkedIn à « attentif au marché ». En effet, il s’ennuie déjà car les technologies utilisées dans votre société datent de la préhistoire du Big Data (MapReduce, Pig, Impala, Mahout, …). Au retour d’une des grandes conférences annuelles sur l’IA, celui-ci vous a fait part de son envie de recoder tous ses algorithmes Scala en Kotlin et de remplacer toutes les applications R Shiny par la nouvelle librairie Voilà exécutable dans un notebook Jupyter. Stop, pas si vite ! Rappelons que toute problématique doit être résolue par une approche et une méthodologie et non par un outil, quand bien même celui-ci serait le couteau suisse le plus performant du marché des éditeurs et de l’Open Source réunis.

En entretien annuel, vous avez signalé à votre Data Scientist que les équipes IT responsables de la mise en production sont peu satisfaites de la qualité de ses livrables. En effet, ses notebooks sont toujours pollués par des df.head(), des print(x) ou des sorties graphiques et le code n’est que rarement factorisé. Jamais factorisé, en fait. Ici, la meilleure solution sera d’établir une communication et un travail d’équipe entre les Data Scientists et les Data Engineers. Chaque métier a besoin de comprendre les contraintes de l’autre. Une formation aux bonnes pratiques de développement ne sera peut-être pas superflue même si votre Data Scientist vous réclame ce cursus de cinq jours pour apprendre à développer des algorithmes de NLP en PyTorch.

Pour réduire la frustration ressentie lors de votre refus de la formation PyTorch, pourquoi ne pas profiter des connaissances de ce nouveau Data Scientist qui vient d’être embauché pour développer le traitement d’images ? Bloquer un créneau de 2h chaque semaine pour que les Data Scientists puissent échanger sur les méthodologies et la veille réalisée par chacun. La curiosité et la pratique de la veille sont des points à évaluer en entretien, peut-être même au-delà d’un classement Kaggle, et constituent sûrement des qualités devant faire pencher la balance d’un recrutement. Il faut donc les valoriser lors du temps de travail et une veille organisée et collective sera plus efficace qu’un surf aléatoire sur le Web aux heures de digestion ou en dehors, la digestion étant souvent passée au babyfoot.

Et vous, qu’en pensez-vous ? Êtes-vous prêt à franchir le pas de l’embauche d’un.e voire plusieurs Data Scientists ? Malgré toute l’ironie et la légère part de mauvaise foi de cet article, nous vous y encourageons fortement !

--

--

Paul PETON
Paul PETON

Written by Paul PETON

Microsoft AI MVP #7 | MDW Partners France COO

No responses yet