En 2022, l’analytics vous doit des bénéfices !

6 min readDec 20, 2021

A l’approche de la nouvelle année, je reprends ma plus belle plume subjective, et teintée d’ironie, pour dévoiler les tendances du monde de la data et plus particulièrement de celles de l’analytique (vous savez, la sempiternelle injonction à “faire parler les chiffres”…).

En 2021, même les entreprises les moins data driven disposent de leur Data Lake, ce puits sans fond de la data pas trop structurée, qui a parfois tourné à la décharge publique. Si stocker coûte un peu d’argent, extraire de la valeur, c’est-à-dire calculer, en coûte beaucoup plus ! Alors comment réussir l’équation économique du retour sur investissement ? En travaillant à l’économie ! Voici quelques pistes.

Ne payez pas pour une puissance de calcul à l’arrêt.

Il est grand temps d’adopter l’approche Lakehouse et de ne plus faire tourner d’immenses entrepôts (Datawarehouse) sur des bases de données facturant en continu, même quand elles ne sont pas requêtées. Les formats de fichiers orientés colonnes, compressés et autorisant des opérations CRUD sont maintenant le stockage incontournable dans les couches raffinées des Data Lakes. Couplez ceci à des ressources de calcul dites serverless, c’est-à-dire non pas sans serveur mais plutôt sans contrainte de provisionner un serveur de manière continue.

Attention, le Lakehouse ne résout pas la problématique de nager en rond à la surface du lac, sans trouver les bonnes informations. Il faudra l’accompagner d’une démarche de gouvernance et d’outils comme un data catalog, permettant de réaliser discovery et lineage de la manière la plus automatisée possible. Le défi reste à ce jour le scan automatisé des traitements, souvent dans une multitude de langages, permettant de tracer les transformations, filtres, jointures, etc. Le catalogue représente un investissement plus qu’une économie : il sera long à mettre en place, surtout si l’on s’y prend tard. Mais nous reviendrons sur son caractère indispensable dans la fin de cet article. Etape ultime de la démarche de cataloging : savoir identifier les données utilisées dans les algorithmes, car le moindre changement sera source potentielle de dérive (drift).

La détection de dérive n’est plus une option.

Lorsque vous posez une question à quelqu’un, préférez-vous qu’il se taise ou bien qu’il vous mente ? C’est ainsi que l’on pourrait résumer la différence entre un modèle de Machine Learning qui bugge et un modèle qui drifte. La dérive est un phénomène pouvant provenir de nombreuses causes (changement dans la nature des données en entrée, dans les relations entre celles-ci et la cible du modèle, modification des règles de préparation, etc.). Elle est extrêmement dangereuse si l’on ne s’en aperçoit pas car, dans un contexte de production, un modèle en dérive réalisera de la “désinformation”. Fake news !

De nombreux outils (Great Expectations, Evidently.ai, Alibi_detect…) voient le jour pour aider à cette détection et gageons que l’un d’entre eux réussira sans doute à sortir du lot lorsqu’il alliera simplicité d’utilisation et efficacité du couple détection — alerte. Viendra ensuite le temps d’élaborer les scénarios correctifs de cette dérive dont le premier qui vient en tête est le réentrainement du modèle (mais ce n’est sûrement pas le seul). Vous l’aurez compris : mettre en place un suivi de la dérive est aussi un investissement, ne vous permettra pas d’augmenter la valeur de votre modèle mais vous évitera de profondes déconvenues.

En monolithe ou orientée produit, la data doit être de qualité.

Vous pourrez, en 2022, vous laisser séduire par les sirènes du data mesh et sa vision “produit” qui évite de se noyer au fond du lac. Pensez à planifier rapidement un workshop avec une armée de consultants prompts à proposer des “solutions”, voire un solutionning. Et dîtes-vous que, quelque soit l’outil ou la méthode, ce sont les défauts de qualité des données qui vous empêcheront de faire décoller les projets data. Data quality debt… Référence dans le domaine du Machine Learning, Andrew Ng insiste sur le virage “data-centric” qui faut prendre au lieu de se focaliser sur le modèle (“model-centric”). Sans faire table rase du “monolithe-centric” que constitue le data lake, il faut peut-être interroger le nommage des couches tels que bronze, argent, or (d’ailleurs, quel nom pour une 4e couche ?) qui ne retranscrit qu’une vision technique des traitements et aucunement métier. Appuyez-vous sur la couche raw de votre data lake, où sont stockées les données “telles qu’elles arrivent” et rebaptisez-là “landing zone” pour paraître plus tendance. Puis, déterminez une classification plus orientée business de vos données nettoyées, raffinées ou encore agrégées.

L’opérationnalisation assure la continuité de valeur.

En 2022, nous n’échapperons pas non plus à de nouveaux mots en ‘Ops. Depuis le mouvement DevOps, tout doit se décliner de manière “opérationnelle”, c’est-à-dire selon les principes agile ou lean, et sous forme de code, car c’est bien le code qui permet de respecter les processus d’intégration et de déploiement continus (CI/CD). Tiens, verrons-nous enfin apparaître un outil no code vraiment compatible avec un gestionnaire de versions ?

Sans tomber dans la vision négationniste du NoOps ou fourre-tout du DevSecOps, il est temps de maîtriser, en pratique, DataOps et MLOps. Le premier nous invite à penser en pipelines mais aussi en continuité de valeur de la donnée. Déposons ici le concept de Continuous Valorization.

Une extraction de données va répondre à un besoin ad hoc, ainsi une étude ponctuelle qui apportera de premières conclusion, et permettra d’estimer la valeur de ces données. Il s’agira ensuite de mettre en regard cette valeur et le coût nécessaire à la pérennisation du flux de données correspondant. Si ce flux sera bien sûr automatisé, il pourrait bien tomber en erreur de temps en temps (souvent au moment où l’on en a le plus besoin…) et demander une intervention. Assurez-vous que la donnée génère une valeur supérieure au coût de supervision et de maintenance des traitements.

Disons le tout net, le MLOps va vous demander un peu d’investissement. Mais avec un peu d’accompagnement (préférez les consultants qui interviennent pour résoudre des problèmes plutôt que pour “déployer des solutions”), des échecs rapides, des analyses critiques et du flair sur les bons outils, vous obtiendrez un socle robuste prêt à accélérer l’intégration de modèles prédictifs dans votre SI (ah, méfiez-vous aussi des consultants qui utilisent le mot “accélérateur”…).

Pas de baguette magique, no silver bullet, il faudra prendre soin de versionner l’ensemble des éléments du processus pour assurer la reproductibilité des algorithmes. Vous pourriez en avoir besoin lorsque l’un de vos clients exercera son droit à l’obtention d’”informations utiles concernant la logique sous-jacente, ainsi que l’importance et les conséquences prévues [du] traitement“ (Règlement Général sur la Protection des Données). Voici une idée de Ce Qu’il Faut Versionner pour être en capacité de revenir en arrière.

Etre plus nombreux à tirer profit de la donnée.

Et si en plus de faire des économies, vous proposiez au plus grand nombre de tirer profit des données collectées et préparées ? Alors, il faudra se résoudre à permettre aux utilisateurs de ne pas dépendre de celles et ceux qui savent coder.

Trois piliers seront nécessaires pour mener à bien cette démarche :
- Cataloguer la donnée et ses flux : comme évoqué ci-dessus, identifier où sont les données, comment elles vivent, qui en sont les référents
- Ouvrir au Self Service : accéder facilement à une donnée fiable (au moins une partie de la donnée, à l’aide de sécurités appliquées “à la ligne” et “à la colonne) et l’analyser (reporting, graphiques, etc.)
- Réaliser grâce au no code : il n’est pas nécessaire de savoir développement mais il y aura sûrement des limites si l’on sort du cadre prévu par l’outil ou si l’on veut revenir dans les normes d’industrialisation

Si l’on a beaucoup évoqué les outils de Décisionnel libre service, les plateformes de Data Science semblent trouver un second souffle avec la généralisation de l’automated ML. Alors, allez-vous ouvrir les porte du Data Lake aux citizen data scientists ? Il faudra y aller de manière progressive et encadrée : donner des clés méthodologiques et surveiller les usages. Rien n’est plus facile aujourd’hui que de produire un modèle totalement biaisé par son échantillon d’apprentissage.

Que vous soyez libriste convaincu, vendor locké dans le multicloud ou bien en recherche d’un cloud souverain, cette nouvelle année 2022 s’annonce encore plein de nouveautés, de bouleversements de paradigmes et de cheveux arrachés pour des choses qui devraient être simples depuis le temps qu’on y est confronté : manipuler les dates, gérer les encodages, suivre les changements de structure des fichiers, etc. Alors, vivement 2023 !