Conformité, sécurité, performance… Tout commence par une bonne hygiène des données !

Le printemps est là, et avec lui, la tradition du grand nettoyage. C’est donc le moment idéal pour penser à faire le ménage… dans ses données. Car l’indexation et la classification sont les fondations d’une bonne hygiène des informations. Une fois les données correctement indexées, on connaît tout d’un fichier : sa date de création, son auteur, sa taille, et bien plus encore. Ajoutez à cela la classification. On comprend ainsi la nature de ces données et la manière dont elles doivent être gérées en fonction de la réglementation et des politiques d’archivage de l’entreprise.

Mark Molyneux
By Mark Molyneux Published on 4 mai 2025 9h30
double authentification sécurité données sms
Le sms obsolète dans la double authentification. - © Economie Matin
24%Le marché mondial de la classification des données devrait croître de 24 % par an entre 2024 et 2031

L'impact ? Considérable. De la conformité réglementaire à la réduction des coûts, une gestion appropriée des données améliore les performances des requêtes, pose les bases de tout projet d’innovation, notamment lié à l’IA, et accélère la restauration du patrimoine de l’entreprise en cas de cyberattaque. Avec un marché mondial de la classification des données qui devrait croître de 24 % par an entre 2024 et 2031, pour peser près de 9,5 milliards de dollars, les organisations commencent à prendre conscience de son importance.

Garantir la conformité réglementaire

Que se passe-t-il quand l’hygiène des données est négligée ? Les informations se retrouvent éparpillées un peu partout : ordinateurs portables, boîtes mail, clés USB, serveurs... Le tout sans la moindre gouvernance. Forbes révèle que ces pratiques sont courantes, affectant jusqu'à 33 % des entreprises. Certains experts vont même jusqu'à dire que les "dark data" ainsi générées pourraient représenter 88 % du volume total. Dans ces conditions, impossible de se conformer à des réglementations comme le RGPD en Europe, le CCPA aux US ou le PDPB en Inde…

Les réglementations exigent en effet une récupération des données à la fois précise et exhaustive. Pour répondre à cette contrainte, les entreprises peuvent choisir entre deux approches. La première, manuelle, est longue et fastidieuse. La seconde, automatisée, offre une solution plus rapide et performante. C'est ici que les logiciels d'indexation prennent toute leur importance : ils analysent les fichiers en profondeur, extraient les métadonnées et permettent une catégorisation complète. En combinant indexation et classification, l'entreprise transforme ses données en un véritable atout stratégique.

La catégorisation des fichiers permet de reprendre le contrôle sur la conformité réglementaire. Les demandes d'accès aux données sont traitées dans les temps, évitant les sanctions financières. Les informations personnelles protégées, dont la conservation n'est plus justifiée, sont facilement identifiées et supprimées. En cas d'attaque de ransomware, l'entreprise peut rapidement identifier les données compromises et réagir de manière appropriée, comme l'exigent les réglementations telles que DORA.

Réduire les coûts grâce à un stockage plus intelligent

L'indexation des données est un élément essentiel d’un stockage plus intelligent. En organisant systématiquement les données, les entreprises peuvent s'assurer que seules les données dites « chaudes » c’est-à-dire fréquemment consultées, sont stockées sur les plateformes de stockage primaires. Cette approche permet une hiérarchisation efficace, allouant les données à la solution de stockage ou de cloud la plus appropriée en fonction de leur utilisation et de leur importance. Les données fréquemment consultées bénéficient de systèmes performants, tandis que les données moins critiques sont déplacées vers des solutions plus économiques, ou supprimées.

L'indexation et la classification facilitent également la mise en œuvre de politiques de gestion du cycle de vie des données, permettant d'identifier et d'archiver les informations inutiles et d'éviter l'expansion coûteuse de l'infrastructure de stockage. Une étude Forrester a révélé que les solutions d'indexation et de classification permettent de réduire les coûts de sauvegarde et de données de 66 % en moyenne, grâce à la réduction de la duplication et à l'optimisation des coûts de stockage. En 2024, l'optimisation des coûts est devenue la priorité des responsables informatiques, dépassant même la préparation à l'IA. Une bonne gestion des données ne se contente donc pas de soutenir l'IA, elle permet aussi de réaliser des économies substantielles.

Faire progresser les objectifs de développement durable

Il existe souvent un écart entre les objectifs de développement durable et les actions entreprises pour les atteindre. Souvent, cela se résume à des opportunités de décarbonation qui sont négligées. Incidemment, une université en Angleterre a développé le Digital Carbon Footprint Toolkit, un simple calculateur qui montre le pire scénario des émissions carbone provenant des données et permet de visualiser les émissions des « dark data ».

De nombreuses entreprises stockent tout par défaut, y compris les enregistrements inutiles, obsolètes et même non conformes. Quelqu'un, quelque part, a un jour décidé de conserver quelque chose pendant sept ans, dix ans ou indéfiniment, sans véritable gouvernance. Si les plus grands fournisseurs de cloud stockent des exaoctets de données, ce n’est pas parce qu'ils en ont besoin, mais parce que les clients ne gèrent pas correctement leurs propres données.

D'un point de vue commercial, la hausse des coûts de l'énergie et du stockage pousse naturellement les entreprises à commencer à réduire leurs dépenses. Mais sans classification ni indexation, comment savoir quoi supprimer ?

La plupart des responsables RSE dans les entreprises ne sont pas des experts informatiques. Ils se concentrent sur des sujets comme la réduction de la consommation d'énergie en éteignant les lumières la nuit, en installant des bornes de recharge électrique sur le parking ou en mettant les écrans en veille. Mais l'impact réel vient bien de la réduction du stockage et des calculs inutiles. Si les entreprises géraient efficacement leurs données, elles pourraient supprimer des pétaoctets de serveurs et de stockage inutiles. Cela signifie moins de baies de stockage, moins de serveurs, moins de réseau, des besoins réduits en énergie et en refroidissement. Mais aussi fermer une salle informatique, un étage entier d'un datacenter, voire même déclasser une installation entière…

Débloquer des informations exploitables grâce à l'IA

L'un des plus grands défis dans la préparation des données pour l'IA est lié aux préoccupations en matière de gouvernance et de sécurité (45 %), suivi par la classification et le taggage des données (41 %). En effet, les entreprises commencent enfin à réaliser que l'IA n'est aussi performante que les fondations sur lesquelles elle est construite.

Lorsqu'une entreprise dispose d'un cadre solide pour l'ingénierie des données, il est beaucoup plus facile d'utiliser une application d'IA générative conçue pour aider les entreprises à interroger leurs données à l'aide du traitement du langage naturel. Non seulement les entreprises qui ne disposent pas d'une gestion appropriée des données n'ont aucune base pour les informations exploitables par l'IA, mais elles doivent également fouiller manuellement dans d'innombrables fichiers pour récupérer les informations pertinentes.

La valeur des services de classification des données réside dans leur capacité à exploiter la "génération augmentée de récupération" (RAG). Ce système permet d'obtenir des réponses précises et pertinentes en puisant directement dans les données classifiées de l'entreprise, plutôt que de se fier à des sources externes non vérifiées. Pour vérifier la conformité à une réglementation, l'entreprise dispose ainsi d'une information fiable, avec la justification de la classification et la provenance des données.

Cette approche contraste avec les outils d'IA grand public comme ChatGPT, Alexa ou Siri, qui manquent de transparence quant à l'origine de leurs informations. Les solutions d'indexation et de classification d'entreprise, au contraire, s'appuient sur des données classifiées et indexées pour garantir la conformité et la confiance.

L'hygiène des données : un atout stratégique

Les entreprises commencent enfin à prendre conscience que l'indexation et la classification des données sont essentielles, notamment pour répondre aux exigences réglementaires. Le RGPD a ouvert la voie, mais d'autres réglementations, comme la loi européenne sur l'IA, viennent renforcer cette nécessité. Comment garantir le droit à l'oubli si l'on ne sait pas où se trouvent les données ? Comment gérer les priorités entre les différentes réglementations ? Et la conformité n'est que la partie émergée de l'iceberg. Au-delà il est important de comprendre qu’une bonne hygiène des données permet de démultiplier leur valeur, d'améliorer la sécurité ou encore d’améliorer sa durabilité. Indexer et classer ses données n’est plus une option, mais bien une nécessité !

Mark Molyneux

CTO EMEA chez Cohesity.

No comment on «Conformité, sécurité, performance… Tout commence par une bonne hygiène des données !»

Leave a comment

* Required fields