Le réchauffement des données

0

Cette année, le thermomètre affiche déjà 32°C.C’est pour moi la preuve évidente que le réchauffement climatique a bel et bien commencé, et que des changements sont nécessaires pour enrayer le phénomène. Toutefois, le sujet de cet article n’est pas le réchauffement climatique, mais les données. Plus précisément la croissance des données non structurées et le sort qui nous attend si nous continuons à nous voiler la face et à ignorer les signes avant-coureurs. Un problème dont vous avez certainement déjà entendu parler.

La croissance des données non structurées est une réalité qu’il est difficile de nier. Même si les estimations et les études varient, toutes parviennent aux mêmes conclusions : le volume total de données en 2020 oscillera entre 40 à 50 zettaoctets, et 80 à 90 % d’entre elles seront des données non structurées.

Quelles sont les causes de la croissance des données non structurées ?

Il existe de nombreuses sources de données non structurées, à commencer par les émissions de télévision et les films HD 4K, ainsi que les films et les photos que nous réalisons tous quotidiennement à l’aide de nos smartphones. Mais les données non structurées couvrent un champ beaucoup plus vaste. Chaque jour, les machines et capteurs utilisés dans de nombreux secteurs s’appuyant sur les données, comme la recherche, l’ingénierie et la conception, les services financiers, l’exploration géospatiale, la santé, et bien d’autres encore, génèrent d’importants volumes de données. À elle seule, la vidéosurveillance produit près d’un exaoctet de données non structurées par jour, un chiffre à mettre sur le compte des résolutions de caméra et des durées de rétention de plus en plus élevées selon les législations en vigueur dans chaque pays.

Ces différents ensembles de données possèdent des caractéristiques communes. Ils sont généralement :

  • composés de fichiers de grande taille ;
  • incompressibles (des techniques telles que la déduplication ont peu d’effets sur la réduction des données) ;
  • précieux pour l’entreprise, le département ou les utilisateurs qui ont créé les données ;
  • stockés pendant plusieurs années.

Mais en quoi la croissance des données est-elle comparable au réchauffement climatique ?

Les gens se comportent comme si le problème n’existait pas. Bien que les entreprises génèrent chaque jour plus de données non structurées au sein de leurs environnements informatiques, aucune mesure particulière n’est prise pour gérer cette croissance. Contre toute attente, nombre d’entre elles gèrent et stockent leurs jeux de données non structurées en s’appuyant sur leurs méthodes de stockage habituelles, c’est-à-dire qu’elles les stockent sur disque. Cette approche commence cependant à montrer ses limites face à de tels volumes d’informations. La capacité à traiter et transférer rapidement du contenu vers un système de stockage augmente non seulement les coûts, mais s’essouffle aussi au fil du temps, tandis que les solutions traditionnelles de sauvegarde ne suffisent plus à protéger les données.

Ces ensembles de données massifs générés par les machines et les capteurs exigent clairement une approche différente du stockage et de la gestion.

Des données jusqu’alors considérées comme « froides » commencent à se « réchauffer » : une tendance très intéressante fait son apparition dans plusieurs secteurs d’activité. Une fois générés, tous ces jeux de données étaient auparavant traités, puis archivés. Mais de plus en plus d’entreprises s’aperçoivent qu’elles peuvent tirer un avantage supplémentaire de ces données « froides » :

  • Le contenu vidéo généré pour les studios de cinéma ou de télévision peut être réutilisé et redistribué (par exemple pour la diffusion d’épisodes sur les « coulisses du tournage » de votre émission de téléréalité favorite).
  • Les entreprises de la grande distribution analysent les images de vidéosurveillance afin d’étudier les comportements d’achat et exploitent ces informations pour accroître leurs ventes.
  • Les scientifiques analysent les jeux de données générés plusieurs années auparavant pour développer de nouvelles connaissances et faire avancer la recherche dans leurs domaines respectifs.
  • Les concepteurs de voitures autonomes utilisent le contenu vidéo et les données des capteurs générés lors des essais sur route initiaux en vue d’améliorer la sécurité et les performances des véhicules.

Je pourrais multiplier les exemples, mais une chose est sûre : ces données « froides » prennent de la valeur avec le temps, autrement dit se « réchauffent », et nécessitent par conséquent une nouvelle approche du stockage. Même les données archivées doivent rester accessibles aux utilisateurs.

C’est pourquoi il est urgent d’agir. Il est temps d’envisager d’autres options que l’augmentation de la capacité de stockage sur disque. Le maintien du statu quo est une solution de facilité qui augmente les coûts de stockage et se révèle en outre contre-performante.

Quelle est la solution ?

La réponse à cette question passe par la notion de « workflow de données ». Courant dans certains secteurs, ce concept est toutefois nouveau, bien qu’intuitif, dans beaucoup d’autres. Toutes les données non structurées évoquées précédemment sont associées à un workflow qui suit à peu près le schéma suivant : les données sont générées ou capturées, transférées vers un système de stockage, puis stockées et traitées pour parvenir à un certain résultat (la collaboration entre un grand nombre d’utilisateurs est souvent requise). Elles sont ensuite archivées en vue de leur rétention à long terme et de leur réutilisation. Le processus est plus efficace s’il est couplé à un système de stockage spécialement adapté aux spécificités de chaque workflow de données.

Le stockage pour workflow doit être en mesure d’offrir des capacités d’ingestion hautes performances lorsque c’est nécessaire. Autre exigence clé : la possibilité de partager les données sur le réseau pour faciliter la collaboration, et de les transférer vers des niveaux de stockage plus économiques, comme la bande, tout en laissant les utilisateurs et les applications libres d’y accéder sur le réseau quand ils en ont besoin. C’est ce dernier point qui permet aux entreprises de mieux exploiter les données archivées sans se ruiner.

Nettement plus économique que la conservation de l’ensemble des données sur disque flash ou rotatif, cette stratégie de stockage basée sur le workflow est aussi un moyen de tirer meilleur parti des données.

Dernier parallèle…

En utilisant un stockage multiniveau et en conservant la plupart de ces données sur un support de stockage écoénergétique et économique comme la bande, vous contribuez à la protection de l’environnement ainsi qu’à la lutte contre le réchauffement climatique.

Share.

About Author

Leave A Reply