Vous découvrez enfin les « big data » ?

Challenge Big Data SAS

Note Préliminaire : il s’agit un article invité non rémunéré écrit par SAS, une entreprise qui propose des solutions de business analytics.

Vous découvrez enfin les « big data »? Si oui, vous avez peut-être manqué l’important travail préliminaire qui a mené à sa naissance

Certains experts-conseils, journalistes, blogueurs et fournisseurs ont depuis plusieurs mois ou années jeté leur dévolu sur les données sous toutes leurs formes : les big data ou mégadonnées, les données extrêmes et les données multistructurées. En réalité, les données sont partout.

Il faut cependant savoir que ces personnes sont en retard, car le traitement de ces données existe depuis au moins une dizaine d’années. Au fil des ans, nous nous sommes retrouvés à normaliser, à corriger, à annoter, à déplacer, à vérifier, à dénormaliser, à charger, à analyser et à défendre les mégadonnées.

Réunir des données provenant de sources hétérogènes n’est pas chose facile. Même le plus brillant scientifique spécialisé en données vous dira qu’il consacre le plus clair de son temps à préparer des données pour l’analyse, et non à les analyser. La préparation des données est une lourde tâche, certes, mais c’est parce que les données proviennent d’un si grand nombre de sources. Le scientifique doit connaître la source de données, il doit également savoir où se trouvent d’autres versions de ces données, il doit consulter ces sources de données et les rapprocher. Ainsi, de nombreux scientifiques des données font appel à des programmeurs afin de pouvoir se concentrer sur leur tâche première. C’est la règle du 80-20 : à l’heure actuelle, ils consacrent 80 % de leur temps à essayer de mettre de l’ordre dans tout ça, pour y voir plus clair.

Et si nous n’avions plus à fouiller dans les dédales des systèmes et des sources variés, indûment complexes et bien souvent contradictoires? Et si nous pouvions plutôt naviguer dans les versions des données qui font autorité et les verser dans nos systèmes opérationnels et nos applications d’analytique? Et si nous avions un outil permettant d’automatiser tout ça?

Cet outil existe, il s’agit de la virtualisation des données et peut aider une entreprise à, entre autres, accélérer la cadence de ses activités d’analytique à grande valeur opérationnelle en automatisant les liens avec les sources et en analysant la couche de données. Les résultats sont saisissants : des rapports présentés aux décideurs, des économies de coûts, des revenus générés, des messages pertinents envoyés aux clients.

Bref, la virtualisation des données comme outils d’analytique permet de déterminer où sont vraiment toutes les données et vient en aide aux programmeurs, gestionnaires d’actifs informationnels, analystes opérationnels et scientifiques des données.

Voici une vidéo (en anglais) qui démontre comment la sagesse est l’utilisation efficace des connaissances dans la prise de décision grâce aux mégadonnées :