Big Data! Il ne faut pas être fort en anglais pour se douter de quoi on parle : grosse donnée. En fait, il s’agit d’abord de ‘Masse de données.’
L’esprit humain est habitué au volume de données et notre corps particulièrement. Il n’y a donc rien de neuf !
Et pourtant si : on ajoute la variété. Bof, nos étudiants (en supérieur) y sont contraints. C’est tout ?
Non car Big Data allie au Volume et à la Variété, la Vitesse. Et ça, il n’y a que nos ordinateurs pour y parvenir – et encore!
Internet, c’est un peu ça aussi. On y trouve de tout à la vitesse de l’éclair, même des choses qu’on ne voudrait ni voir ni savoir…
Ces 3V sont tels que les outils informatiques habituels ne suffisent plus.
Bon c’est quoi alors le Big Data ?
Essai de définition (car il n’y en a pas) : C’est un ensemble de moyens technologiques destinés à traiter une quantité immense (compter de mille à un million de fois la population de la terre) de données de tous les types (et formats) possibles en un temps extrêmement réduit (d’un clignement d’œil à quelques minutes) et de produire des… tendances. Par exemple dans le domaine du changement climatique.
Et Open Data, alors?
C’est une donnée d’origine publique ou privée et qui est diffusée de manière structurée (Wikipedia). Comme l’information publique est un bien commun, elle est d’intérêt public et libre d’accès. C’est un terme qui est préféré par les services publics qui désirent exploiter un maximum de données afin d’améliorer le vivre ensemble, la qualité des services et les économies en tout genre.
En quoi sommes-nous concernés avec le Big/Open Data ?
Il y a peu de chances que nous – individus lambda, entreprise de petite ou moyenne taille, association – soyons directement confrontés aux Big/Open Data. Mais il n’y a pas à y couper, nous serons impliqués car
- bon nombre des données nous concernent.
Les données que nous laissons en permanence derrière nous (emploi de la carte de crédit, usage de l’internet, utilisation du smartphone, localisation au GPS, achats favoris au supermarché ainsi qu’avec les cartes de fidélité, factures avec la TVA, etc.) sont déjà enregistrées et exploitées pour en tirer des trucs qui nous feraient flipper si nous y faisions un peu attention.
- nous serons tous concernés, d’une manière ou d’une autre, par ce qui en sortira et par les décisions qui seront prises une fois les données analysées.
Qu’en est-il de la sécurité des Big/Open Data ?
Les professionnels, les entreprises et les administrations publiques qui ‘en font’ ont du pain sur la planche car le problème à résoudre n’est pas simple pour prendre correctement en compte les critères de sécurité, principalement la confidentialité et ses aspects vie privée.
Première chose nous concernant : s’assurer que les informations collectées et prises en compte sont ‘autorisées’, qu’elles n’ont pas été volées, usurpées ou diffusées par erreur (cela arrive trop fréquemment). C’est notre droit à l’image et notre vie privée qui est en jeu.
La semaine dernière, en France, une dame a eu le ‘plaisir’ de retrouver son dossier médical complet, y compris son numéro de sécurité sociale et son nom, accessible sur internet.
Ensuite, si nous rencontrons des informations qui vous concernent et qui sont inexactes, nous devrions pouvoir les faire corriger et, au besoin supprimer.
Ce ne sera pas aussi facile. Car ce qui est un jour sur internet ne disparaît jamais totalement.
Attention, cependant, les informations ne nous identifieront vraisemblablement pas de manière directe. Mais, par recoupements simples, nous pourrions être parfaitement identifiables ! L’anonymisation n’est pas toujours parfaite et peut parfois être réversible !
Si les données traitées sont corrompues d’une manière ou d’une autre, les résultats, les analyses et des décisions qui seront prises auront des conséquences certaines. Heureusement, il y aura toujours contestation et d’autres études (Regardons les débats sur le nucléaire et la réchauffement climatique).
Si les données sont indisponibles ou hors des délais, les décisions seront également faussées.
Il est donc important de rechercher des sources fiables de données exploitables et de tracer leur vie pour espérer obtenir des résultats fiables.
Le sujet est-il assez démystifié ? Etes-vous rassurés ou vos craintes sont-elles augmentées ? Faites-moi part de vos questions. Et nous rouvrirons le débat.
A bientôt, plus en sécurité avec vos informations…
Jean-Luc
Google+