QCon London – Keynote d’ouverture – The Data Panorama

QCon London – Keynote d’ouverture – The Data Panorama

Chaque journée de la QCon de Londres est inaugurée par une keynote. Le premier jour de la conférence, ce sont Martin Fowler et Rebecca Parsons de ThoughtWorks qui se sont prêtés au rituel. Ils ont présenté une keynote d’ouverture nommée : « The Data Panorama ».

Pour eux, le sujet brûlant en 2012, c’est BigData. La donnée est partout et au centre de tout projet informatique. Plus exactement, la donnée est : distribuée, précieuse, connectée, et urgente.

La gestion de la donnée a évolué ces dernières années, notamment en terme de volume. Cependant, il existe aujourd’hui des solutions efficaces pour traiter cet afflux de données dans nos SI en passant par différents outils tels que les algorithmes Map/Reduce basés sur le principe de Divide & Conquer : il est plus intéressant de diviser en de multiples unités réduites de stockages et de traitements, plutôt que d’avoir une unité importante dont le coût d’acquisition peut être élevé. Le concept se décline aujourd’hui de façon optimale avec le cloud qui permet de payer uniquement des coûts d’exploitation correspondant à l’usage.

BigData n’est pas nécessairement un terme à définir. Il s’agirait plutôt d’une notion qui possède des caractéristiques. Le BigData est non relationel, open sourcecluster friendly, schemaless, et adapté aux besoins modernes du web et des entreprises.

Il existe différents types de bases de données NoSQL adaptés aux différents besoins de l’informatique : clé/valeur (Redis, …), document (CouchDB, MongoDB, …), colonne (HBase, Cassandra), et graph (Neo4j). En avril 2010, Michaël Figuière présentait ces différents types de bases NoSQL sur le blog de Xebia : NoSQL Europe: Tour d’horizon des bases de données. Martin Fowler estime toutefois que la base de données « classique » n’est pas à jeter aux oubliettes, mais plutôt à garder intégrée dans le SI en tant que partie de la solution globale à apporter à la problématique de gestion de la donnée.

Traditionnellement, les données en entreprise sont agrégées dans une base d’intégration (données de facturation, d’inventaire, etc.). Or, Martin Fowler met en avant le besoin de changer ce principe pour aller vers un nouveau design de stockage des données au niveau de chacune des applications. La donnée doit être alimentée par de l’Event Sourcing, ce qui revient à dire en des termes simplifiés que les systèmes informatiques doivent capturer les changements d’état des applications comme une séquence d’évènements. Ceci permet d’ouvrir de nombreuses perspectives telles que la reconstruction de données, ou bien la réexécution de scénarios rencontrés en production.

Le cloud est une des clés de la mise en œuvre de systèmes modernes de gestion des données. Martin Fowler le définit comme un outil disponible à la demande en self-service avec de fortes capacités d’élasticité accessibles rapidement. De plus, les outils Cloud doivent être monitorables, et agir en tant que pools de ressources.

Les aspects analytiques ont également changé pour évoluer depuis des besoins de tendance et de variance, vers des besoins de data mining, d’analyse de relations ou bien encore de reconnaissance de motifs. Hadoop, une implémentation de type Map/Reduce, est un outil qui permet de répondre à ces nouveaux besoins en distribuant les jobs de traitement de données sur différentes machines pour en extraire des données importantes et les grouper de façon à être exploitables. 

Martin Fowler aborde en fin de keynote l’importance de la visualisation des données. Il fait référence à un tableau périodique des méthodes de visualisation, qu’il est possible de trouver à l’adresse suivante: http://www.visual-literacy.org/periodic_table/periodic_table.html. Ce tableau permet de comprendre les différents types de données, de poser un visuel de celles-ci et rend compte de la complexité des données avec lesquelles nous travaillons. D’une certaine manière les informaticiens modernes deviennent des sortes des scientifiques ou plutôt des journalistes de la donnée : ils doivent être en mesure d’en extraire les informations pertinentes, afin de mieux anticiper et donc d’être plus réactifs face aux changements. Selon Martin Fowler, Il est de la responsabilité des développeurs de s’assurer qu’elles soient justes et qu’elle ne reflètent pas une visions déformée des informations.

Liens utiles:

Leave a Reply