On le répète souvent : si vous avez des données, DCbrain pourra vous donner des recommandations pour optimiser le fonctionnement de votre réseau. Cela semble simple mais ça ne l’est pas toujours. Encore faut-il que les données fournies puissent être transformées pour être exploitables par notre outil Intelligent Network Solutions.

François Lacombe, Lead Data Engineering chez DCbrain est la personne en charge de ces traitements pour rendre vos données accessibles à nos outils. François est un spécialiste de la donnée brute qui remonte depuis les capteurs de nos clients et qu’il transforme ensuite en données exploitables pour nos outils de visualisation et d’optimisation des réseaux.

Entre deux chargements de données, il a pu nous en dire plus sur les outils qu’il développe et utilise :


Est-il vrai qu’il suffit d’avoir des données pour travailler avec DCbrain ?

Avoir des données ne signifie pas qu’elles sont exploitables…

DCbrain développe un logiciel complexe et on pourrait être tenté de croire que le chargement des données client est par conséquent la partie facile du travail, voire que cela se fait tout seul… 

En effet, tout commence par les données, mais dans la plupart des cas elles sont incomplètes, dans des formats propriétaires (bien souvent peu accessibles à la différence de standards comme le CSV) ou encore redondantes / incohérentes.

Leur transformation est donc un prérequis sans lequel le travail ne peut encore commencer. Nos équipes se tiennent évidemment à disposition pour un accompagnement personnalisé pour le mener à bien.

Comment normalise-t-on les données ?

Nous mettons en oeuvre les principes des données liées (LinkedData) en décrivant précisément les structures sur lesquelles nous travaillons et nous les connectons entre-elles avec une standardisation proche d’une sémantique métier industrielle. Concrètement, nous écrivons des schémas qui sont partagés entre nos différents composants, à commencer par notre chaîne de chargement.

Nous développons notre propre ETL (Extract Transform Load) basé sur Apache Flink qui est intégré à notre outil Intelligent Network System pour traiter la masse de données brutes issues d’un système de capteurs, combinée éventuellement à des données externes pour entraîner nos modèles IA.

Notre ETL répond à deux grands objectifs :

  1. Industrialiser nos traitements de données : pour rejouer un traitement sans intervention manuelle et gagner du temps. Bien souvent ces traitements consistent à traduire toutes les données entrantes des clients pour nos exigences internes. 
  2. Disposer d’une vision plus consolidée de la qualité des données entrantes tout en protégeant nos systèmes en aval de toute incohérence en amont.

Il est par ailleurs en développement permanent pour devenir de plus en plus efficace. Nous pouvons notamment mentionner :

  • Le développement des connecteurs pour prendre en compte encore plus de formats de données. Actuellement nous en traitons plus d’une dizaine, dont les plus courants sont csv, xml et json. A l’avenir nous pensons inclure par exemple le standard OPC UA (IEC62541) afin de se rapprocher du secteur industriel.
  • L’intégration d’algorithmes de Machine Learning pour rendre nos traitements plus efficaces sans avoir à utiliser de logiciel dédié. Les données parviennent à la fin du traitement immédiatement qualifiées sans traitement supplémentaire.

Que se passe-t-il ensuite avec la donnée normalisée ?

Structurées, les données sont stockées au centre de notre solution et les différents composants peuvent tour à tour venir s’alimenter sur une unique source. Des incohérences peuvent avoir été détectées et sont renvoyées au producteur des données ou peuvent conditionner d’autres fonctionnements ou alertes dans nos outils de visualisation.

Les passerelles établies entre les données du client et les besoins de nos logiciels permettent un fonctionnement plus efficace, ciment du dialogue entre nos utilisateurs et les développeurs.

Pourquoi travailler avec DCbrain (entre autres) ?

En pratique il arrive fréquemment que des projets informatiques échouent uniquement parce-que les données ne sont pas de qualité. Cela est dû au fait que certaines entreprises n’ont pas de vision sur leur trajectoire dans ce domaine et ne peuvent en conséquence tenir leurs données prêtes, faute de savoir comment les valoriser à l’avenir. En outre, nous défendons une vraie vision “plateforme” qui permettrait de mieux envisager l’avenir. La structuration réalisée pour transformer les données en vue de leur valorisation dans nos solution y contribue pleinement.

En revanche, un projet peut se monter deux fois plus rapidement si les données entrantes sont exploitables et cohérentes.
DCbrain a développé une technologie qui industrialise les chargements de données de ses clients. Cela apporte une plus grande rapidité au projet une fois que la roadmap a été définie.
Tous les traitements sont faits sur nos serveurs sécurisés.

 

Découvrez un de nos cas clients les plus emblématiques en termes d’application de SIG (Système d’Information Géographique) est GRDF pour lequel nous avons notamment fait une analyse topologique qui permet ensuite de construire et d’alimenter le graph qui permettra la visualisation du réseau physique entre autres.

Photo: Florian Paris – Creative Commons 4.0 BY-SA