DataTribune

Et si la reprise des données n’était pas un projet « prise de tête » ?

Ne nous méprenons pas, je ne sous-estime pas l’importance d’un chantier reprise des données mais force est de constater que bien souvent, l’investissement colossal mis sur ce chantier s’arrête au GO LIVE du système opérationnel cible dans une approche « one shot ». Notre conviction est que ce chantier qui mobilise du temps et de l’énergie doit être mis à profit dans une vision long terme pour capitaliser sur la somme des intelligences fonctionnelles et techniques mobilisée.

Notre approche pour la reprise s’inscrit ainsi dans la construction d’un socle technique et fonctionnel pérenne qui vise à :

  • Bâtir un data hub facilitant la reprise et les chantiers de mise en qualité des données,
  • S’appuyer sur les technologies Big Data et amorcer ainsi un datalake RH pérenne,
  • Permettre de répondre aux enjeux de traçabilité et d’auditabilité (pour les aspects réglementaires)
  • Faciliter le décommissionnement des anciens systèmes,
  • Être prêt pour le démarrage du système cible aussi bien pour la reprise que pour les aspects analytiques.

La mise en place d’un Data Hub pour la reprise des données doit répondre de notre point de vue aux enjeux suivants :

  • Mettre en place une architecture évolutive :
      • Mise en place d’une première brique très rapidement pour les premiers tirs de reprise tout en garantissant l’architecture globale du data hub
      • Prise en compte aisée des nouvelles sources de données et de l’augmentation de la volumétrie
  • Permettre de s’adapter à la trajectoire de reprise et gérer la qualité des données :
      • Prioriser les domaines métiers / pays en regard de chaque tir et de la trajectoire globale
      • Gérer la mise en qualité des données spécifique à chaque SI source et mutualiser les traitements communs (transcodifications dans les référentiels cibles, normalisation …)
      • Maîtriser la réalisation et les temps de traitement pour chaque tir de reprise
  • Assurer l’urbanisation et la traçabilité des flux provenant des SI sources jusqu’à la cible
      • Maitriser le déroulement des traitements dans les plages de traitements pour chaque tir de reprise
      • Éviter le foisonnement des sous-systèmes de traitement
      • Accepter des sources de forte volumétrie
  • Pour répondre à ces objectifs, nous préconisons une méthodologie de conception innovante basée sur l’approche Data Hub

Reprise des données classique versus Data Hub

Cette méthodologie innovante que nous avons développée se base sur un outillage industrialisé « Act-On Agile Data Toolkit » permettant la construction d’un Data Hub évolutif.

Nos références :

  • La mise en œuvre de cette méthodologie pour un de nos grands clients a permis d’accélérer et de sécuriser le chantier de reprise de données SIRH tout en garantissant :
      • La reconstruction de l’historique de données pour le reporting légal (en l’occurrence le bilan social),
      • La mise place d’un socle de données RH reprenant tout l’historique détaillée des systèmes sources, facilitant ainsi leur décommissionnement,
      • La construction d’une architecture datalake RH pérenne (de cible le SIRH devient source au GO LIVE) permettant de répondre aux enjeux de pilotage transverse,
      • La possibilité de mettre en œuvre de nouveaux usages comme la data science en ayant une profondeur d’historique facilement accessible (par exemple pour développer des moteurs de recommandations pour la formation se basant sur des cycles de formations de plusieurs années).
  • L’application de notre approche pour un autre de nos grands clients a permis dans un délai court de sécuriser la reprise des données depuis 7 SI sources vers SAP tout en bâtissant un datalake transverse pour répondre aux besoins analytiques et data science :
      • Mise en place du datalake dans AZURE,
      • Reprise des données,
      • Consolidation des référentiels,
      • Mise en place d’application analytiques,
      • Mise en place de Data Lab,
      • Mise en place de Web App pour répondre à des besoins nécessitant de croiser des données de différentes sources.

Nicolas EIMERY