didmos ETL Flow

ETL Flow

didmos Aufbauskizze

Das Modul ETL Flow (Extract, Transform, Load, Workflow) sorgt dafür, dass Daten aus verschiedenen Quellen – bspw. ERP-, SAP-, XML- oder SQL-Datenbanken – extrahiert und an zentraler Stelle in ein Metadirectory synchronisiert werden. Entscheidende Prozesse sind dabei das Identifizieren von Daten anhand gewichteter Attribute (Duplikaterkennung) sowie deren Zusammenführung zu einem Datensatz (Datenharmonisierung).

Workflow und Funktionen

Der Workflow wird über LDAP-Objekte konfiguriert, was die Parallelverarbeitung von Tasks ermöglicht. Deren Parameter und Werte können untereinander zugewiesen, im Speicher gehalten und/oder in einer Datei ausgegeben werden. Dabei sind bedingte Sprünge zu anderen Tasks selbst im Fehlerfall möglich.

Ein typischer Workflow sieht folgendermaßen aus:

  • Auslesen der Datenquellen (z. B. über eine SQL-Abfrage)
  • Konvertierung nach DSMLv1 als internes Standard-Format
  • Aufbereiten über XSLT
  • Identifizieren der Daten im IAM-System
  • Zusammenführen von mehrfach vorhandenen Daten innerhalb einer Datenquelle
  • Zusammenführen mehrerer Datenquellen (Erkennen von Mehrfachwerten nach Priorisierung der Datenquellen)
  • Auslesen des IdM-Kerns
  • Berechnen der Differenz
  • Einspielen der Änderungen

Aufbau

ETL Flow besteht aus einzelnen Komponenten für wiederkehrende Aufgaben, u. a. Konnektoren (Konvertierungsmodule, verschiedene System-Tools), Identifier, Xsltransform, Merger/Intramerger, Dsmldiff und Workflow.

Aufbau von didmos ETL Flow
Menü