Das Modul ETL Flow (Extract, Transform, Load, Workflow) sorgt dafür, dass Daten aus verschiedenen Quellen – bspw. ERP-, SAP-, XML- oder SQL-Datenbanken – extrahiert und an zentraler Stelle in ein Metadirectory synchronisiert werden. Entscheidende Prozesse sind dabei das Identifizieren von Daten anhand gewichteter Attribute (Duplikaterkennung) sowie deren Zusammenführung zu einem Datensatz (Datenharmonisierung).
didmos ETL Flow
ETL Flow
Workflow und Funktionen
Der Workflow wird über LDAP-Objekte konfiguriert, was die Parallelverarbeitung von Tasks ermöglicht. Deren Parameter und Werte können untereinander zugewiesen, im Speicher gehalten und/oder in einer Datei ausgegeben werden. Dabei sind bedingte Sprünge zu anderen Tasks selbst im Fehlerfall möglich.
Ein typischer Workflow sieht folgendermaßen aus:
- Auslesen der Datenquellen (z. B. über eine SQL-Abfrage)
- Konvertierung nach DSMLv1 als internes Standard-Format
- Aufbereiten über XSLT
- Identifizieren der Daten im IAM-System
- Zusammenführen von mehrfach vorhandenen Daten innerhalb einer Datenquelle
- Zusammenführen mehrerer Datenquellen (Erkennen von Mehrfachwerten nach Priorisierung der Datenquellen)
- Auslesen des IdM-Kerns
- Berechnen der Differenz
- Einspielen der Änderungen