Core Data WarehouseDatenmodelle traditioneller DV-Anwendungssysteme erreichen nicht die Performance und intuitive Bedienbarkeit, die im Rahmen dispositiver Informationssysteme notwendig ist. Data Warehouse Umgebungen, Management Informationssysteme oder Berichtsapplikationen benötigen endbenutzerorientierte Datenstrukturen.

Star und Snow Flake Modellierung für Data Marts
Endbenutzerorientierte Datenmodelle werden in Form von denormalisierten Modellen wie Star- oder Snowflake Schema abgebildet. Dabei werden die Auswertungsrichtungen mittels Dimensionstabellen, Kennzahlen hingegen über Faktentabellen abgelegt. Hierdurch werden typische Auswertungspfade semantisch und hinsichtlich der Performance vorbereitet. Aus diesem Grund werden Star und Snowflake-Datenmodelle auf Ebene der Data Marts angewendet.

Core Data Warehouse Modellierung
Bei komplexen unternehmensweiten Informationssystemen hat es sich bewährt, neben den fachlich aufbereiteten Modellen ein Core Data Warehouse (CDWH) vorzuschalten. Das CDWH enthält Detailinformationen hoher Granularität und zielt auf eine möglichst hohe Wiederverwendbarkeit der Daten für daraus abzuleitende Data Mart-Datenmodelle. Dabei kann es sich um Bewegungsdaten (Transaktionen, Sensordaten) sowie Stammdaten (z.B. Geschäftspartner, Produkte) handeln. Zur Modellierung eines CDWH haben sich zwei Verfahren bewährt.

Normalisierung
Die Normalisierung dient der Vermeidung von Redundanzen durch Aufteilung eines Datenbankmodelles in Attribute und Relationen. Dazu werden die Normalisierungsregeln der 1. - 5. Normalform sowie der Boyce-Codd-Normalform angewandt. Für CDWHs haben sich die 2.-3. Normalform bewährt, wodurch z.B. komplexe Datenzusammenhänge inkl. Historisierungen redundanzarm abgelegt werden.

Data Vault Modellierung
Data Vault wurde entwickelt, um mit den stetig steigenden Anforderungen an Data Warehouses durch wachsende Datenmengen und steigende Komplexität, bei gleichzeitiger Reduktion der Zeiträume für die Beladung und Pflege von CDWHs besser umgehen zu können. Wesentliche Merkmale der Data Vault Modellierung sind:

  • Komplexitäts- Struktur-Entkopplung
  • Impactreduktion
  • Kapselung für Modelländerungen und –erweiterungen
  • Erhöhung der Geschwindigkeit durch massiv parallelisierbare Ladeprozesse aufgrund strukturelle Entkopplung
  • Adaptierbarkeit durch flexible Strukturerweiterung bei gleichzeitiger Historisierungsoption

 

Unsere Kompetenz
Wir unterstützen unsere Kunden bei der Erarbeitung einer unternehmensweiten- und anwendungspezifischen Informationsarchitektur. Dabei werden sowohl die endbenutzerorientierten Datenmodelle auf Basis der fachlichen Anforderungen, als auch CDWH Modelle unter Berücksichtigung der technischen Anforderungen an Performance, Redundanzfreiheit, Wartbarkeit und Agilität abgestimmt.

Data MartZiel ist, für eine gegebene Aufgabenstellung aus dem Umfeld Business Intelligence ein implementierungsnahes Datenmodell zu erarbeiten. Die denormalisierten Datenmodelle in dispositiven Informationssystemen richten sich nach den Abfragenotwendigkeiten der Endbenutzer. Aus diesem Grund muss die Erarbeitung des Datenmodelles auf dem fachlichen Wissen der Endbenutzer aufgebaut werden. Zusätzlich sind technische Restriktionen zu beachten. Diese können jedoch durch den Einsatz vielfältiger technologischer Optionen im Bereich der physischen Datenspeicherung berücksichtigt werden.

Im Rahmen von Workshops mit den Fachbereichen werden typische Steuerungsbereiche (Berichtsstrukturen) in Form von Hierarchien und Wertvariablen identifiziert und nach fachlichen Themenbereichen aufbereitet. Diese Zusammenhänge werden mittels geeigneter Methoden wie Information Packaging dokumentiert. Die Erarbeitung des logischen Datenmodelles wird bei komplexen Zusammenhängen durch etablierte  Verfahren der Entity Relationship Modellierung ergänzt. Auf Basis des Wissens um die Informationsanforderungen werden dann durch geeignete Denormalisierungen multidimensionale Informationsräume beschrieben. Diese fachlichen Informationsräume zeigen organisatorische Berichtsstrukturen, Planungsebenen und Detaillierungstiefen von Analysewerten und Kennzahlen.

Aus den Ergebnisdokumenten der Workshops mit den Benutzern sind unmittelbar Handlungsempfehlungen für die Implementierung abzuleiten. So werden die konzeptionellen Modelle des Information Packaging in Relationendiagramme der Star- und Snowflake Modellierung umgesetzt. Durch eine Vorplanung von typischen Datenzugriffspfaden wird eine gezielte Vorverdichtung möglich wodurch sich die Abfragegeschwindigkeit erhöhen lässt. Werden physisch multidimensionale Datenbanken mit matrizenorientierter Speicherung eingesetzt, so sind für diese Verdichtungen typischerweise sehr einfache Administrationsmechanismen in gängigen Werkzeugumgebungen verfügbar. Eine technische Kombination von tabellen- und matrizen-orientierten Datenspeicherungen erlaubt zudem eine extreme Flexibilität bei der Ausgestaltung fachlich angereicherter und intuitiv recherchierbarer Informationsräume.

Zur Ausgestaltung des CDWH werden zeitgleich, die für die Bildung der Kennzahlen und Berichtsstrukturen relevanten Liefersysteme analysiert und die zu liefernden Basisdaten identifiziert. Ergebnis dieser Phase ist ein Basisdatenkatalog, eine Abhängigkeitsmatrix und das Schnittstellendesign. Basierend auf den definierten Informationsräumen und den in den Quellsystemen identifizierten Basisdaten wird das CDWH modelliert. Abhängig von den Anforderungen an Flexibilität, Wartbarkeit, Performance und Agilität werden Methoden der klassischen Normalisierung oder der Data Vault Modellierung eingesetzt.

INFORMATION WORKS setzt im Rahmen der Informationsbedarfsanalyse und der Datenmodellierung Best Practice Templates der metaWORKS® BI Reference Library ein.