Categorieën
Blog

Het belang van een goed fundament

Op tv worden we overspoeld door huizenprogramma’s. Mensen die op zoek zijn naar hun droomhuis schakelen daarbij de hulp inschakelen van een tv programma omdat de krapte op de huizenmarkt weinig kansen biedt. ‘Kopen zonder kijken’ is zo’n programma die lekker wegkijkt en waarbij experts de regie overnemen van mensen die vaak ten einde raad zijn omdat hun droomhuis niet lijkt te bestaan. Toch weten de experts altijd weer een ‘opknapper’ te vinden die de kandidaten zelf nooit zouden durven kopen. Op het oog is het vaak een bouwval, in de praktijk ligt er vaak een goed fundament om, tegen redelijke kosten, een droomhuis te realiseren.

Een goed fundament, of eigenlijk datamodel genoemd, is ook binnen het BI vakgebied van groot belang. Er zijn genoeg mensen die binnen Microsoft Power BI een mooi dashboard kunnen maken op basis van een aantal losse tabellen. Maar eigenlijk bouw je dan een droomhuis op los zand. Het ziet er visueel prachtig uit, maar het is niet geschikt om analyses te maken.

Een voorbeeld hiervan is: Stel je hebt onderstaand dashboard gebouwd. Het is een omzetrapportage waarbij de omzet o.a. verdeeld is over artikelgroepen, vertegenwoordigers en regio’s. Wanneer ik wil weten wat Wim de Haan zijn beste verkochte artikelen zijn geweest in de provincie Zuid-Holland, dan is die analyse niet mogelijk wanneer je gebruik maakt van losse tabellen. De artikelgroepen, vertegenwoordigers en regio’s staan namelijk in aparte tabellen die niet met elkaar gelinkt zijn. Door middel van een goed datamodel kun je juist wél de gewenste dwarsdoorsnedes maken van de organisatie. Een aantal andere voordelen van een goed datamodel zijn:

  • Performance van de rapportage wordt verbeterd.
  • Inzichten zijn makkelijk uit te breiden omdat onderdelen makkelijk toe te voegen zijn.
  • Met een goed datamodel kunnen andere gebruikers ook eenvoudig aan de slag met BI.
Test dit dashboard hier . Klik op het plus pakket dashboard en kies voor “Omzet”

Net als bij een huis zijn er verschillende manier om het datamodel op te bouwen. Een huis kan volledig gemetseld worden, prefab op de bouwplaats arriveren. Ook kunnen er veel muren geplaatst worden, of de ruimte blijft zoveel mogelijk open met behulp van steunbalken. Zo zijn er op het gebied van datamodelleren ook verschillende technieken die toegepast kunnen worden. De drie meest bekende zijn:

  • Kimball Methode
  • Imnon Methode
  • Data Vault Methode

Kimball werkt volgens de buttom-up of user-driven methode. Hierbij wordt vooraf gekeken welke data relevant is voor het uiteindelijke doel. De benodigde data wordt opgedeeld in zogenaamde datamarts die gericht zijn op gebruikersgroepen. Vervolgens wordt deze data vertaald naar een dimensioneel model in de vorm van een sterschema. Dit is het meest gebruikte model in combinatie met Microsoft Power BI. In een volgende blog leggen wij uit wat een sterschema precies is en waarom dit een populaire methode is.

Inmon daarentegen werkt volgens de top-down of data-driven methode. Daarbij wordt eerst alle data verzameld in het datawarehouse, ongeacht of het relevant is voor het doel, om vervolgens op te delen in datamarts. Het voordeel is dat alle beschikbare data aanwezig is in het datawarehouse maar dat maakt het model ook meteen een stuk complexer en duurder wanneer er veel data beschikbaar is.

Tot slot is er de Data Vault Methode, bedacht door Dan Lindstedt. Met name de manier van modeleren is behoorlijk afwijkend van de andere methodes. Het idee is dat alle data in het datawarehouse wordt ingeladen, ongeacht de kwaliteit van de data. Dit is een grote pré wanneer compliance van groot belang is. Alle historie, inclusief foute transacties zijn immers aanwezig en kunnen geanalyseerd worden. Het datamodel zelf wordt opgebouwd uit hubs en satellieten die middels links aan elkaar verbonden worden. Dit is de meest complexe methode die vooral populair is bij multinationals met oneindig veel bronnen en de noodzaak om alle data te combineren.

Tot slot

Natuurlijk is dit slechts een notendop en valt er nog veel meer te vertellen over de voor- en nadelen van de technieken. In onze volgende blog gaan wij verder in op het gebruik van een sterschema in combinatie met Microsoft Power BI.