top of page

Uutiset

Uutiset kokoaa yhteen tiimimme asiantuntijoiden kirjoittamia ajankohtaisia blogipostauksia sekä uusimpia asiakastöitämme. Tutustu alta uusimpiin julkaisuihimme.

Tietomallinnuksen menetelmät vertailussa: Dimensionaalinen, 3NF ja Data Vault

  • Writer: webadmin706
    webadmin706
  • 14 minuuttia sitten
  • 4 min käytetty lukemiseen

Tietomallinnus on ollut keskeinen osa tietovarastointia jo vuosikymmeniä. Alun perin tietomallit kehittyivät lähinnä relaatiotietokantojen tarpeisiin, joissa kolmannen normaalimuodon mallinnus (3NF) oli vallitseva standardi. Myöhemmin dimensionaalinen mallinnus nousi keskiöön liiketoimintatiedon hallinnassa ja raportoinnissa. Viime vuosina Data Vault on saanut suosiota erityisesti joustavuutensa ja skaalautuvuutensa ansiosta. Eri mallinnusmenetelmillä on jokaisella omat erityispiirteensä, hyötynsä ja haasteensa.


Tietovaraston koko elinkaaren kannalta on tärkeää miettiä mallinnustavan vaikutuksia kehittämiseen, ylläpitoon ja skaalautuvuuteen.  Tämä blogi on jatkoa aikaisemmin julkaisemallemme tietoalustoja käsittelevälle blogille. Tässä blogissa käymme läpi kolme yleisintä mallinnusvaihtoehtoa: dimensionaalinen mallinnus, kolmannen normaalimuodon mallinnus ja data vault -mallinnus. Pohdimme, millaisiin tilanteisiin kukin mallinnustapaopii parhaiten, sekä arvioimme niiden hyötyjä, haittoja sekä vaikutuksia tietovaraston kehittämiseen ja koko elinkaareen.


 

1. Dimensionaalinen mallinnus

Dimensionaalinen mallinnus keskittyy tietojen järjestämiseen faktojen ja dimensioiden avulla. Tämä mallinnustapa on erityisen yleinen liiketoiminta-analytiikan ja raportoinnin tarpeisiin, sillä se optimoi kyselyiden suorituskykyä. Esimerkkejä dimensionaalisista malleista ovat tähtimalli (star schema) ja lumihiutalemalli (snowflake schema).


Hyödyt:

  • Helppokäyttöinen: Dimensionaaliset mallit ovat helposti ymmärrettäviä ja tarjoavat intuitiivisen tavan organisoida dataa. Ne sopivatkin hyvin hyödynnettäviksi raportointiin ja analytiikkaan.

  • Suorituskyky: Mallit optimoivat kyselyiden suorituskykyä erityisesti tilanteissa, joissa raportointivolyymit ovat suuria ja aggregaatiot monimutkaisia.

  • Lyhyt kehitysaika: Dimensionaalisten mallien kehittäminen on nopeaa, joten ne soveltuvat hyvin tilanteisiin, joissa markkinoille on päästävä nopeasti. Malleja on myös nopea mukauttaa liiketoiminnan muuttuviin tarpeisiin.


Haitat:

  • Päivityksen monimutkaisuus: Dimensionaaliset mallit eivät ole ihanteellisia historiatiedoissa tapahtuvien muutosten käsittelyyn. SCD (Slowly Changing Dimensions) -mallien hallinta voi olla työlästä.

  • Useiden lähteiden yhdistäminen: Jos käyttötapauksessa tarvitaan useiden eri lähdejärjestelmistä syntyvien tietojen yhdistämistä, voidaan tietojen dimensionaaliseen malliin yhdistämiseksi joutua tekemään paljon eri välirakenteita tai hyödyntämään taustalla jotain toista mallinnustapaa.

  • Skaalautuvuuden haasteet: Suurissa ja monimutkaisissa tietovarastoissa voi tulla vastaan skaalautuvuuteen ja ylläpitoon liittyviä haasteita, jos arkkitehtuurissa ei hyödynnetä muita mallinnustapoja.


Sopii parhaiten: 

Liiketoimintaprosessien analytiikkaan ja raportointiin, jossa datan rakenteen ja kyselyiden yksinkertaisuus on ensiarvoisen tärkeää.



2. Kolmannen normaalimuodon mallinnus (3rd normal form, 3NF)

Kolmannen normaalimuodon (3NF) mallinnuksessa pyritään tietojen redundanssin poistamiseen ja tietokannan normalisointiin. Tietokannan jokainen taulu ja suhde pyritään esittämään mahdollisimman hienojakoisesti. Näin samaa tietoa ei tarvitse tallentaa moneen eri kertaan.

Hyödyt:

  • Tietojen eheys: Normalisoitu rakenne varmistaa, että data on hyvin strukturoitua ja ehyttä, mikä minimoi redundanssin ja virheet tietokannassa.

  • Soveltuvuus monimutkaisiin tietomalleihin: 3NF-mallinnus toimii erinomaisesti ympäristöissä, joissa data tulee monista eri lähteistä ja vaatii korkeaa datan konsistenssia ja monimutkaista yhdistelyä.

  • Helppo päivittää: Tiedot ovat jaoteltu hyvin hienojakoisesti, joten päivitysten ja muutosten tekeminen yksittäisiin tietokohteisiin on helpompaa.


Haitat:

  • Suorituskyky ja ylläpito: Monimutkaiset kyselyt voivat olla hitaita, sillä tiedot on jaettu useisiin tauluihin ja niiden yhdisteleminen kyselyissä vaatii runsaasti liitosoperaatioita. Monimutkaiset kyselyt ovat myös ylläpidettävyydeltään työläämpiä.

  • Käytön monimutkaisuus: Liiketoimintakäyttäjille normalisoidut tietomallit voivat olla vaikeampia ymmärtää ja hyödyntää raportoinnissa.

  • Pitkä kehitysaika: Normalisoidun tietomallin suunnittelu ja toteutus vie enemmän aikaa kuin esimerkiksi dimensionaalisessa mallinnuksessa, mikä voi viivästyttää projektien valmistumista.


Sopii parhaiten: 

Ympäristöihin, joissa tietojen eheys ja konsistenssi ovat kriittisiä, ja joissa käsitellään paljon strukturoimatonta tai monista lähteistä tulevaa dataa. Operatiivisten järjestelmien taustalla käytetään usein kolmannen normaalimuodon rakennetta.



3. Data Vault -mallinnus


Data Vault on moderni tietovaraston mallinnusmenetelmä, joka on suunniteltu skaalautumaan ja mukautumaan muutoksiin. Se käyttää hubi-satelliitti-liitosrakennetta tietojen tallentamiseen.

Hyödyt:

  • Joustavuus ja skaalautuvuus: Data Vault on suunniteltu kestämään muutoksia. Kun uusia datalähteitä tai liiketoimintaprosesseja lisätään, mallia voidaan laajentaa ilman, että aiempia osia tarvitsee merkittävästi muuttaa.

  • Selkeä versiointi ja jäljitettävyys: Malli tukee luonnostaan historiallista jäljitettävyyttä ja tarjoaa selkeän rakenteen tietojen versioinnille.

  • Sopii monimutkaisiin ekosysteemeihin: Data Vault on hyvä valinta, kun organisaatiolla on monimutkainen ja laajalle levinnyt dataympäristö, jossa tietoja kerätään useista eri lähteistä ja integraatiot muuttuvat jatkuvasti.


Haitat:

  • Vaativampi toteutus: Mallin toteuttaminen vaatii enemmän teknistä osaamista ja ymmärrystä kuin perinteiset mallit. Toteutuksesta syntyy suuri määrä objekteja ja kehittäessä on hyvä olla mukana tietovaraston automatisointiväline (Wherescape, Agile Data Engine, DSharp ja Data Build Tool)

  • Monimutkaisempi raportointi: Koska Data Vault on hyvin hienorakenteinen, raportointitietojen kokoaminen vaatii usein tietojen uudelleenmuodostamista raportointitasolla.

  • Heikompi suorituskyky: Data Vaultia ei ole suunniteltu optimoimaan aggregoitujen kyselyiden suorituskykyä, joten niiden suorituskyky voi olla heikompi verrattuna dimensionaaliseen malliin. Syntyvien objektien suuri määrä saattaa aiheuttaa myös haasteita reaaliaikaisissa ratkaisuissa.


Sopii parhaiten:

Organisaatioille, joilla on monimutkaiset ja muuttuvat tietoympäristöt, ja joissa vaaditaan skaalautuvaa, historiallisesti tarkkaa ja auditoitavaa ratkaisua.



Yhteenveto


Tietovaraston mallinnustavan valinta riippuu monista tekijöistä, kuten organisaation tarpeista, liiketoimintaprosessien vaatimuksista ja datalähteiden monimutkaisuudesta. Data Vault on hyvä valinta, kun tarvitaan laajassa järjestelmäkentässä toimiva skaalautuva ja historiointia tukeva ratkaisu. Dimensionaalinen mallinnus sopii erinomaisesti suorituskykyiseen ja yksinkertaiseen raportointiin, kun taas kolmannen normaalimuodon mallinnus tarjoaa dimensionaaliseen malliin nähden paremman datan eheyden monimutkaisussa integraatioympäristöissä.


Yllä mainittuja mallinnustapoja voidaan myös käyttää hybridiratkaisuna. Esimerkiksi Data Vaultia voidaan käyttää organisaation yhteiselle tietovarastolle ja tuottaa siitä erilaisia raportointitarpeita varten dimensionaalisesti mallinnettuja julkaisukerroksen rakenteita. Kolmannessa normaalimuodossa olevaa tietovarastokerrosta voidaan laajentaa data vaultin ominaisuuksilla. Esimerkiksi datan jäljitettävyys saadaan aikaan change data hash metatietojen avulla sekä skaalautuvuuden mahdollistaminen same as link toiminnallisuudella.


Eri tietoalustat voivat tarjota erilaisia ominaisuuksia, jotka voivat vaikuttaa tietomallinnustavan valintaan ja käyttöön. Esimerkiksi käytettävästä alustasta riippuen voi olla mahdollista saada yhdistettyä data vaultin historioitavuus -ominaisuus 3NF-tietomallinnukseen hyödyntämällä esimerkiksi time travel-toiminnallisuutta. Tällöin dataa voidaan tarkastella suoraan miltä tahansa halutulta ajanhetkeltä ilman erillistä historiointi rakenteen toteutusta tietomalliin. Tämä kuitenkin edellyttää, että tietoalustassa on määritelty riittävä tietojen säilytysaika kyseisille aineistoille. 


Olipa valintasi dimensionaalinen malli, kolmannen normaalimuodon rakenne, Data Vault, tietoalustan ominaisuudet tai näiden yhdistelmä, tärkeintä on ymmärtää, mitä mallilta halutaan. Huolella suunniteltu tietomalli luo pohjan, jonka varaan voidaan rakentaa ketterää kehitystä, luotettavaa raportointia ja skaalautuvaa datan hyödyntämistä vuosiksi eteenpäin. 


Jos pohdit, mikä ratkaisu sopisi parhaiten juuri teidän organisaatiollenne, autamme mielellämme löytämään vastauksen!


Jari Pekkanen 

COO  

+358 40 836 9964 

Joensuu

Länsikatu 15

80100 Joensuu

Kuopio

Kauppakatu 25-27

70100 Kuopio

Turku

Logomo Konttori
Junakatu 9
20100 Turku

Helsinki

Oulu

Atomitie 2A

00370 Helsinki

Kasarmintie 21

90130 Oulu

Tampere

Finlaysoninkuja 9 4. kerros

33210 Tampere

Jyväskylä

Lahti

Mattilanniemi 8 

40100 Jyväskylä

Askonkatu 9 

15100 Lahti

Productivity Leap toimii Digian tytäryhtiönä. 

bottom of page