Lagring av data
Nå har vi sett på hvordan vi finner data, og hvordan vi kan samle data. Når vi følger livssyklusens prinsipper, ser vi at vi nå har kommet til det punktet hvor vi må lagre dataene. Datainnsamling innebærer ikke bare at data må hentes ut og registreres, de må også samles og lagres et eller annet sted.
Dette kan være i et program som Microsoft Excel, der vi kan plotte inn, strukturere og organisere dataene og gjøre dem brukbare. I større prosjekter vil det imidlertid ofte være tungvint – hvis det i hele tatt er gjennomførbart – å jobbe manuelt med å samle inn dataene og jobbe lokalt i et regneark.
Det er selvsagt masse en kan få til med Excel og lignende programmer, men når vi snakker om å jobbe datadrevet trenger vi noen ganger enda kraftigere verktøy. Dessuten vil vi ønske å automatisere mest mulig av innsamlingen og oppryddingen av dataene.
For større datadrevne prosjekter bruker vi gjerne sofistikerte lagringssystemer som kan tjene flere formål. La oss ta en titt på noen eksempler her:
Databaser
Databaser vil du lære mer om i neste kapittel, men la oss raskt forklare hva det er for noe her.
En database er en organisert samling data som er samlet og strukturert etter bestemte regler. En database har en del til felles med regneark. Rent overordnet er begge deler en strukturert samling av data i tabeller, med rader og kolonner. Men de fungerer likevel på ulike måter.
En relasjonsdatabase – som er den vanligste formen for database – kan best forklares med et eksempel:
Du vil lage en oversikt over kundene til virksomheten din, og adressene de bor på. Hvis du skulle gjort dette i et regneark, ville du fort endt opp med å føre opp nøyaktig de samme dataene flere steder. Flere kunder kan jo bo i den samme gaten, og det vil være mange med samme postnummer.
Med en relasjonsdatabase vil du imidlertid slippe å føre opp gatenavn og postnummer for hver eneste kunde. I stedet lagres kunder, adresser og poststed hver for seg, og vi oppretter i stedet relasjoner som knytter dem sammen. Hver ting vi samler data om, og egenskapene som kan beskrive dem, føres altså bare opp ett enkelt sted. På denne måten kan en sentralisere data og kontrollere for dobbelt lagrede data.
Når vi jobber med databaser brukes en bestemt type programvare som kalles for et databasehåndteringssystem. Her kan vi endre og utforske data, og gi andre applikasjoner tilgang til dataene. For eksempel kunne denne databasen vært knyttet til «Min side» i nettbutikken deres, der kunder selv kan se og oppdatere profilen sin.
Datavarehus
Et datavarehus er et databasesystem som er spesielt tilrettelagt for søk og dataanalyse – fremfor datainnsamling og dataregistrering. Hensikten er å samle strukturerte data fra mange kilder og å legge til rette for å bruke disse i analyser.
Å kombinere og lagre data på et enkelt sted er en måte å unngå siloer og nyttiggjøre seg av data på tvers av ulike kilder. En relasjonsdatabase kan være én slik kilde som et datavarehus henter data fra.
For å bygge datavarehus vil en bruke egne verktøy for det som kalles «ETL» (Extract, Transform, Load), som direkte oversatt betyr uttrekk, transformasjon og innlasting.
Det er nemlig viktig at dataene i varehuset er strukturert på en bestemt måte. Når en henter data fra flere kilder kan de derfor ikke overføres direkte, men hentes ut, bearbeides og transformeres til riktige formater og enheter før de lastes inn i varehuset. Derav uttrekk (data hentes ut fra siloen), transformasjon (data gjøres om til riktig enheter og formater) og innlasting (data kjøres inn i varehuset).
Når for eksempel en bedrift samler og strukturerer alle relevante data i et slikt varehus, har de i neste omgang et godt fundament for å begynne med rapportering og analyser, og å ta datadrevne beslutninger.
Datasjøen
Datasjøen skal vi ikke dykke så langt ned i, men ettersom det er et populært konsept, må det nevnes. En datasjø er et datalager for å samle store mengder og variasjoner av data, både strukturerte og ustrukturerte.
Du kan tenke at du har massevis av ulike data fra mange kilder. Datasjøen gir deg et sted å samle og lagre alt dette for senere analyse eller annen bruk. En datasjø kan potensielt også tilby prosessering.
Data i datasjøen trenger altså ikke å være ferdig strukturert og ryddet opp i, men er ofte rå og ikke-bearbeidet. Ofte vil det derfor være behov for bearbeiding og rengjøring av ustrukturerte data i sjøen før de kan brukes i analyse. Dette er også en sentral forskjell mellom datasjøen og datavarehus.
Datasjøen kan bli brukt som en midlertidig oppbevaring for blant annet datavarehusdata (en såkalt «staging area» – et sted du kan samle ting før bruk), men det er som nevnt ofte behov for bearbeiding av data i datasjøen – i motsetning til data i datavarehus som allerede er bearbeidet og strukturert.
Å jobbe i skyen
Databaser og andre lagringsstrukturer kan være både lokale og skybaserte. Når vi snakker om å jobbe datadrevet, snakker vi imidlertid i økende grad også om å jobbe skybasert. Det gjelder ikke minst for datavarehus og datasjøen.
Ved å jobbe i skyen – hvor dataene kan strømmes både opp fra kildene og ned til brukerne – blir det enklere å håndtere store datamengder, kommunikasjonen mellom ulik programvare blir bedre, og vi får tilgang på sanntidsinformasjon fra alle relevante kilder, på ett og samme sted.
Med en slik plattform som ryggrad kan vi også bygge et applikasjonslag som gjør det mulig å ta dataene i bruk, enten det skulle være en app, en digital tvilling eller noe helt annet.
Eksempel
Vindmølleparken
Se for deg et kraftselskap som vil samle data om vindparkene sine og driften av møller og turbiner. De vil minimere slitasje, gjøre smartere vedlikehold og optimalisere driften. De får derfor på plass en rekke sensorer som med jevne tidsintervaller samler inn data fra det forskjellige utstyret.
Med denne typen store, industrielle data vil det være lite hensiktsmessig å laste ned dataene og begynne å sortere dem i Excel. I stedet velger kraftselskapet å jobbe i skyen, på en tilpasset dataplattform laget på for eksempel skytjenestene til Amazon, Google eller Microsoft.
I stedet for statiske datasett kan en her jobbe med levende datastrømmer, der dataene strømmer inn i sanntid fra ulike kilder. Kraftselskapet går sammen med en teknologipartner for å lage en skreddersydd løsning der innkommende data rengjøres og bearbeides etter bestemte regler. I neste omgang brukes disse i statistiske modeller og visualiseringer som hjelper selskapet med å hente ut informasjon og innsikt fra dataene.
Hvordan vi sorterer og bearbeider dataene, og deretter faktisk tar dem i bruk og henter ut verdi, vil vi se på i senere kapitler.