Skip to main content

Dele data

Saga blir mer verdifull for alle i etaten når mer data tilgjengeliggjøres på dataplattformen. For å bidra til å samle og tilgjengeligjøre data oppfordres du og ditt team til å dele data som kan være relevante for andre. Dette kan gjelde data som er hentet inn gjennom en pipeline, utledet gjennom analyser eller på andre måter. Vi omtaler delbare data som dataprodukter.

Saga har en Datakatalog hvor de delte dataproduktene er beskrevet, mens selve dataene er lagret i BigQuery. Det betyr at alle som har en bruker på Saga i utgangspunktet kan benytte seg av dataprodukter som er delt.

Dataprodukter som skal deles med andre må:

  • ikke inneholde personopplysninger.
  • være beskrevet i Saga Datakatalog.
  • være av kjent kvalitet, beskrevet i dataproduktets beskrivelse.
  • være standardisert, slik at dataene enkelt kan sammenstilles med andre dataprodukter.
  • ha en kontaktperson, som kan motta henvendelser ved spørsmål til dataproduktet.
  • ligge i saga-data i BigQuery.

Du må også ha undersøkt med relevante fagpersoner at det er OK å dele dataproduktet, også etter eventuelle transformasjon og/eller anonymiseringer er gjort.

Tilgjengeliggjøring av data i saga-data

Dataprodukter kan være statiske, som f.eks. uttrekk og engangsanalyser, eller de kan ha en tilhørende pipeline som holder det underliggende datasettet oppdatert til en hver tid. Uavhengig av type dataprodukt må det endelige dataproduktet ligge i saga-data før det kan deles.

Pipeline for å flytte dataprodukt til saga-data

For å kunne flytte data til saga-data må du først få opprettet et datasett ditt team har skrivetilgang til. Ta kontakt med Yggdrasil via #saga-support kanalen på Slack for å få opprettet dette for ditt dataprodukt. Du kan fint legge flere relaterte dataprodukter under samme datasett.

I saga-pipelines repoet finner du en template på en pipeline som flytter dataprodukt til saga-data. Denne kan du kopiere inn til ditt team sin mappe i saga-pipelines og tilpasse for å flytte dataproduktet du vil dele inn til saga-data.

Se dokumentasjon på hvordan bygge pipelines for flere detaljer.

Deling av data i Saga Datakatalog

Før et dataprodukt kan deles i datakatalogen må datasettet som dataproduktet skal havne i være opprettet i saga-data. Deretter kan de nødvendige metadata settes for dataproduktet for å tilgjengeliggjøre det i datakatalogen.

I saga-pipelines repoet finner du en template på en pipeline som deler dataprodukt i datakatalogen. Denne kan du kopiere inn til ditt team sin mappe i saga-pipelines og tilpasse for å sette de nødvendige metadata for å få delt dataproduktet ditt i datakatalogen.

Filen datacatalog-metadata-spec.json inneholder alle de forskjellige metadata-feltene det er mulig å sette.

Fjerning fra datakatalogen

Datasett som er delt i datakatalogen kan fjernes ved å besøke datakatalogen, velge datasettet og trykke "Fjern fra datakatalogen". Denne funksjonaliteten er bare tilgjengelig for de teamene som eier datasettene. Husk også å fjerne den tilhørende DAGen som deler et datasett i katalogen.

Fjerning av data som har vært delt i datakatalogen

Når data har vært delt i datakatalogen skal man ikke slette dataene med mindre det er gode grunner til å gjøre det. Dette er fordi det kan være konsumenter av dataene som avhenger av dataene. I stedet skal man gjøre følgende:

  1. Gi beskjed til konsumenter om at dataene skal fjernes. Ta kontakt med Yggdrasil om du trenger hjelp til å finne ut hvem som er konsumenter av dataene.
  2. Vent til konsumenter har fått tid til å fjerne avhengigheter til dataene.
  3. Flytt dataene til et eget datasett som heter "archived". Dette gjør at man kan gjenopprette dataene ved behov, eksempelvis dersom det var flere konsumenter enn først antatt.