Branche
Offentlig institution
Løsning
Integrationsløsning

Rød.svg

 
 

Gør test til en fest med syntetiske data, som beskytter borgernes sikkerhed. Det norske Arbejds- og Velfærdsdirektorat (herefter NAV) har det overordnede ansvar for arbejds- og velfærdsforvaltningen og forvalter i den forbindelse af tredjedel af statsbudgettet i Norge. NAV omfatter både kommunale og statslige ydelser.


 

 

Behovet

NAV har et stort behov for at teste sine it-systemer, og helst ved hjælp af så få produktionsdata som mulig. NAV har længe arbejdet med at skabe gode testdata, men det har indtil nu været gjort manuelt med deraf begrænsede skaleringsmuligheder. Det har også været en tidskrævende og personafhængig proces, da kun to personer kunne skabe de ønskede data.

Ved at arbejde med syntetiske data ville NAV blive mindre sårbar og få bedre kvalitet i deres testdata. Dette sammenholdt med øgede krav til sikkerhed og compliance med GDPR medførte, at NAV fik afsat ressourcer til at udvikle en effektiv løsning til at generere syntetiske data. 

NAV ønskede at se, om det var muligt at populere sit TPS fagsystem med fuldt-syntetiske data. TPS er NAV’s version af folkeregisteret. De havde behov for at skabe testdata, som var statistisk repræsentative med produktionsdata, men samtidig umulige at henføre til fysiske personer. Det gør produktionsdata mere sikre, og testdata mere virkelighedsnære.

Grundlaget for dette ønske var, at det er hurtigere og mere effektivt at bruge syntetiske data end at bruge en kopi af produktionsdata. I stedet for at bestille testdata fra nogle, som sidder og skaber disse til et formål, de ikke kender særlig godt, kan man nu selv skabe disse testdata eller finde dem i Mini-Norge (næste afsnit).

For at kunne dække dette behov blev løsningen at oprette tre basisløsninger for syntetiske testdata i NAV:

 

 

1. Mini-Norge:

Der er udviklet et Mini-Norge. En basispopulation, som er tilgængelig og “levende” i syntetiske miljøer. Machine learning modellerne genererer syntetiske testdata til Mini-Norge med de samme egenskaber som data i produktion.

For at skabe Mini-Norge tog man 100.000 personer og importerede i løsningen og fik på den måde skabt en statistisk repræsentativ befolkning. Disse fik norsk statsborgerskab, nye boliger, og vi oprettede blandt andet person-relationer, arbejdsgiver- og arbejds-historik. Alt dette er data, som er nødvendig for NAV i forhold til at kunne udbetale ydelser og behandle ansøgninger. For at holde Mini-Norge relevant for testerne, ændrer man i systemet hver dag via en orkestrator-komponent, så data vedbliver repræsentative. Ved at syntetisere data om fødsler og skilsmisser gøres miljøet relevant for testerne af f.eks “Foreldrepengeløsningen”.

Mini-Norge er vokset, og løsningen er i dag oppe på 150.000 syntetiske personer.

 2. Dolly

Dette er en selvbetjeningsløsning, som demokratiserer, hvordan NAV skaber syntetiske testdata. Løsningen sikrer, at alle kan oprette og skræddersy syntetiske data efter deres behov ved at lægge forskellige egenskaber ind. Hvis man f.eks. ønsker at teste en usædvanlig situation, kan man oprette testdata for denne situation og derefter køre test på dette. Eksempelvis har “Foreldrepengeprojektet” i Norge haft brug for at teste, hvad der sker, når tvillinger er født i to forskellige år på hver sin side af nytårsaften. 
3. Orkestrator-komponenten: 
Dette er en applikation til styring af syntetiske data, der holder styr på de fiktive personer og deres tilknyttede personlige oplysninger. Så kan vi hele tiden kontrollere, at deres “fødselsnummer” ikke er i brug og faktisk valideres som et korrekt “fødselsnummer”.

Orkestrator-komponentens opgave er at holde personerne i Mini-Norge levende ved f.eks at indarbejde at:

  • personer bliver gift
  • der fødes nye personer
  • personer stopper og begynder i nye jobs
  • sygdom opstår og registreres
  • personer flytter ind og ud af institutioner

 

 

 

 

mini-norge-for-a-syntetisere-data-for-nav.jpg

Mere end bare en it-løsning

Målet med løsningen har været at skabe synlighed, tiltrække nye medlemmer og skabe en dialog om trivsel på arbejdspladsen. Djøf oplever en høj konverteringsrate på trods af, at GDPR har gjort det sværere for Djøf at samle data på deres balanceværktøj.

“Mellem 84 - 90 % af dem, der klikker sig ind på trivselstesten, fuldfører den, og det er vi meget stolte af - og det siger også meget om kvaliteten af løsningen”, lyder det fra Pia Ravn.

Djøf ser et stort potentiale i deres løsning: “Samtidig tænker vi, at det er en maskine, vi har bygget sammen med Visma Consulting og ikke kun et engangsprodukt. Algoritmen, der ligger til grund for løsningen, kan sagtens benyttes til andre emner end trivsel”, uddyber Pia Ravn. 

Løsningen kommer Djøf til at drage fordel af i længere tid. Der er blevet lavet et værktøj, der kan hjælpe fagforeningen med tiltrække nye medlemmer, fastholde nuværende og skabe en øget opmærksomhed om Djøf og foreningens arbejde. 

 

 

 

Processen

Syntetiske testdata fra Machine Learning modellerne distribueres gennem NAV systemernes eksisterende forretningslogik. NAV havde i sit system “Arena” 1.200 database tabeller. For at kunne skabe syntetiske testdata havde man behov for en oversigt over disse tabeller. Derfor så man på, hvor data kom ind, hvor data gik ud, og hvad man måtte supplere med for at kunne arbejde med Machine Learning? For at skabe et overblik, blev en tilnærmet værdikæde-tilgang løsningen.
Syntetisering baseret på Machine Learning:

Tilstand 1: Vi har en stor mængde rå produktionsdata, som er mere eller mindre tilgængelig, som vi laver en dataanalyse af. Hvis det skønnes nødvendigt, kan vi gå ind og se på indhold af tabeller, men ofte behøver vi kun at se på databasestrukturen, og hvordan den er opbygget. Via Trin A laver vi et udtræk af dataområder, hvor vi fjerner alle direkte identificerbare informationer og fjerner relationer mellem dataområder med henblik på at sidde tilbage med en anonym samling af data.

Tilstand 2: I denne tilstand har vi en anonym samling af data, som  derefter går til Trin B. Her bliver data behandlet via vores Machine Learning algoritme. En typisk algoritme vi anvender, er en beslutningstræalgoritme (Decision Tree), som ligger i bunden og bestemmer, hvordan datastrukturen skal se ud. Udover Decision Tree anvender vi også Synthpop, BeAn, PerlinNoise, CHAR-RNN, Random Forest.

 

 

Tilstand 3: I denne tilstand er data fritstående syntetiske dataområder, som vi i Trin C fletter sammen igen for at genskabe den oprindelige datastruktur i Tilstand 1. Vi knytter nu data til en fiktiv person, fordi det ikke er hensigtsmæssigt at have en række begivenheder, hvis de ikke er knyttet til personer. Vi beder derfor Orkestrator-komponenten om at få et fødselsnummer og et navn. 

Tilstand 4: I denne tilstand er de syntetiske data flettet sammen og klar til brug. Herfra skubber vi de syntetiske data ind i de registre (databaser), hvor det var meningen, de skulle ind i udgangspunktet. Disse registre sikrer herefter, at alle nedstrøms applikationer helt automatisk får besked.

På den måde slipper vi for at rode med de 40.000 datatabeller i hele NAV systemlandskabet.

En udfordring for projektet har været at få alle systemer til at tale godt sammen. Der er ikke en standardiseret brug af samme teknologi på tværs af systemlandskabet hos NAV. Løsningen har været at indtaste syntetiske testdata i nogle få systemer - et arbejde, som fortsat pågår.

 

 

Gevinsten for NAV

NAV brugte tidligere rigtig meget tid og mange ressourcer på at oprette testdata. Processen er nu blevet meget hurtigere og betyder, at man nu kan generere op til 10.000 syntetiske personer på få minutter.

Udover en besparelse i tid og ressourcer er data helt sikre og umulige at spore tilbage til fysiske personer. På den måde sikres det, at privatlivets fred for borgere bevares, og at man trygt kan teste på disse data. 

Syntetiske testdata bruges ikke kun til systemudvikling og test, men også til oplæring og træning af sagsbehandlere i NAV. På den måde kan træning foregå uden behov for særlige sikkerhedsforanstaltninger og uden risiko for, at rigtige brugere får breve med posten baseret på hændelser i et træningsscenarie.

NAV vandt prisen for indbygget persondata

Datatilsynet i Norge uddelte i foråret 2020 prisen for “Indbygget persondata i praksis”, hvor målet var at fremhæve gode eksempler på praktisk implementering af Privacy By Design. Glæden var stor, da det blev offentliggjort , at det var NAV, som vandt med bidraget "Gør test til en fest! Løsning og metode for syntetiske testdata" - en løsning og metode, som NAV har udviklet i samarbejde med Visma Consulting.
Læs mere om prisen her.

 

 

Vil du gøre en forskel med digitalisering? Det vil vi også.

 

 

Gør som en lang række aktører inden for stat og styrelser. Tag en snak med os og lad os sammen finde løsninger, der fremmer væksten og velfærden.

Udfyld formularen, eller kontakt os direkte.

christian-ajslev-visma.png
Christian Ajslev Lindgren

Senior Account Manager

contact-icon-phone.svg
+45 31449272
contact-icon-email.svg
christian.lindgreen@visma.com