sådan får du styr på Data Science uden at være hacker

Sådan får du styr på Data Science – uden at være hacker

Du har sikkert allerede hørt om Data Science – nogen kalder det for Big Data. Andre bruger termerne AI og Machine Learning. Som det ofte er tilfældet med nye teknologier, er Data Science meget omtalt og samtidig alt for lidt anvendt og forstået. Et forskningsprojekt mellem Visma og DTU-CogSys skal, med to nye machine learning workflows, gøre det muligt for dig at forstå og udnytte Data Science uden at have en hacker ved din side.

Problemet med Data Science

Det vrimler med perspektiver i pressen og ved frokostbordet om alt det, man kan anvende Data Science til. Vi kender alle eksemplerne fra Google og deres mind-blowing anvendelse af Data Science og Machine Learning i forsøg med selvkørende biler. Dog virker det som om, at virksomheder og offentlige styrelser i Danmark alligevel er langt bagud med at tage disse muligheder i brug. Det er der gode grunde til. Data Science kræver nemlig meget af de mennesker, der skal få det til at ske. De mennesker der til dagligt arbejder med Data Science kaldes for data scientists. Disse mennesker skal have en stor viden for at udnytte teknologien optimalt.

Der tales ofte om tre vidensområder, som i dag er essentielle for mennesker der ønsker at arbejde med Data Science:

  1. Domæneviden, som går ud på at vide noget om det problem, og det data som han/hun står over for
  2. Viden om statistiske- og matematiske analysemetoder, altså evnen til at bruge matematiske modeller og deres styrker og begrænsninger i forhold til hinanden
  3. Hacking skills, som også nogle gange kaldes for computerscience eller datalogi. Egentlig, tror jeg, det betyder, at man skal kunne sit håndværk – altså være god til at kode

I den ideelle verden ville disse færdigheder eksistere i én person eller i et tæt samarbejde i et team. Det er dog sjældent tilfældet. Jeg er selv data scientist, og personligt har jeg kun viden om hacking skills og statistiske- og matematiske analysemetoder. Min domæneviden om kundernes data er derimod begrænset, og det ville tage mig tid at komme ordentligt ind i deres data. Modsat har mine kunder viden om deres data og hvilke problemer, der skal løses. Til gengæld har de ikke min viden om, hvordan problemet kan løses. Derfor kan det ofte være vanskeligt at undersøge og implementere udnyttelsen af Data Science i en virksomhed.

Sådan løser vi problemet

Data Science bliver mere og mere populært. Derfor er det et problem, at kun få personer har viden inden for alle tre førnævnte vidensområder. For at imødekomme det problem der kan opstå når Data Science kræver stor viden fra enkelte personer, deltager Visma  i DABAI projektet – Machine Learning as a Service (se faktabox) i samarbejde med DTU-CogSys. Projektet er et forskningsprojekt hvor Visma tilstræber at få den nyeste forskning inden for Machine Learning ud i erhvervslivet og til vores kunder. Dermed arbejder Visma på at åbne op for helt nye måder at digitalisere Danmark på.

Faktabox: Machine Learning as a Service (MLaaS)

• Læs mere om projektet: https://dabai.dk/en/research-domains/case-2

• Projektet blev startet i 2016 og afsluttes i 2020

• Forskningsområder: Auto-ML og Danske Ressourcer

• Anvendte teknologier og værktøjer: Tensorflow, Apache Spark og Python

• Visma bidrager med Sidsel Sørensen og Michael Salvador Svanholm, som data scientists, der arbejder tæt sammen med DTU-CogSys

Formålet med DABAI projektet er at gøre det lettere for domæneeksperter at bruge machine learning metoder i deres analyser. Dette uden nødvendigvis at skulle sætte sig ind i alle detaljer om, hvordan en machine learning algoritme fungerer optimalt. Machine learning går ud på at konstruere matematiske modeller baseret på historisk data. Disse modeller skal så gøre det muligt for en maskine at finde underliggende strukturer i data.

Visma og DTU-Cogsys har i DABAI projektet udviklet to machine learning workflows. Vores machine learning workflow er kort fortalt et sæt af processer, som først gør kundens data klar, så det derefter kan bruges i machine learning algoritmer og levere resultater. Eksempler på disse processer kan være at importere ens data eller udvælge passende datafelter. Det kan også være at bestemme den ønskede algoritme, der har relevans inden for den problemstilling man står i. Disse valg træffes ud fra et webinterface. Det vil sige, at man som domæneekspert ikke skal sætte sig ind i diverse machine learning biblioteker. Derimod kan man fokusere på ens kernekompetencer: at udvælge passende data til ens problemstilling.

Anomaly Detection og Classification

De to workflows, som vi fortsat udvikler på, er Anomaly Detection og Classification.

Det første workflow, Anomaly Detection, går ud på analysere data og finde anormaliteter i disse. Generelt kan Anomaly Detection bruges i mange sammenhænge og kan beskrive data ud fra, hvordan data relaterer sig til sig selv. Vi har for eksempel brugt Anomaly Detection sammen med CVR-data til at undersøge danske virksomheder, og hvordan de grupperer sig i forhold til forskellige parametre. Parametrene kan for eksempel være størrelse, registreret kapital osv. Formålet var at undersøge om vi kunne finde ”skjulte” grupperinger i data, som ikke nødvendigvis ville fanges i traditionelle analyser.  

Det andet workflow, Classification, er en matematisk metode til at understøtte en beslutningsproces. Her har man typisk klassificeret data i to kategorier som f.eks.:

  •   Ja/Nej
  •   Godkendte processer/fejlede processer
  •   Konkurs/ikke konkurs

I disse kategorier har man så gemt data fra tidligere beslutninger. På den måde kan man skabe en matematisk model for, hvordan data opfører sig, som nemt kan bruges til at klassificere nye dataelementer. Vi har brugt Classification til at isolere de faktorer, der virker afgørende for, om en virksomhed går konkurs. Hertil skal det nævnes, at selve konkursforudsigelsen er en meget kompleks problemstilling, og at vores analyser er indledende.

Hvad får du ud af det?

DABAI-projektet har indtil videre været et fingerpeg om, at Machine Learning as a Service kan gøre det nemmere for dig, som kunde, at benytte tekniske discipliner til fremtidig beslutningstagen og til at få overblikket over data. Gennem projektets to workflows bliver hacking- og matematiske færdigheder gjort tilgængelige for mennesker, der besidder den kritiske domæneviden i forhold til deres data. På den måde kan kunder, som ikke nødvendigvis besidder stor viden inden for alle tre vidensområder, arbejde med Data Science på egen hånd. Sagt med andre ord kan du nu fokusere med din viden om den data du sidder med. Du behøver således ikke længere en hacker ved din side for at få styr på Data Science.

Vil du høre mere om Data Science og MLaaS?

Er du blevet nysgerrig på udviklingen af Machine Learning as a Service, og kunne du tænke dig at høre mere, så er du velkommen til at kontakte mig på mail:

Michael Salvador Svanholm
Consultant
michael.salvador.svanholm@visma.com 

 

Michael Salvador Svanholm arbejder som Lead Data Scientist for Visma Consulting i DABAI projektet - 'Machine Learning as a Service'. Michael har tre års erfaring som konsulent, og har arbejdet på DABAI projektet siden april 2016. Michael er uddannet civilingeniør i matematisk modellering og beregninger fra DTU.