Visma Machine Learning Portal

Machine learning og big data er nogle af tidens vigtigste tendenser inden for IT. Vi har lanceret en online machine learning portal i samarbejde med DABAI-projektet. Formålet med portalen er at give kunder og andre nysgerrige sjæle mulighed for at prøve kræfter med machine learning.

Machine learning for alle

Portalen, som vi har udviklet i samarbejde med DABAI-projektet, består af 4 dele.

Første del tilbyder Machine Learning as a Service (MLaaS). Brugeren kan her uploade sit eget datasæt og prøve at køre machine learning på det.   

Anden del er for de lidt mere kode-sagkyndige. Her er API’erne til 2 forskellige machine learning algoritmer blevet gjort tilgængelige for brugeren. Brugeren kan herved implementere disse algoritmer i eget system.

Tredje del består af et kodebibliotek. Her samler vi de kodepakker, der bliver skabt i DABAI-projektet, så de er klar til at blive brugt af andre.

Dabai-projektet

DABAI er et Open Source projekt i samarbejde med blandt andet de tekniske universiteter: DTU, Aarhus og Københavns Universitet. Her arbejder ph.d’er og forskere sammen med industrien om at fremme brugen af machine learning og big data

Fjerde og sidste del består af vores konsulentydelser. Hvis du ønsker at vide, hvilken værdi man kan skabe med machine learning eller har et ønske om et implementeringsprojekt, så står Visma Consulting klar til at hjælpe dig.

10 steps til automatiseret machine learning

Her er en lille tutorial med tilhørende datasæt og video, så du kan komme godt i gang med at bruge Visma ML portal.

Start med at downloade et eksempel på et datasæt her, som består af data fra World Happiness Report 2017. Når du har prøvet denne lille tutorial, skulle du gerne være klædt på til at prøve portalen med dine egne datasæt.

1. Gå til www.visma-ml-portal.dk

Start med at gå til løsningen. Her kan du finde webservices, kodebiblioteker og et overblik over Vismas ML ydelser.

2. Vælg “MLaaS selvbetjening” 

Med Vismas “Machine Learning as a Service” selvbetjening har du mulighed for helt gratis at teste data på en af de mest brugte ML metoder “Outlier Detection”.

Denne metode splitter dine data i K antal grupper (kaldet clustre). Disse grupper dannes på baggrund af underliggende mønstre i dine data. Data i én cluster har altså mere tilfælles med hinanden end med data i andre clustre.

3. Før vi kan komme i gang 

For at bruge løsningen skal du først bekræfte, at dit datasæt ikke indeholder nogen personfølsomme oplysninger. Vi gemmer ikke din data – filen bliver slettet i vores system, så snart udregningen er færdig.

4. Vælg dit datasæt

Dit datasæt skal være konverteret til en kommasepareret CSV-fil. Første kolonne vil altid blive brugt som “identifikation”, og er derfor ikke med i beregningen.

I eksempel-datasættet er første kolonne navngivet “Country”, hvilket er en udmærket identifikations-kolonne.

5. Vælg dine data

Det er kun numeriske værdier der kan være med i analysen. Disse vil blive vist i “Columns to be analyzed”. Her kan du sortere yderligere i, hvilke der skal medregnes.

I eksempel-datasættet er der allerede en form for gruppering i de to første kolonner, og vi ønsker derfor ikke, at de skal være en del af analysen. Vi fjerner dermed de to første kolonner ved at trykke på krydset i højre hjørne.

6. Vælg antal clustre

I dette step skal du tage stilling til, hvor mange grupper, som du ønsker, at algoritmen skal segmentere dit data ind i.

I mit tænkte eksempel har jeg valgt 7.

7. Kør algoritmen

Vi er nu klar til at køre algoritmen ved at trykke på den store blå knap. Vær tålmodig og luk ikke fanen. Det kan tage en del tid.

8. Cluster-tabel

Når beregningen er kørt, dukker en tabel op. Den indeholder det valgte antal grupper og et overblik over indholdet. Du kan se antal datapunkter, hvor mange af disse som anses for at være “outliers”, outliers i procent og en checkbox.

9. Inspicér indhold 

Du kan inspicere dine clustre yderligere ved at trykke på de blå tal i tabellen.

Cluster 7 i mit eksempel indeholder 14 lande, hvoraf ét af dem bliver betragtet som en outlier. En outlier er et datapunkt, som har mere til fælles med den tildelte gruppe end med andre grupper – dog er den stadig forskellig for de andre datapunkter i den tildelte gruppe. Trykker man på “Show points and outliers in table” dukker der en tabel op, som viser datapunkterne, og man kan analysere dem nærmere.

10. All outliers

Nogle gange vil man opleve at hele clustre er outliers.

I mit eksempel består cluster 6 af 3 fiktive lande, som bør fjernes helt fra datasættet. Dette gøres nemt i cluster-oversigten.

Hvad kan man bruge machine learning portalen til?

Den algoritme, som du netop har afprøvet, kan bruges til at bekræfte forretningsmæssige formodninger om hvilke typer grupper, der eksisterer i ens data, eller til at identificere ukendte grupper i store komplekse datasæt.

Derudover kan overvågning af, om et datapunkt (f.eks. en kunde) skifter mellem grupper over tid, bruges til at registrere betydningsfulde ændringer i dine data.

Vil du lære mere?

Hvis du er blevet interesseret i Machine Learning as a Service kan du læse mere om værktøjet i dette blogindlæg.