Matematiske modeller på et menneskeligt sprog – data mining et overblik

Matematik og statistik er to ord som de fleste af os har hørt om, men som kun en lille del af os har et indgående kendskab til. Tilføjes herefter ordet ”modeller” sidder de fleste bare og nikker uden egentlig at have nogle ideer om, hvad der sker eller snakkes om. Data mining modeller er bygget på matematik og statistik og vil således falde ind under kategorien ”jeg-nikker-uden-egentlig-at-have-nogen ide-om-hvad-der-egentlig-sker-eller-snakkes-om”. Er du typen som jeg var, der alt for godt kender til denne kategori, bør I læse følgende blogindlæg, hvor der gives et indblik i, hvad data mining modeller kan.

For at kunne arbejde med advanced analytics, vil det være nødvendigt at forstå og danne sig et overblik over de eksisterende modeller inden for data mining. Det forventes ikke at der udledes nye modeller, men at der er en grundlæggende og dybdegående forståelse for allerede eksisterende modeller, altså værktøjer til at udføre advanced analytics. I det følgende skabes det overordnede overblik, således at vi er bekendt med, hvilke typer af opgaver som data mining modeller er i stand til at løse. Der vil derfor i dette indlæg ikke blive fokuseret på de enkelte modeller, men mulighederne og løsningerne som modellerne indeholder. De model specifikke detaljer kommer i et efterfølgende indlæg.

Det vil være essentielt for analytikeren at kunne finde et overordnet koncept for en problemstilling, hvilket vil være rammerne for en business case. Herudfra kan der skelnes mellem grupper af modeller, således kan data mining modeller opdeles i to grupper:

• Erfaringsbaseredemodeller
• Udforskendemodeller

Erfaringsbaseredemodeller bruges når der haves et forudindtaget kendskab til data. Vi kender til de enkelte variable og har en forudindtaget opfattelse af relationer og sammenhænge her imellem. Erfaringsbaserede modeller bruges til at lave forudsigelser omkring fremtidige events og de bedste værdier på et resultat, samt til at træffe beslutninger. Vi kan enten lave en præcis forudsigelse, eller som oftest en sandsynlighed for en given forudsigelse.
Udforskende-modeller benyttes når der intet forudgående kendskab haves til data. Det betyder, at vi ikke kender nogen form for strukturer eller relationer mellem de enkelte variable. De udforskende modeller bruges derfor, når der skal findes nogle mønstre eller relationer i datasættet, der ikke kunne spottes af det menneskelig øje eller forstås af os.

Nu har vi et udgangspunkt for valget af model ift. til den problemstilling, vi står overfor. Der kan enten vælges mellem en udforskende- eller en erfaringsbaseret model, men dette er kun det første af flere valg. Vi har valgt, at konceptet er erfaringsbaseret, altså vi kender til data og relationer i datasættet. Herunder skal koncept-varianten defineres, hvilken der underopdeler de erfaringsbaserede-data-mining modeller i to undergrupper:

• Beslutningsanalysemodeller
• Kvalificeret anbefalingsmodeller

Beslutningsanalysemodeller benyttes når vi ønsker at forudsige et enten/eller resultat, eller såfremt der træffes en beslutning, hvor der kun haves to mulige beslutningsudfald, såsom ja/nej. En beslutningsanalyse kan vi anvende, hvis vi i historisk data kender sandheden for et enten/eller udfald og fremtidigt ønsker at kende resultatet gennem data. Eksempelvis om vi ønsker at spille golf afhænger af vejret, humøret, dag på ugen etc., hvoraf beslutningsanalysen ud fra de givne variable forudsiger om vi ønsker at spille golf.
Kvalificeret anbefalings-modeller bruger vi, når problemstillingen er, at vi ønsker at forudsige de bedst mulige værdier på et resultat. Vi anvender eksempelvis en kvalificeret anbefaling, hvis vi historisk har data for en virksomheds profit, samt en mængde af data som vi på forhånd ved influere profitten og ønsker at forudsige profitten i fremtiden.

Ved en anden problemstilling har vi valgt, at konceptet er udforskende, vi har intet kendskab til data, men ønsker et kendskab. Således skal konceptets koncept-variant defineres, hvorudfra modellerne opdeles i to underkategorier:

• Segmenteringsanalysemodeller
• Relationsanalysemodeller

Segmenteringsanalysemodeller benyttes, når vi ønsker at finde naturlige mønstre og grupperinger i datasættet, hvilke vi ikke havde kendskab til. Segmenteringsanalysen kan vi anvende, såfremt der bliver stillet en datamængde til rådighed, hvor ingen heller ikke data-ejer har indblik i hvilke variable, der er sammenhængende med hinanden. Vi har eksempelvis data fra et forsikringsselskab, der ønsker at få grupperet deres kunder, således de ved om der findes bestemte grupperinger (bemærk at vi i en segmenteringsanalyse ikke behøver definere grupperne ud fra kunder, men definere kunderne ud fra grupperne).

Relationsanalysemodeller bruges til at finde ud af om, der findes relationer mellem de enkelte variable i datasættet, altså findes der en sammenhæng mellem en række af variable i et givent dog ukendt datasæt. Vi kan eksempelvis benytte en relationsanalyse, såfremt vi har data fra en detailkæde og ønsker at vide noget om relationerne mellem køb af varer, fx købes vare A, købes også vare B.
Vi har nu skabt et overblik og en struktur omkring data mining modeller. Vi har nu rammerne for, hvilke koncept-varianter de matematiske-statistiske modeller kan bruges til at arbejde med inden for advanced analytics. Hermed kan vi benytte advanced analytics til at besvare givne problemstillinger.

Thorbjørn Baum is Business Consultant in Big Data and Advanced Analytics in the BI department. Thorbjørn holds a master degree in Economics and Finance and has formerly worked at University of Southern Denmark, University of Copenhagen and Copenhagen Business School. As a Business Consultant Thorbjørn is in close contact with clients and must understand their needs within Big Data and Advanced Analytics.
Kontakt Thorbjørn: