Beslutninger baseret på segmenteringsmodeller

Vi arbejder videre fra sidste blogindlæg som du kan læse her med data mining modeller og har nu defineret vores koncept-variant til at være en beslutningsanalyse. Det betyder, at vi nu er klar til at træffe det egentlige valg af model. Vi har flere mulige modeller for udarbejdelse af en beslutningsanalyse, som er en problemstilling, hvor vi ønsker at forudsige et enten/eller resultat. Derfor vil vi i dette indlæg give en forståelse for en række modeller, der bliver betragtet som beslutningsanalysemodeller.
Vi står med valget mellem følgende mulige modeller:

  • Beslutningstræer
  • Support Vector Machine-modeller
  • CART-modeller

Det er nu et spørgsmål om, hvilken af de ovenstående modeller, der skal vælges til analysen for en bestemt problemstilling. For at kunne træffe en sådan beslutning, vil det kræve et kendskab og en forståelse for de enkelte modeller, således at vi kan træffe det korrekte valg af model.

Beslutningstræer

Beslutningstræer er en beslutningsanalyse, der arbejder ud fra én forudgående regel, derved træffes beslutninger eksempelvis efter kun én overvejelse. Såfremt vi ikke når til den endelige beslutning efter en overvejelse, tilføjer vi en overvejelse mere, der kommer efter den første. Derved består vores beslutningstræ nu af to overvejelser. Vi kan tilføje så mange overvejelser, som der findes variable i data. Derudover giver modellen en klassificering af de enkelte overvejelser, således at vi ved, hvilken overvejelse, der er den vigtigste i beslutningsprocessen. Modellen finder denne vigtighed ved entropi, der fortæller om vigtigheden i den enkelte beslutningsvariable relativt til den endelige beslutning. Jo tættere entropien er på nul, des mindre indflydelse har den givne overvejelse ift. den endelige beslutning.

Vi kan forstille os, at man står over for et køb af nye fodboldstøvler. Købet vil være influeret af en række overvejelser som; pris (opdelt i intervaller), mærke, farve, og om stjernerne spiller i støvlen. Modellen vil herefter opstille de nævnte overvejelser efter, hvor vigtige de er for beslutningen. Vi kan have en situation, hvor mærket vægter 78 % af beslutningen. Derved afhænger købet mest af mærket på støvlerne og ikke i så høj grad af de andre overvejelser.

Support Vector Machine modeller

Support Vector Machine modeller her benytter vi i en beslutningsanalyse, hvor der skal findes en opdeling af data i to klasser ud fra den største margin mellem de to klasser, hvor der sagtens kan ligge nogle fra begge klasser i den samme klasse. Derved tager vi ikke beslutningen efter en række af opstillede overvejelser, men ud fra den udledte klassifikationsfunktion, der er estimeret med baggrund i data og det er til denne funktion, at margin skal være størst mulig. Det betyder, at vi ikke ved hvilken af de underliggende variable, der er mest gældende for beslutningen, men blot hvilke variable der skal tillægges en beslutning.
Modellen kan eksempelvis bruges, hvis vi har data på vores føromtalte fodboldstøvler og de givne overvejelser som variable, vil modellen opdele i to kategorier, hvor den ene er køb og den anden er ikke køb. Under hver kategori ligger så de variable, der fortæller, hvordan man ser ud, hvis man enten køber eller ikke køber fodboldstøvler. Således kan modellen tilføres ny data og forudsige, om der vil blive foretaget et køb eller ej.

CART-modeller

CART-modeller danner også et beslutningstræ med en foregående regel, der skabes ud fra et Gini index, der måler, hvor vigtig den enkelte variable er for den givne beslutning. Vi bruger CART til at skabe struktur i overvejelserne, der ligger bag vores to mulige forudsigelser. Ydermere giver modellen en sandsynlighed for hvilken af vores beslutninger, der bør vægtes mest, samt det optimale antal af overvejelser. Derved fremkommer den optimale beslutningsvej gennem de mulige overvejelser. CART-modellen benyttes relativt til et beslutningstræ, når en af de givne variable for overvejelserne kan tage mange talværdier, altså der er ikke kun et valg mellem A og B ved en beslutningsnode.

Vi holder fast i vores eksempel med købet af fodboldstøvler, men kender nu også til indkomsten hos køberne og prisen bliver ikke opdelt i intervaller. Derved har vi to variable, der er givet ved reelle værdier. Vi vælger ud fra de givne variable en CART model, der vil forudsige udfaldet for, om der købes fodboldstøvler. Derudover vil modellen give en opdeling af de overvejelser, der ligger bag købet, samt en indikator for, hvad det optimale antal af overvejelser i forbindelse med købet vil være. Det som er vigtigt her er, at sælger kender til det optimale antal overvejelser, da man har mulighed for kun at overveje disse variable, samt vigtigheden af disse overvejelser.

Vi har nu gennemgået tre væsentlige modeller for en beslutningsanalyse, hvor vi træffer en tosidet beslutning. I den første model går vi igennem en masse tosidede overvejelser for at komme til den endelig beslutning. Vi har i den anden model en opdeling af data i de to endelige beslutninger, hvorefter data viser, hvordan beslutningen kan træffes. I den sidste model arbejder vi ud fra den første model, men vi har også overvejelser, der ikke kun tager en af to muligheder. Vi kan derfor bruge modellerne til at forudsige en tosidet beslutning, eller klassificere data i to grupper. I et efterfølgende blogindlæg vil vi kigge på den næste klasse af modeller, som er de kvalificerede anbefalinger.

Thorbjørn Baum is Business Consultant in Big Data and Advanced Analytics in the BI department. Thorbjørn holds a master degree in Economics and Finance and has formerly worked at University of Southern Denmark, University of Copenhagen and Copenhagen Business School. As a Business Consultant Thorbjørn is in close contact with clients and must understand their needs within Big Data and Advanced Analytics.
Kontakt Thorbjørn: