Van LDA naar sLDA: say what? Reviews gebruiken om je processen te optimaliseren

Bij CQM zijn we elke dag opnieuw bezig met innovatie. Zo ook met een onderdeel daarvan: LDA. We besparen je waar deze drie letters voor staan, want dat zegt je vervolgens nog vrij weinig. Wel vertellen we je graag over het doel van LDA: het is een bepaald algoritme om te ontdekken waar mensen over praten in reviews of andere tekst. Onze afstudeerstagiair Cyril Crutzen heeft dit onderwerp verder uitgediept en een betere methode gevonden om dit te achterhalen: sLDA. Deze techniek gaat net een stapje verder en pakt ook de context mee. In deze blog gaan we dieper in op wat het monitoren van klantreviews kan betekenen voor jouw product, dienst of merk.

 

Algoritme heeft geen talenkennis

Eerst willen we wat vertellen over LDA. Zoals we eerder zeiden is het doel van LDA ontdekken waar mensen in een review over praten. Een algoritme kijkt naar waar mensen het over hebben, over welke aspecten van een product bijvoorbeeld, wat vinden ze belangrijk, enzovoorts. Het gaat hier specifiek over reviews (online). Redenen waarom je dit zou willen achterhalen kunnen zijn: het verbeteren van je product of inspelen op de wensen en behoeften die je klanten hebben.

Hoe doe je dat nou? Het LDA algoritme heeft geen taalkennis. Daarom geeft hij elk woord een nummertje, zodat hij ze uit elkaar kan houden. Vervolgens kijkt hij of er bepaalde nummertjes in een reeks samen vaak gebruikt worden of voorkomen. Stel: je verkoopt kattenvoeding. En in je reviews komen de woorden ‘kat’, ‘voeding’, ‘miauw’ en ‘krabben’ voor. Dan geeft de methodiek van LDA aan elk woord een nummer en vervolgens clustert hij woorden/nummers die vaak in dezelfde zin gebruikt worden. Bijvoorbeeld: ‘melk’ en ‘miauw’ horen altijd bij elkaar.

 

Menselijke handeling

LDA clustert alleen, je krijgt geen kwaliteitsoordeel van de resultaten. Dit vinden wij echter wel belangrijk, anders zegt het nog vrij weinig. Daarnaast wordt LDA gezien als een techniek met erg weinig menselijke handelingen (een “unsupervised” methode), wat tevens niet persé bijdraagt aan de betrouwbaarheid van de resultaten. Met die vraag is Cyril ook aan de slag gegaan: hoe kunnen we de kwaliteit van gevonden topics beoordelen?

Hij heeft vervolgens onderzoek gedaan naar diverse methoden/algoritmen en ons van een betere voorzien: sLDA. Deze methode gaat dieper in op de context rondom topics. Want wanneer reviews helemaal niet over katten gaan, moet er wel duidelijk worden dat de context dus van belang is. En of de genummerde woorden daadwerkelijk bij het topic horen.

 

Context van belang

Zowel LDA als sLDA gebruikt een lijst met woorden die in alle reviews staan en daar laten ze kansrekening op los: hoe groot is de kans dat deze in de review staat. LDA zegt dat de woorden die bovenaan staan – de meest gebruikte – het meest relevant zijn. sLDA doet dit ook, maar houdt ook rekening met de andere woorden die in dezelfde zin staan, wat de samenhang in een gevonden topic bevordert. Waarom? Omdat we zo kunnen kijken of je meer relevantie kunt halen uit je beschikbare info.

Een voorbeeld: in een zin staat ‘de hond sliep in het hondenhok’. Met LDA kun je beslissen: een hondenhok is een soort huis en dat hoort dus bij ‘huis’. ‘Hond’ hoort tevens bij ‘dieren’. Echter, ‘slapen’ kan ook een element zijn en ‘een kat’ en ‘kattenhok’ en ‘hond’ en ‘hondenhok’ kunnen ook zomaar iets met elkaar te maken hebben. sLDA zet deze stap extra: die neemt een deel van de context mee. Die legt die verbindingen met elkaar.

 

Met reviews inspelen op wensen en behoeften

Dus: wanneer je van LDA naar sLDA gaat, kun je net wat betere onderwerpen vinden, scherper analyseren en ben je een stapje verder in je vergelijking van reviews. Bij CQM zetten we elke dag die stapjes extra, om steeds meer uit data te halen en steeds scherper processen te kunnen optimaliseren. Het lastige aan het observeren van reviews is: het is taal. Mensen denken in taal, in structuren, in betekenissen. Voor een computer is het maar een berg tekens. Een berg informatie, veel woorden en geen fundamentele betekenis. Met LDA en sLDA kun je wel betekenis geven aan deze woorden en zelfs cijfermatig verbindingen leggen. Om er uiteindelijk iets mee te kunnen. Met sLDA probeer je een computer beter in taal te laten worden.

Beeld je eens in wat het je zou opleveren als je in een oogopslag op je dashboard ziet dat er in een review over een bepaald aspect van verbetering van je product wordt gesproken. En jij dit compleet gemist hebt. Vervolgens kom je met een verbeterd product op de markt: hoe innovatief ben je dan, inspelend op de wensen en behoeften van je klanten? Met een belangrijk detail: zonder dat je zelf het hele forum door hoeft te spitten. Met sLDA – en ook LDA – krijg je inzicht in dingen die je niet wist, om vervolgens je beslissingen of acties daarop aan te passen. En vooruit, we zullen toch vertellen waar de letters voor staan: Latent Dirichlet Allocation en Sentence Latent Dirichlet Allocation. Het enige dat je hoeft te onthouden is dat ‘sentence’ de context meeneemt. Scheelt weer.

 

Benieuwd naar hoe je LDA of sLDA binnen jouw organisatie kunt toepassen? Neem contact op met Matthijs Tijink voor de mogelijkheden.

Wil je op de hoogte blijven van het laatste nieuws van CQM, volg ons op LinkedIn of meld je aan voor onze digitale nieuwsbrief.

 

 

Fotocredit: Pixabay

 

 

 

Matthijs Tijink MSc

Matthijs Tijink MSc

Junior Consultant