all
Business
data science
design
development
our journey
Strategy Pattern
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Sådan analyseres kundeanmeldelser med NLP: et casestudie

Denne rapport analyserer kundeanmeldelser af Britannia International Hotel Canary Wharf. Analysen blev udført ved hjælp af Natural Language Processing teknikker, og resultaterne blev brugt til at identificere, hvilke aspekter af hotellets service der skulle forbedres.


Bortset fra gæstfrihedsindustrien kan denne analyse gavne enhver anden sektor med adgang til kundefeedback, som e-handel, madservice eller underholdningsindustrien.

blue arrow to the left
Imaginary Cloud logo

Problem

Et af de mest kritiske aspekter ved at forstå en virksomhed er at forstå dens styrker og svagheder. At analysere, hvorfor det trives eller ej, repræsenterer en nøgle til den virksomheds levetid. Hoteller er ikke mærkelige for dette scenarie.

Som virksomhedsejer er det vigtigt at forstå, hvorfor nogle kunder måske ikke vender tilbage til hotellet, årsagen bag en vis modvilje, eller hvad der positivt skilte sig ud for dem.

For at udføre denne undersøgelse indsamlede vi et datasæt med hotelanmeldelser og fokuserede vores opmærksomhed på et specifikt hotel: Britannia International Hotel Canary Wharf.

Britannia International Hotel Canary Wharf.

Den datasæt blev indsamlet fra Kaggle platformen, der indeholdt over 515.000 kundeanmeldelser og score på 1493 luksushoteller i hele Europa.

Løsning

Motivation og mål

For at få indsigt i hotelanmeldelser og forstå kundernes følelser og feedback mere præcist, var vi nødt til at forstå kundernes meninger og segmentering i vores datasæt med de tilgængelige data.

Derudover gør det store korpus af kundefeedback det tidskrævende at gennemgå dem manuelt for at fange kundernes præferencer og smertepunkter. Derfor fortsatte vi også med at analysere anmeldelsesteksterne med Natural Language Processing teknikker for at forstå de iboende følelser og følelser bag anmeldelser og anerkende, hvilke aspekter af hotellet der krævede forbedringer.

Mens vi anvendte denne proces på gæstfrihedsindustrien, kan denne type analyse let implementeres for enhver anden branche, der fanger kundefeedback eller endda aktiveres ved at indsamle kundekommentarer fra indlæg på sociale medier.

Oversigt

Vi startede med at evaluere de tilgængelige data, med særlig opmærksomhed på formatet og sundheden af hvert felt. Som det er typisk, når man beskæftiger sig med datasæt, især dem, der involverer brugergenererede data, skulle nogle data rengøres. Dette er et vigtigt skridt i enhver dataanalyseproces for at sikre, at de data, vi arbejder med og bruger som grundlag for indsigt, er sunde og derfor fører til rimelige og repræsentative konklusioner.

I det specifikke tilfælde af dette datasæt havde den faktiske gennemgangstekst brug for en mindre rengøring for at fjerne overflødige mellemrum. Vi bemærkede dog også et væsentligt problem: al tegnsætning manglede i anmeldelsen. Derfor var det nødvendigt at udføre et forbehandlingstrin. Vi fortsatte med at gendanne noget af strukturen leveret af denne tegnsætning for at sikre, at vi kunne bruge naturlige sprogbehandlingsteknikker og opnå relevante resultater. En enkel, men effektiv metode var at tilnærme denne struktur ved at tilføje perioder før hvert ord, der begynder med et stort bogstav.

Effektiviteten af denne metode stammede også fra vores yderligere behandling, hvor vi filtrerede kendte akronymer og navngivne enheder, så vi ikke ville tilføje unødvendige perioder. For at opnå det anvendte vi automatisk genkendelse af navngivne enheder, en proces, der forsøger at identificere navngivne enheder i et givet stykke tekst automatisk. I NLP-sammenhæng er navngivne enheder objekter i den virkelige verden, der kan identificeres med et rigtigt navn, herunder byer, enkeltpersoner, organisationer osv.

Analyse

Dataprofilering

Det næste trin var at oprette vores datasæt, som vi filtrerede til kun at gælde for vores specifikke hotel. Med vores filtrering var vi i stand til at få adgang til oplysninger om vores særlige hotel.

Datasættet indeholder anmeldelsesdatoen og den score, der er givet til dette ophold. Den havde også oplysninger om anmelderens nationalitet og tags, der beskrev karakteristika ved besøget, såsom om det udgjorde et dobbelt- eller et enkeltværelse, og hvor længe opholdet var. Derudover havde det også negative og positive anmeldelser af dette ophold.

For at tilnærme de tilgængelige data til et reelt scenarie sammensatte vi tilfældigt de negative og positive anmeldelser i kun en kolonne for at analysere senere.

Distributionsanalyse

Den første opgave var at se anmeldelsernes vurderinger efter dato. Det kunne være muligt at identificere perioder, hvor vurderingerne ikke ville være så gode. Dette kan stamme fra et sæsonmæssigt aspekt, såsom ikke at have aircondition om sommeren eller virkningen af en bestemt medarbejder.

Denne tilgang var ikke frugtbar, men den samme logik gjaldt til at analysere tags eller nationaliteter. Gennem mærkerne kunne vi for eksempel identificere, om kunder med et Executive-dobbeltværelse har skrevet dårlige anmeldelser eller ej. Denne visualisering kunne udføres gennem boxplot. Vi analyserede alle de forskellige tags og fandt ud af, at de fleste af dem afspejlede lignende distributioner, hvilket forhindrer muligheden for at opnå relevant indsigt.

Boxplots with reviewer score for different hotel accomodations.

Med hensyn til nationaliteter var det vigtigt at analysere fordelingen af vores kunder. Dette kan give indsigt i marketingteamets effektivitet på nogle markeder. Med undtagelse af de britiske kunder, som repræsenterer 80% af alle kunder, får vi følgende verdenskortoversigt, hvor mørkere nuancer indikerer et højere antal anmeldere fra den pågældende nationalitet:

World map overview indicating reviewers nationality.

Sentimentanalyse

For yderligere at forstå følelsen bag anmeldelserne bruger vi en sprogmodel hostet på HuggingFace-platformen for at vide, om anmeldelsen var positiv eller negativ. Den flersprogede XLM-Roberta-Base-model blev trænet på ~ 198M tweets og finjusteret til sentimentanalyse. Sentimentfinjusteringen blev udført på 8 sprog.

Med evnen til at opdele anmeldelserne i positive og negative med et rimeligt konfidensniveau (0,76 nøjagtighed i vores datasæt) forsøgte vi at analysere mønstre inden for disse anmeldelser. En ligetil måde at visualisere ordene på er gennem ordskyer. Følgende er ordet sky for negative og positive anmeldelser.

Negative reviews

Positive reviews

Der er meget information at hente ved at analysere dynamikken mellem positive og negative kundeanmeldelser. Kunder ønsker helt sikkert at sige deres mening, som det fremgår af vores datasæt, hvor negative anmeldelser i gennemsnit er over dobbelt så lange som positive anmeldelser. Derudover kan vi ved at se på udviklingen i det gennemsnitlige antal anmeldelser over tid se en potentiel let stigende tendens i antallet af negative anmeldelser, som virksomheden skal være opmærksom på.

3 month moving of average reviews

Følelsesanalyse

Udover at identificere følelsen bag en tekst, er en anden teknik i NLP at identificere følelserne bag den. For at opnå dette brugte vi NCRlex-biblioteket. NCRlex-biblioteket giver os mulighed for at genkende følelser fra tekster, såsom frygt, vrede eller overraskelse. Denne analyse giver os mulighed for mere præcist at forstå, hvordan kunderne føler om en bestemt tjeneste eller et produkt.

På samme måde som sentimentvisualisering kan vi visualisere en ordsky for hver følelse inden for de positive eller negative anmeldelser ved at identificere de forskellige følelser, der er forbundet. For eksempel er ordskyen genereret fra tillidsfølelsen inden for de positive anmeldelser som følger:

Word cloud generated from trust emotion within positive reviews

Denne proces giver os mulighed for at få en idé om, hvad der udløser hvilken kundefølelse.

Søgeordsanalyse

For yderligere at analysere anmeldelserne ønskede vi at identificere hovedobjekterne for kundekommentarer i deres anmeldelser. For at opnå det ekstraherede vi relevante søgeord fra sættet af positive og negative anmeldelser ved hjælp af YAKE, en uovervåget automatisk nøgleordsudvindingsmetode.

Denne metode beregner statistiske funktioner relateret til egenskaber for hver gennemgang, herunder store og små bogstaver, position, frekvens, kontekst og vægte for hvert udtryk i henhold til disse funktioner.

Endelig beregnes en score, der angiver betydningen af hvert udtryk som et potentielt søgeord. Dette er en kraftfuld, men alligevel let metode, der på grund af sin helt uovervågede karakter kan anvendes på forskellige domæner og endda med andre sprog.

Derudover anvendte vi en ren frekvensbaseret tilgang til at afdække de mest almindelige objekter, der er nævnt i anmeldelser. Resultaterne lignede vores søgeordsanalyse og bekræftede dens gyldighed og pålidelighed.

Disse var de nøgleord, der blev identificeret for positive og negative anmeldelser:

  • Positiv: hotel, beliggenhed, personale, udsigt, værelse, morgenmad
  • Negativ: hotel, personale, værelse, morgenmad, vindue, seng, Wi-Fi

Som forventet er de identificerede nøgleord almindelige punkter, der behandles i gæstfrihedsbranchens anmeldelser. De udgør allerede en god indikator for tilstrækkelig service eller potentielle forbedringsområder for hotellet.

Vi ønskede dog at gå dybere ind i analysen og afdække præcis, hvad det var ved disse objekter, der fungerede - eller ikke - fungerede som forventet af kunderne. For eksempel, hvorfor var vinduer et så fremtrædende aspekt af negative anmeldelser?

Til dette formål brugte vi en anden teknik fra Natural Language Processing: syntaktisk afhængighedsanalyse. Vi brugte SpaCy, et hurtigt, omfattende og produktionsklar NLP-bibliotek til Python, til at skabe et syntaktisk afhængighedstræ, der forbinder alle udtryk i inputteksten i henhold til deres syntaktiske relation. Derefter spurgte vi dette træ for præcist at finde ud af, hvad det handlede om et givet søgeord (for eksempel „værelse“ eller „placering“), som kunderne kunne lide eller ikke specielt kunne lide.

Syntactic dependency parsing process.

Resultatet var en liste over modifikatorer for hvert søgeord. For eksempel kunne vi lære, at kunderne måske betragter et „værelse“ som „rummeligt“ eller „placeringen“ for at være „praktisk“. Denne resulterende liste over modifikatorer gjorde det muligt for os at oprette ordskyer for at visualisere hyppigheden af hver modifikator for det givne nøgleord, såsom ordskyen nedenfor, for nøgleordet „rum“:

Word cloud for the keyword room

At analysere disse hyppige modifikatorer for hvert søgeord, deres relevans og vægt og analysere separat for positive og negative anmeldelser, gav os et dybere indblik i, hvad kunderne bedst kan lide - og ikke så meget - de resultater, vi præsenterer nedenfor.

4 things to remember when choosing a tech stack for your web development project
blue arrow to the left
Imaginary Cloud logo

Resultater

Efter at have analyseret datasættet som beskrevet ovenfor, var vi i stand til at identificere nogle positive aspekter af virksomheden såvel som væsentlige forbedringsområder.

En mærkbar kommentar fra kunder, som ofte vises i både positive og negative anmeldelser, er, at nogle betragter hotellet som dateret. De tre vigtigste modifikatorer, der bruges til at beskrive hotellet i negative anmeldelser, vedrører denne kvalitet. Dette antyder, at virksomheden måske ønsker at undersøge renovering for at berolige disse smertepunkter.

Modifiers for hotel keyword in negative reviews
Modifiers for hotel keyword in positive reviews.

Søgeordsanalysen afslører kundernes mest almindelige punkter, når de sender deres anmeldelser. Som man kunne forvente, er værelset fremtrædende i både negative og positive anmeldelser. Selvom det nævnes regelmæssigt i negative anmeldelser i hele den periode, vi analyserede, var der i cirka de sidste seks måneder en stigning i rumomtaler i positive anmeldelser, en potentielt gunstig tendens, som virksomheden bør være opmærksom på. I positive anmeldelser henviser de mest almindelige kommentarer til værelser som rene og rummelige. Der er også henvisninger til at være generelt behagelig og billig.

Sengene blev også ofte nævnt, hvor nogle brugere betragtede dem som stive og ubehagelige. Udbredelsen af denne kommentar antyder også et øjeblikkeligt område til forbedring. På den note påpegede nogle kunder også, at de fandt hotellet støjende.

Top modifiers for negative reviews for bed.

Derudover er et andet stort problem rapporteret af kunderne varme-, ventilations- og klimaanlægget på hotellet - „varmt“ og „koldt“ var de største bekymringer fra kunderne vedrørende deres værelser. Et særligt smertepunkt var rumvinduet, som så ofte blev nævnt for at blive identificeret som et af vores nøgleord, især da det krævede hjælp fra personalet til at åbne nogle værelsers vinduer.

Word cloud with main concerns from customers.

I den forstand blev personalet ofte opdraget i positive og negative anmeldelser, hvor nogle kunder betragtede dem som uhøflige. Men oftest blev de betragtet som venlige og hjælpsomme, selvom et særligt interessepunkt er, at mange kunder troede, at hotellet var underbemandet. Endelig forbliver omtalen af personalet i anmeldelser relativt konstant over tid.

Hotellets placering var en anden fremtrædende faktor i positive anmeldelser. Det blev overvejende opfattet som et positivt aspekt, med mange generelle komplimenter, og blev betragtet som praktisk og centralt placeret. En afgørende tendens, som virksomheden skal være opmærksom på, er imidlertid, at placering over tid er blevet nævnt sjældnere i positive anmeldelser, mens det i stigende grad henvises til i negative anmeldelser. Selvom dette kan vedrøre den eksterne placering og derfor eksterne faktorer uden for øjeblikkelig hotelkontrol, er det en potentiel tendens, der er værd at holde øje med.

Endelig er det værd at nævne, at et betydeligt antal negative anmeldelser kommenterede hotellets Wi-Fi, hovedsageligt på grund af at det blev betalt og ikke gratis.

Keword-mentions-in-reviews

Ansøgninger

Business intelligence- og sentimentanalyseprojekter som dette kan give værdi til mange brugssager.

E-handel

I dag foregår en betydelig del af indkøbene online. E-handel repræsenterer en voksende tendens med næsten ubegrænset adgang til ressourcer, markeder og produkter i realtid fra hvor som helst på planeten. At forstå markedsføringens rækkevidde med hensyn til kundesegmentering er meget vigtigt for en virksomhed til at tilpasse indsatsen for at nå den ønskede målgruppe.

Næsten hver e-handelsplatform indeholder et anmeldelsesafsnit, hvor kunderne kan kommentere de produkter, de har købt. Dette kommentarafsnit repræsenterer en værdifuld datakilde, der kan bringe værdi til virksomheden.

Gennem NLP-teknikker er det muligt at få indsigt i, hvad kunden kan lide eller ikke kan lide ved produkterne. Disse indsigter kan hjælpe med at forstå mangler eller yderligere forbedringer af produktet og/eller platformen. Vi kan identificere nøgleaspekter, der bringer usikkerhed eller andre følelser til kunden, så vi kan handle på dem.

Det bliver også muligt at se udviklingen i brugerens sentiment på produktet over tid og måle, hvordan ændringer påvirkede kundernes overordnede mening.

Gæstfrihedsindustrien

Gæstfrihedsbranchen er en meget konkurrencedygtig sektor, hvor små detaljer kan vise sig at være væsentlige fordele i forhold til konkurrenter.

Booking, Trivago, Google og andre platforme viser ofte virksomheder. Det fælles aspekt mellem disse platforme er, at kunder ofte bruger dem til at give anmeldelser. Ved at analysere bedømmelsesresultater og kommentarer er det muligt at indsamle indsigt i kundernes meninger om centrale aspekter af virksomhederne.

Disse data giver os mulighed for at fortolke, hvilke aspekter af virksomheden der skal ændres eller opmærksomhed, hvilke dele kunderne værdsætter, og muligvis forudse nogle justeringer, vi bør overveje.

Fødevareserviceindustrien

Restauranter, caféer og barer er i stigende grad afhængige af deres online tilstedeværelse for at tiltrække kunder. Dette indebærer at blive opført på flere platforme som Yelp, Google, Zomato og Tripadvisor, som giver brugerne mulighed for at efterlade vurderinger og skriftlige anmeldelser. Ofte vælger kunderne, hvilke nye steder de skal prøve udelukkende baseret på disse anmeldelser, hvilket gør dem til en nøgle til at forstå, hvordan virksomheden klarer sig.

Det er i disse virksomheders bedste interesse at bruge al denne feedback til at finde måder at få en fordel i forhold til deres konkurrenter. Analyse af mulige kundernes smertepunkter hjælper med at investere i værdifulde forbedringer, og sporing af forbrugernes stemning over tid sikrer, at investeringerne betaler sig.

Enhver virksomhed, der vokser ud over en bestemt størrelse, skal stole på Data Science-teknikker til at analysere mange anmeldelser, de måtte få på forskellige platforme. Denne proces kan automatiseres, hvilket giver hurtig feedback og en bred vision om, hvad der tiltrækker eller fortryller kunder. Dette vil hjælpe ledere med at tage deres madtjenester til det næste niveau.

Underholdningsindustri

Underholdningsindustrien er bred, inklusive alt fra film, tv-shows og Youtube-kanaler til forlystelsesparker og cirkusakter. Fælles for alle disse virksomheder, især i den digitale tidsalder, er, at de er genstand for anmeldelser og kommentarer, både fra kritikere og tilskuere.

Efterhånden som virksomheden vokser, kan antallet af anmeldelser blive uhåndterligt, hvilket gør det vanskeligt at forstå befolkningens overordnede stemning. Det er her, NLP-teknikker skal komme i spil, så mange kommentarer kan analyseres og analyseres for at udtrække værdifuld og handlingsbar indsigt.

blue arrow to the left
Imaginary Cloud logo

Endnotes

In summary, we analyzed customer feedback about their stay in a hotel using Natural Language Processing techniques and uncovered actionable insights that can directly impact business decision-making. This analysis and the underlying processes can be used for many other applications, bringing value to businesses across many sectors.

This project was completed in 3 days with a team of 2 Imaginary Cloud Data Scientists. Imaginary Cloud provides Data Science and AI development services, focusing on bringing the highest value to its clients through tailored solutions and an agile process.

Contact us if you need a custom Data Science or AI solution:

Artificial Intelligence Solutions  done right - CTA
blue arrow to the left
Imaginary Cloud logo
blue arrow to the left
Imaginary Cloud logo
blue arrow to the left
Imaginary Cloud logo
blue arrow to the left
Imaginary Cloud logo
blue arrow to the left
Imaginary Cloud logo
blue arrow to the left
Imaginary Cloud logo
Alexandra Mendes
Alexandra Mendes

Alexandra Mendes er Senior Growth Specialist hos Imaginary Cloud med 3+ års erfaring med at skrive om softwareudvikling, AI og digital transformation. Efter at have gennemført et frontend-udviklingskursus fik Alexandra nogle praktiske kodningsevner og arbejder nu tæt sammen med tekniske teams. Alexandra brænder for, hvordan nye teknologier former erhvervslivet og samfundet, og hun nyder at omdanne komplekse emner til klart og nyttigt indhold for beslutningstagere.

LinkedIn

Read more posts by this author
Viktor Bernardes
Viktor Bernardes

Dataforsker brænder for datavidenskab og er opmærksom på dens etiske implikationer. Udover arbejdet elsker jeg at nørde med musik og læse en god historie.

Read more posts by this author
Rui Melo
Rui Melo

Data Scientist, der elsker at udforske problemer. I min fritid underviser jeg basketball til børn og nyder at gå på stranden.

Read more posts by this author

People who read this post, also found these interesting:

arrow left
arrow to the right
Dropdown caret icon