Alexandra Mendes

Vítor Bernardes

Rui Melo

27 november 2023

•

Min läsning

Hur man analyserar kundrecensioner med NLP: en fallstudie

Denna rapport analyserar kundrecensionerna av Britannia International Hotel Canary Wharf. Analysen utfördes med hjälp av Natural Language Processing tekniker, och resultaten användes för att identifiera vilka aspekter av hotellets service som behövde förbättras.

‍Förutom gästfrihetsindustrin kan denna analys gynna alla andra sektorer med tillgång till kundfeedback, som e-handel, mattjänster eller underhållningsindustrin.

Problem

En av de mest kritiska aspekterna av att förstå ett företag är att förstå dess styrkor och svagheter. Att analysera varför det blomstrar eller inte representerar en nyckel till företagets livslängd. Hotell är inte konstigt för detta scenario.

Som företagare är det viktigt att förstå varför vissa kunder kanske inte återvänder till hotellet, orsaken bakom viss motvilja eller vad som positivt stod ut för dem.

För att utföra denna forskning samlade vi en uppsättning hotellrecensioner och fokuserade vår uppmärksamhet på ett specifikt hotell: Britannia International Hotel Canary Wharf.

En vy över hamnen med moderna skyskrapor och byggnader, inklusive Britannia International Hotel, med utsikt över ett lugnt dockområde i Canary Wharf, London, under en skymningshimmel med en bro som korsar vattnet.

Den dataset samlades in från Kaggle-plattformen, som innehöll över 515 000 kundrecensioner och poäng på 1493 lyxhotell över hela Europa.

Ta reda på varför du behöver en Data Scientist

Lösning

Motivation och mål

För att få insikter i hotellrecensionerna och förstå kundernas känslor och feedback mer exakt behövde vi förstå kundernas åsikter och segmentering i vår dataset med tillgänglig data.

Dessutom gör den stora mängden kundfeedback det tidskrävande att manuellt granska dem för att fånga kundernas preferenser och smärtpunkter. Därför fortsatte vi också att analysera granskningstexterna med Natural Language Processing -tekniker för att förstå de inneboende känslorna och känslorna bakom recensioner och känna igen vilka aspekter av hotellet som krävde förbättringar.

Medan vi tillämpade denna process på gästfrihetsindustrin, kan denna typ av analys enkelt implementeras för alla andra branscher som fångar feedback från kunder eller till och med aktiveras genom att samla in kundkommentarer från inlägg på sociala medier.

Översikt

Vi började med att utvärdera tillgängliga data, med särskild uppmärksamhet på formatet och sundheten för varje fält. Som är typiskt när man hanterar datamängder, särskilt sådana som involverar användargenererade data, behövde vissa data rengöras. Detta är ett viktigt steg i varje dataanalysprocess för att säkerställa att de data vi arbetar med och använder som grund för insikter är sunda och därför leder till rimliga och representativa slutsatser.

I det specifika fallet med denna datauppsättning behövde den faktiska granskningstexten lite mindre rengöring för att ta bort överflödigt blanksteg. Men vi märkte också en betydande fråga: alla skiljetecken saknades i granskningen. Därför var det nödvändigt att utföra ett förbehandlingssteg. Vi fortsatte med att återställa en del av strukturen som tillhandahålls av skiljetecknet för att säkerställa att vi kunde använda naturliga språkbehandlingstekniker och få relevanta resultat. En enkel men effektiv metod var att approximera den strukturen genom att lägga till perioder före varje ord som börjar med en stor bokstav.

Effektiviteten av den metoden härrörde också från vår ytterligare bearbetning, där vi filtrerade kända akronymer och namngivna enheter, så vi skulle inte lägga till onödiga perioder. För att uppnå det använde vi automatisk namngiven entitetsigenkänning, en process som försöker identifiera namngivna enheter i en viss text automatiskt. I NLP-sammanhang är namngivna enheter verkliga objekt som kan identifieras med ett riktigt namn, inklusive städer, individer, organisationer etc.

Analys

Dataprofilering

Nästa steg var att skapa vår dataset, som vi filtrerade för att endast gälla för vårt specifika hotell. Med vår filtrering kunde vi få tillgång till information om just vårt hotell.

Datauppsättningen innehåller granskningsdatumet och poängen som ges till den vistelsen. Den hade också information om granskarens nationalitet och taggar som beskrev besökets egenskaper, till exempel om det utgjorde ett dubbel- eller enkelrum och hur lång vistelsen var. Dessutom hade den också negativa och positiva recensioner av den vistelsen.

För att approximera tillgängliga data till ett verkligt scenario maskade vi slumpmässigt de negativa och positiva recensionerna i endast en kolumn för att analysera senare.

Distributionsanalys

Den första uppgiften var att se recensionernas betyg efter datum. Det kan vara möjligt att identifiera perioder där betygen inte skulle vara så bra. Detta kan härröra från en säsongsbetonad aspekt, till exempel att inte ha luftkonditionering på sommaren eller påverkan av en viss anställd.

Detta tillvägagångssätt var inte fruktbart, men samma logik gällde för att analysera taggar eller nationaliteter. Genom taggarna kunde vi till exempel identifiera om kunder med en vistelse i Executive-dubbelrum lämnade dåliga recensioner eller inte. Den visualiseringen kan göras genom boxplot. Vi analyserade alla olika taggar och fann att de flesta av dem återspeglade liknande fördelningar, vilket förhindrar möjligheten att få relevanta insikter.

Fyra individuella låddiagram sida vid sida, som visar fördelningen av recensenters betyg upp till 10 för olika typer av hotellboenden. Från vänster till höger är kategorierna: "Family with young children accommodation", "Business trip accommodation", "Executive Double Room accommodation" och "Standard Single Room accommodation". Alla fyra diagram visar liknande fördelningar, med lägsta betyg runt 2,5, högsta betyg på 10 och medianbetyg som ligger mellan 6 och 7.

När det gäller nationaliteter var det viktigt att analysera fördelningen av våra kunder. Detta kan ge insikter om marknadsföringsteamets effektivitet på vissa marknader. Exklusive de brittiska kunderna, som representerar 80% av alla kunder, får vi följande världskarta översikt, där mörkare nyanser indikerar ett högre antal granskare från den nationaliteten:

En koroplet-världskarta som visar olika länder färgade i olika intensiteter av rosa och rött. Mörkare nyanser framhäver länder som Irland, Storbritannien och USA, medan många andra regioner visas i ljusare rosa eller är lämnade vita.

Sentimentanalys

För att ytterligare förstå känslan bakom recensionerna använder vi en språkmodell som finns på HuggingFace-plattformen för att veta om recensionen var positiv eller negativ. Den flerspråkiga XLM-Roberta-Base-modellen tränades på ~ 198M tweets och finjusterades för sentimentanalys. Sentimentfinjusteringen gjordes på 8 språk.

Med förmågan att dela upp recensionerna i positiva och negativa med en rimlig konfidensnivå (0,76 noggrannhet i vår datauppsättning) försökte vi analysera mönster inom dessa recensioner. Ett enkelt sätt att visualisera orden är genom ordmoln. Följande är ordmolnet för negativa och positiva recensioner.

Ett ordmoln med titeln "Negative Reviews" (Negativa recensioner) som visar vanliga klagomål från kundfeedback. Framträdande, stora ord inkluderar "breakfast", "noisy", "uncomfortable", "dirty", "tired", "pay" och "food", omgivna av mindre ord som "cold", "broken", "clean" och "pool" på en mörk bakgrund.

Ett ordmoln med titeln "Positive Reviews" på en svart bakgrund. De största och mest framträdande orden är "clean", "breakfast" och "spacious". Andra synliga ord inkluderar "money", "food", "polite", "lovely", "brilliant", "convenient" och "pleasant".

Det finns mycket information att få genom att analysera dynamiken mellan positiva och negativa kundrecensioner. Kunderna vill säkert säga sitt, vilket framgår av vår datamängd, där negativa recensioner i genomsnitt är över dubbelt så långa som positiva recensioner. Genom att titta på utvecklingen av det genomsnittliga antalet recensioner över tid kan vi dessutom se en potentiell liten ökande trend i antalet negativa recensioner, som verksamheten bör vara uppmärksam på.

Ett linjediagram med titeln '3-month Moving Average of Reviews' som visar trenden för recensioner från slutet av 2015 till juli 2017. Den horisontella x-axeln representerar recensionsdatumet och den vertikala y-axeln representerar antalet recensioner, från 20 till 120. Tre linjer visar data: en översta blå linje för negativa recensioner (Negative), en mellersta orange linje för positiva recensioner (Positive) och en nedersta grön linje för neutrala recensioner (Neutral). Alla tre linjer följer ett liknande fluktuerande mönster, där negativa recensioner konsekvent är högst (ligger ungefär mellan 85 och 120), positiva recensioner är i mitten (mellan 45 och 75) och neutrala recensioner är lägst (mellan 25 och 50).

Känslomässig analys

Förutom att identifiera känslan bakom en text, är en annan teknik i NLP att identifiera känslorna bakom den. För att uppnå detta använde vi NCRlex-biblioteket. NCRlex-biblioteket låter oss känna igen känslor från texter, till exempel rädsla, ilska eller överraskning. Denna analys gör det möjligt för oss att mer exakt förstå hur kunderna tycker om en specifik tjänst eller produkt.

På samma sätt som sentimentvisualisering kan vi visualisera ett ordmoln för varje känsla inom de positiva eller negativa recensionerna genom att identifiera de olika känslorna som är associerade. Till exempel är ordmolnet som genereras från förtroendekänslan inom de positiva recensionerna följande:

Ett ordmoln med titeln "trust" på svart bakgrund, som framhäver beskrivande ord som clean, lovely, food, pleasant, money och brilliant.

Denna process gör att vi kan få en uppfattning om vad som utlöser vilken kundkänsla.

Nyckelordsanalys

För att ytterligare analysera recensionerna ville vi identifiera huvudobjekten för kundkommentarer i sina recensioner. För att uppnå det extraherade vi relevanta sökord från uppsättningen positiva och negativa recensioner med hjälp av YAKE, en oövervakad automatisk sökordsextraktionsmetod.

Denna metod beräknar statistiska funktioner relaterade till egenskaper för varje granskning, inklusive ordfall, position, frekvens, sammanhang och vikter för varje term enligt dessa funktioner.

Slutligen beräknas en poäng som indikerar betydelsen av varje term som ett potentiellt nyckelord. Detta är en kraftfull men ändå lätt metod som, på grund av sin helt oövervakade natur, kan användas på olika domäner och även med andra språk.

Dessutom använde vi ett rent frekvensbaserat tillvägagångssätt för att avslöja de vanligaste objekten som nämns i recensioner. Resultaten liknade vår nyckelordsanalys och bekräftade dess giltighet och tillförlitlighet.

Dessa var nyckelorden som identifierades för positiva och negativa recensioner:

Positiv: hotell, plats, personal, utsikt, rum, frukost
Negativ: hotell, personal, rum, frukost, fönster, säng, Wi-Fi

Som förväntat är de identifierade nyckelorden vanliga punkter som behandlas i gästfrihetsbranschens recensioner. De utgör redan en bra indikator på adekvat service eller potentiella förbättringsområden för hotellet.

Vi ville dock gå djupare in i analysen och avslöja exakt vad det var med dessa objekt som fungerade - eller inte - fungerade som förväntat av kunderna. Till exempel, varför var fönster en så framträdande aspekt av negativa recensioner?

För detta ändamål använde vi en annan teknik från Natural Language Processing: syntaktisk beroendeanalys. Vi använde SpaCy, ett snabbt, omfattande och produktionsklart NLP-bibliotek för Python, för att skapa ett syntaktiskt beroendeträd, som förbinder alla termer i inmatningstexten enligt deras syntaktiska relation. Sedan frågade vi det här trädet för att fastställa exakt vad det handlade om ett visst sökord (till exempel ”rum” eller ”plats”) som kunderna gillade eller inte särskilt gillade.

Ett syntaktiskt beroendediagram för meningen "AC could not be used, leaving room hot." Texten är arrangerad horisontellt med tokens som "AC", "could", "not", "be", "used", "leaving", "room" och "hot", tillsammans med deras ordklasstaggar som PROPN, AUX, PART, VERB, NOUN och ADJ undertill. Böjda, märkta pilar kartlägger de grammatiska beroendena mellan orden, där "used" fungerar som en central knutpunkt som pekar på "AC" via nsubjpass, "could" via aux, "not" via neg, "be" via auxpass och "leaving" via advcl. Ytterligare pilar förbinder "leaving" med "room" via dobj och "room" med "hot" via amod.

Resultatet blev en lista med modifierare för varje nyckelord. Vi kan till exempel lära oss att kunder kan betrakta ett ”rum” som ”rymligt” eller ”platsen” som ”bekvämt”. Denna resulterande lista med modifierare gjorde det möjligt för oss att skapa ordmoln för att visualisera frekvensen för varje modifierare för det givna nyckelordet, till exempel ordmolnet nedan, för nyckelordet ”rum”:

Ett ordmoln med titeln "ROOM" på svart bakgrund, som framhäver beskrivande ord som clean, spacious, comfortable, big, nice, double och hot.

Genom att analysera dessa frekventa modifierare för varje sökord, deras relevans och vikt, och analysera separat för positiva och negativa recensioner, gav oss en djupare inblick i vad kunderna gillar bäst - och inte så mycket - resultaten vi presenterar nedan.

4 things to remember when choosing a tech stack for your web development project

Resultat

Efter att ha analyserat datamängden enligt beskrivningen ovan kunde vi identifiera några positiva aspekter av verksamheten, liksom viktiga förbättringsområden.

En märkbar kommentar från kunder, som ofta förekommer i både positiva och negativa recensioner, är att vissa anser att hotellet är daterat. De tre huvudmodifierarna som används för att beskriva hotellet i negativa recensioner avser den kvaliteten. Detta tyder på att företaget kanske vill undersöka renovering för att lugna dessa smärtpunkter.

Ett ordmoln med titeln "HOTEL - NEGATIVE" som visar beskrivande ord för sökordet "hotel" i negativa recensioner, på en svart bakgrund. De största och mest framträdande orden är "dated", "tired", "old", "worst", "shabby" och "lovely". Andra märkbara ord inkluderar "prestigious", "goodlook", "four", "clean", "4star", "looking", "terrible", "noisy" och "tolerable".

Ett ordmoln med titeln "HOTEL - POSITIVE" på svart bakgrund, som visar olika beskrivande ord som används för sökordet "hotel" i positiva recensioner. De största och mest framträdande orden är "nice", "good", "great" och "clean" i ljusa gula och gröna nyanser. Andra synliga ord i varierande storlekar och färger inkluderar "beautiful", "dated", "old", "lovely", "accessible", "comfortable", "spacious" och "amazing".

Sökordsanalysen avslöjar kundernas vanligaste punkter när de publicerar sina recensioner. Som man kan förvänta sig har rummet en framträdande plats i både negativa och positiva recensioner. Även om det nämns regelbundet i negativa recensioner under den period vi analyserade, var det under ungefär de senaste sex månaderna en ökning av rumsomnämnanden i positiva recensioner, en potentiellt gynnsam trend som verksamheten bör vara medveten om. I positiva recensioner hänvisar de vanligaste kommentarerna till rum som rena och rymliga. Det finns också referenser till att vara övergripande bekväm och billig.

Sängarna nämndes också ofta, med vissa användare som ansåg dem styva och obekväma. Förekomsten av denna kommentar föreslår också ett omedelbart förbättringsområde. På den noten påpekade vissa kunder också att de tyckte att hotellet var bullrigt.

Ett horisontellt stapeldiagram med titeln "Top modifiers on negative reviews for 'bed'" som visar antalet omnämnanden på x-axeln från 0 till 25. Det vanligaste ordet är "double" med 23 omnämnanden, följt av "uncomfortable" med 22, "hard" med 11, "small" med 8 och "single" med 5 omnämnanden.

Utöver det är ett annat stort problem som kunderna rapporterat om värme-, ventilations- och luftkonditioneringssystemet på plats på hotellet - ”varmt” och ”kallt” var de största bekymmerna från kunderna när det gäller deras rum. En särskild smärtpunkt var rumsfönstret, som så ofta nämndes för att identifieras som ett av våra nyckelord, särskilt eftersom det krävde personalhjälp för att öppna vissa rums fönster.

An ordmoln med titeln "ROOM - NEGATIVE" som visar kundernas främsta klagomål. De största och mest framträdande orden är "cold", "hot", "small", "double", "twin", "dated", "dirty", "tired", "poor" och "noisy". Andra synliga ord inkluderar "filthy", "old", "basic", "uncomfortable", "shabby", "clean" och "warm". Texten visas i olika nyanser av blått, grönt och turkost på en svart bakgrund.

I den meningen, personalen växte ofta upp i positiva och negativa recensioner, med vissa kunder som ansåg dem oförskämda. Men oftare ansågs de vara vänliga och hjälpsamma, även om en särskild intressepunkt är att många kunder tyckte att hotellet var underbemannat. Slutligen förblir omnämnandet av personalen i recensioner relativt konstant över tiden.

Hotellets läge var en annan framträdande faktor i positiva recensioner. Det uppfattades övervägande som en positiv aspekt, med många allmänna komplimanger, och ansågs bekvämt och centralt beläget. En avgörande trend som företaget bör vara medveten om är dock att platsen över tid har nämnts mindre ofta i positiva recensioner medan det i allt högre grad hänvisas till i negativa recensioner. Även om detta kan relatera till den externa platsen och därför till externa faktorer utanför omedelbar hotellkontroll, är det en potentiell trend värt att hålla ett öga på.

Slutligen är det värt att nämna att ett betydande antal negativa recensioner kommenterade hotellets Wi-Fi, främst på grund av att det betalades och inte gratis.

Ett rutnät med 16 linjediagram som visar andelen nyckelordsomnämnanden i recensioner från juli 2015 till juli 2017. Diagrammen är uppdelade i åtta nyckelordskategorier: Frukost (Breakfast), Hotell (Hotel), Plats (Location), Rum (Room), Personal (Staff), Utsikt (View), WiFi och Fönster (Window). Varje kategori har diagram sida vid sida som jämför omnämnanden i negativa recensioner (vänster) och positiva recensioner (höger). Varje diagram spårar månatliga omnämnanden med en heldragen blå linje och kvartalsgenomsnittet med en streckad orange linje.

Upptäck hur Data Science kan hjälpa ditt företag.

Ansökningar

Affärsintelligens och sentimentanalysprojekt som detta kan ge värde till många användningsfall.

E-handel

Numera sker en betydande del av shoppingen online. E-handel representerar en växande trend med nästan obegränsad tillgång till resurser, marknader och produkter i realtid var som helst på planeten. Att förstå marknadsföringens räckvidd när det gäller kundsegmentering är mycket viktigt för ett företag att anpassa ansträngningarna för att nå önskad målgrupp.

Nästan varje e-handelsplattform innehåller ett recensionsavsnitt där kunder kan kommentera de produkter de köpte. Det här kommentaravsnittet representerar en värdefull datakälla som kan ge värde till verksamheten.

Genom NLP-tekniker är det möjligt att få insikter om vad kunden gillar eller ogillar med produkterna. Dessa insikter kan hjälpa till att förstå brister eller ytterligare förbättringar av produkten och/eller plattformen. Vi kan identifiera viktiga aspekter som ger kunden osäkerhet eller andra känslor, så att vi kan agera på dem.

Det blir också möjligt att se utvecklingen av användarens sentiment på produkten över tid och mäta hur förändringar påverkade kundernas övergripande åsikt.

Gästfrihetsindustrin

Gästfrihetsbranschen är en mycket konkurrenskraftig sektor där små detaljer kan visa sig vara väsentliga fördelar jämfört med konkurrenter.

Booking, Trivago, Google och andra plattformar listar ofta anläggningar. Den gemensamma aspekten mellan dessa plattformar är att kunder ofta använder dem för att lämna recensioner. Genom att analysera recensionspoäng och kommentarer är det möjligt att samla in insikter om kundernas åsikter om viktiga aspekter av verksamheten.

Dessa data gör det möjligt för oss att tolka vilka aspekter av verksamheten som behöver ändras eller uppmärksammas, vilka delar kunder värderar och eventuellt förutse några justeringar vi bör överväga.

Livsmedelsindustrin

Restauranger, kaféer och barer förlitar sig alltmer på deras online-närvaro för att locka kunder. Detta innebär att listas på flera plattformar som Yelp, Google, Zomato och Tripadvisor, som gör det möjligt för användare att lämna betyg och skriftliga recensioner. Ofta väljer kunder vilka nya platser de ska prova enbart baserat på dessa recensioner, vilket gör dem till en nyckel till att förstå hur verksamheten presterar.

Det ligger i dessa företags bästa intresse att använda all denna feedback för att hitta sätt att få en fördel över sina konkurrenter. Att analysera möjliga kundsmärtpunkter hjälper till att investera i värdefulla förbättringar, och att spåra konsumenternas känslor över tid säkerställer att investeringarna lönar sig.

Varje anläggning som växer utöver en viss storlek måste förlita sig på Data Science-tekniker för att analysera många recensioner de kan få på olika plattformar. Denna process kan automatiseras, vilket ger snabb feedback och en bred vision om vad som lockar eller besvärar kunder. Detta kommer att hjälpa chefer att ta sina mattjänster till nästa nivå.

Underhållningsindustri

Underhållningsindustrin är bred, inklusive allt från filmer, TV-program, och Youtube-kanaler till nöjesparker och cirkusakter. Gemensamt för alla dessa företag, särskilt i den digitala tidsåldern, är att de är föremål för recensioner och kommentarer, både från kritiker och åskådare.

När verksamheten växer kan antalet recensioner bli ohanterliga, vilket gör det svårt att förstå befolkningens övergripande känsla. Det är här NLP-tekniker bör spela in, så att många kommentarer kan analyseras och analyseras för att extrahera värdefulla och handlingsbara insikter.

Slutnoter

Sammanfattningsvis analyserade vi kundernas feedback om deras vistelse på ett hotell med hjälp av Natural Language Processing -tekniker och avslöjade handlingsbara insikter som direkt kan påverka affärsbeslutsfattandet. Denna analys och de underliggande processerna kan användas för många andra applikationer, vilket ger värde till företag inom många sektorer.

Detta projekt slutfördes på 3 dagar med ett team av 2 Imaginary Cloud Data Scientists. Imaginary Cloud tillhandahåller datavetenskap och AI-utvecklingstjänster, med fokus på att ge högsta värde till sina kunder genom skräddarsydda lösningar och en smidig process.

Kontakta oss om du behöver en anpassad Data Science eller AI-lösning:

Webbbanner för Imaginary Cloud. Text: "Artificial Intelligence Solutions done right" med en blå "BOOK A CALL"-knapp. Höger sida visar en illustration av tre personer runt digitala skärmar och en raket som skjuts upp.

Alexandra Mendes

Alexandra Mendes är Senior Growth Specialist på Imaginary Cloud med 3+ års erfarenhet av att skriva om mjukvaruutveckling, AI och digital transformation. Efter att ha avslutat en frontend-utvecklingskurs tog Alexandra upp några praktiska kodningskunskaper och arbetar nu nära med tekniska team. Alexandra brinner för hur ny teknik formar affärer och samhälle och tycker om att förvandla komplexa ämnen till tydligt och användbart innehåll för beslutsfattare.

Läs fler inlägg av denna författare