Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Comment analyser les avis clients avec la PNL : une étude de cas

Ce rapport analyse les avis des clients sur le Britannia International Hotel Canary Wharf. L'analyse a été réalisée à l'aide de techniques de traitement du langage naturel et les résultats ont été utilisés pour identifier les aspects du service de l'hôtel qui devaient être améliorés.


Outre l'industrie hôtelière, cette analyse peut bénéficier à tout autre secteur ayant accès aux commentaires des clients, comme le commerce électronique, les services de restauration ou l'industrie du divertissement.

blue arrow to the left
Imaginary Cloud logo

Problème

L'un des aspects les plus importants de la compréhension d'une entreprise est de comprendre ses forces et ses faiblesses. Analyser les raisons pour lesquelles elle est florissante ou non représente la clé de la longévité de cette entreprise. Les hôtels ne sont pas étrangers à ce scénario.

En tant que propriétaire d'entreprise, il est essentiel de comprendre pourquoi certains clients ne retournent pas à l'hôtel, les raisons d'une certaine aversion ou ce qui les a marqués de manière positive.

Pour effectuer cette recherche, nous avons rassemblé un ensemble de données d'avis sur les hôtels et avons concentré notre attention sur un hôtel en particulier : Britannia International Hotel Canary Wharf.

Britannia International Hotel Canary Wharf.

Le jeu de données a été collecté à partir de la plateforme Kaggle, contenant plus de 515 000 avis clients et évaluant 1 493 hôtels de luxe en Europe.

Solution

Motivation et objectifs

Pour mieux comprendre les avis des hôtels et comprendre les sentiments et les commentaires des clients avec plus de précision, nous avons dû comprendre les opinions des clients et segmenter notre ensemble de données à l'aide des données disponibles.

En outre, le vaste corpus de commentaires des clients rend leur révision manuelle fastidieuse afin de saisir les préférences et les problèmes des clients. Par conséquent, nous avons également procédé à l'analyse des textes des avis à l'aide de techniques de traitement du langage naturel afin de comprendre les sentiments et émotions intrinsèques qui sous-tendent les avis et de déterminer quels aspects de l'hôtel nécessitaient des améliorations.

Bien que nous ayons appliqué ce processus au secteur de l'hôtellerie, ce type d'analyse peut être facilement mis en œuvre pour tout autre secteur qui recueille les commentaires des clients ou même activé en collectant les commentaires des clients à partir de publications sur les réseaux sociaux.

Vue d'ensemble

Nous avons commencé par évaluer les données disponibles, en portant une attention particulière au format et à la solidité de chaque champ. Comme c'est généralement le cas pour les ensembles de données, en particulier ceux qui impliquent des données générées par les utilisateurs, certaines données devaient être nettoyées. Il s'agit d'une étape importante de chaque processus d'analyse des données afin de garantir que les données avec lesquelles nous travaillons et que nous utilisons comme base d'informations sont solides et aboutissent donc à des conclusions raisonnables et représentatives.

Dans le cas spécifique de cet ensemble de données, le texte de révision proprement dit a nécessité un nettoyage mineur pour supprimer les espaces blancs redondants. Cependant, nous avons également remarqué un problème important : toute la ponctuation était absente de l'évaluation. Il était donc nécessaire de réaliser une étape de prétraitement. Nous avons procédé à la récupération d'une partie de la structure fournie par cette ponctuation afin de pouvoir utiliser les techniques de traitement du langage naturel et obtenir des résultats pertinents. Une méthode simple mais efficace consistait à approximer cette structure en ajoutant des points avant chaque mot commençant par une majuscule.

L'efficacité de cette méthode découlait également de notre traitement supplémentaire, dans le cadre duquel nous avons filtré les acronymes connus et les entités nommées, afin de ne pas ajouter de points inutiles. Pour y parvenir, nous avons utilisé la reconnaissance automatique des entités nommées, un processus qui tente d'identifier automatiquement les entités nommées dans un texte donné. Dans le contexte de la PNL, les entités nommées sont des objets du monde réel qui peuvent être identifiés par un nom propre, notamment des villes, des individus, des organisations, etc.

Analyse

Profilage des données

L'étape suivante a consisté à créer notre ensemble de données, que nous avons filtré pour ne s'appliquer qu'à notre hôtel spécifique. Grâce à notre filtrage, nous avons pu accéder à des informations concernant notre hôtel en particulier.

L'ensemble de données contient la date de révision et la note attribuée à ce séjour. Il contenait également des informations concernant la nationalité de l'évaluateur et des étiquettes décrivant les caractéristiques de la visite, par exemple s'il s'agissait d'une chambre double ou simple et la durée du séjour. En outre, il a également reçu des critiques négatives et positives à propos de ce séjour.

Pour rapprocher les données disponibles d'un scénario réel, nous avons regroupé au hasard les avis négatifs et positifs dans une seule colonne pour les analyser ultérieurement.

Analyse de la distribution

La première tâche consistait à consulter les évaluations par date. Il pourrait être possible d'identifier les périodes où les notations ne seraient pas aussi bonnes. Cela peut être dû à un aspect saisonnier, comme l'absence de climatisation en été ou l'impact d'un employé en particulier.

Cette approche n'a pas été fructueuse, mais la même logique a été appliquée à l'analyse des tags ou des nationalités. Grâce aux balises, nous pourrions identifier, par exemple, si les clients séjournant dans une chambre double exécutive avaient laissé de mauvaises critiques ou non. Cette visualisation pourrait être réalisée par le biais de boxplots. Nous avons analysé toutes les différentes balises et avons constaté que la plupart d'entre elles reflétaient des distributions similaires, ce qui empêche la possibilité d'obtenir des informations pertinentes.

Boxplots with reviewer score for different hotel accomodations.

En ce qui concerne les nationalités, il était essentiel d'analyser la répartition de nos clients. Cela pourrait fournir des informations sur l'efficacité de l'équipe marketing sur certains marchés. Si l'on exclut les clients britanniques, qui représentent 80 % de l'ensemble des clients, nous obtenons l'aperçu suivant de la carte du monde, où les tons plus foncés indiquent un plus grand nombre d'évaluateurs de cette nationalité :

World map overview indicating reviewers nationality.

Analyse des sentiments

Pour mieux comprendre le sentiment qui sous-tend les avis, nous utilisons un modèle linguistique hébergé sur la plateforme HuggingFace pour savoir si l'avis était positif ou négatif. Le modèle multilingue XLM-Roberta-Base a été entraîné sur environ 198 millions de tweets et affiné pour l'analyse des sentiments. L'ajustement des sentiments a été effectué en 8 langues.

Grâce à la possibilité de diviser les avis en avis positifs et négatifs avec un niveau de confiance raisonnable (précision de 0,76 dans notre ensemble de données), nous avons essayé d'analyser les tendances au sein de ces avis. Un moyen simple de visualiser les mots consiste à utiliser des nuages de mots. Vous trouverez ci-dessous le nuage de mots pour les avis négatifs et positifs.

Negative reviews

Positive reviews

Il y a beaucoup d'informations à tirer de l'analyse de la dynamique entre les avis clients positifs et négatifs. Les clients veulent certainement avoir leur mot à dire, comme le montre notre ensemble de données, où les avis négatifs sont, en moyenne, plus de deux fois plus longs que les avis positifs. De plus, en examinant l'évolution du nombre moyen d'avis au fil du temps, nous pouvons constater une légère tendance à la hausse du nombre d'avis négatifs, à laquelle l'entreprise devrait être attentive.

3 month moving of average reviews

Analyse des émotions

Outre l'identification du sentiment qui sous-tend un texte, une autre technique de la PNL consiste à identifier l'émotion qui le sous-tend. Pour ce faire, nous avons utilisé la bibliothèque NCRLex. La bibliothèque NCRLex nous permet de reconnaître les émotions contenues dans les textes, telles que la peur, la colère ou la surprise. Cette analyse nous permet de mieux comprendre ce que les clients pensent d'un service ou d'un produit spécifique.

À l'instar de la visualisation des sentiments, nous pouvons visualiser un nuage de mots pour chaque émotion dans les critiques positives ou négatives en identifiant les différentes émotions associées. Par exemple, le nuage de mots généré à partir de l'émotion de confiance contenue dans les avis positifs est le suivant :

Word cloud generated from trust emotion within positive reviews

Ce processus nous permet d'avoir une idée de ce qui déclenche l'émotion du client.

Analyse des mots clés

Pour analyser plus en profondeur les avis, nous avons souhaité identifier les principaux objets des commentaires des clients dans leurs avis. Pour y parvenir, nous avons extrait les mots clés pertinents de l'ensemble des avis positifs et négatifs à l'aide de YAKE, une méthode d'extraction automatique de mots clés non supervisée.

Cette méthode calcule les caractéristiques statistiques liées aux caractéristiques de chaque revue, notamment les majuscules, la position, la fréquence, le contexte et les pondérations de chaque terme en fonction de ces caractéristiques.

Enfin, un score est calculé indiquant la signification de chaque terme en tant que mot clé potentiel. Il s'agit d'une méthode puissante mais légère qui, en raison de sa nature totalement non supervisée, peut être utilisée dans différents domaines et même avec d'autres langues.

De plus, nous avons utilisé une approche purement basée sur les fréquences pour découvrir les objets les plus courants mentionnés dans les critiques. Les résultats étaient similaires à ceux de notre analyse des mots clés, confirmant ainsi sa validité et sa fiabilité.

Voici les mots-clés identifiés pour les avis positifs et négatifs :

  • Positif: hôtel, emplacement, personnel, vue, chambre, petit déjeuner
  • Négatif: hôtel, personnel, chambre, petit déjeuner, fenêtre, lit, Wi-Fi

Comme prévu, les mots-clés identifiés sont des points communs abordés dans les revues de l'industrie hôtelière. Ils constituent déjà un bon indicateur d'un service adéquat ou de domaines d'amélioration potentiels pour l'hôtel.

Cependant, nous voulions approfondir l'analyse et découvrir exactement en quoi consistaient ces objets qui fonctionnaient — ou ne fonctionnaient pas — comme prévu par les clients. Par exemple, pourquoi les fenêtres occupaient-elles une place si importante dans les critiques négatives ?

À cette fin, nous avons utilisé une autre technique issue du traitement du langage naturel : l'analyse syntaxique des dépendances. Nous avons utilisé SpacY, une bibliothèque NLP rapide, complète et prête pour la production pour Python, pour créer un arbre de dépendances syntaxiques, qui relie tous les termes du texte d'entrée en fonction de leur relation syntaxique. Ensuite, nous avons interrogé cet arbre pour identifier précisément en quoi consistait un mot clé donné (par exemple, « chambre » ou « lieu ») que les clients appréciaient ou n'appréciaient pas particulièrement.

Syntactic dependency parsing process.

Le résultat a été une liste de modificateurs pour chaque mot clé. Par exemple, nous pourrions apprendre que les clients peuvent considérer qu'une « chambre » est « spacieuse » ou que l' « emplacement » est « pratique ». La liste de modificateurs qui en a résulté nous a permis de créer des nuages de mots pour visualiser la fréquence de chaque modificateur pour le mot clé donné, comme le nuage de mots ci-dessous, pour le mot clé « chambre » :

Word cloud for the keyword room

En analysant ces modificateurs fréquents pour chaque mot clé, leur pertinence et leur poids, et en analysant séparément les avis positifs et négatifs, nous avons obtenu un aperçu plus approfondi de ce que les clients préfèrent — et pas tellement — des résultats que nous vous proposons ci-dessous.

4 things to remember when choosing a tech stack for your web development project
blue arrow to the left
Imaginary Cloud logo

Resultats

En analysant l'ensemble de données décrit ci-dessus, nous avons pu identifier certains aspects positifs de l'activité, ainsi que les domaines essentiels à améliorer.

Un commentaire notable des clients, qui apparaît fréquemment dans les critiques positives et négatives, est que certains considèrent que l'hôtel est daté. Les trois principaux facteurs utilisés pour décrire l'hôtel dans les avis négatifs concernent cette qualité. Cela suggère que l'entreprise pourrait envisager des rénovations pour apaiser ces problèmes.

Modifiers for hotel keyword in negative reviews
Modifiers for hotel keyword in positive reviews.

L'analyse des mots clés révèle les points les plus courants des clients lorsqu'ils publient leurs avis. Comme on pouvait s'y attendre, la chambre figure en bonne place dans les critiques négatives et positives. Bien qu'il soit régulièrement mentionné dans des critiques négatives tout au long de la période que nous avons analysée, il y a eu une augmentation du nombre de mentions de chambres dans des critiques positives au cours des six derniers mois environ, une tendance potentiellement favorable dont l'entreprise devrait être consciente. Dans les critiques positives, les commentaires les plus courants qualifient les chambres de propres et spacieuses. Il est également fait référence au fait d'être globalement confortable et bon marché.

Les lits ont également été fréquemment mentionnés, certains utilisateurs les jugeant rigides et inconfortables. La prévalence de ce commentaire suggère également un domaine d'amélioration immédiate. À cet égard, certains clients ont également fait remarquer qu'ils trouvaient l'hôtel bruyant.

Top modifiers for negative reviews for bed.

En outre, un autre problème majeur signalé par les clients concerne le système de chauffage, de ventilation et de climatisation en place à l'hôtel. Les principales préoccupations des clients concernant leurs chambres étaient le « chaud » et le « froid ». L'un des problèmes particuliers était la fenêtre de la chambre, qui était si souvent mentionnée pour être identifiée comme l'un de nos mots clés, d'autant plus qu'elle nécessitait l'assistance du personnel pour ouvrir les fenêtres de certaines pièces.

Word cloud with main concerns from customers.

En ce sens, le personnel était fréquemment cité dans des critiques positives et négatives, certains clients les jugeant impolis. Cependant, le plus souvent, ils étaient considérés comme sympathiques et serviables, bien qu'il soit intéressant de noter que de nombreux clients pensaient que l'hôtel manquait de personnel. Enfin, la mention du personnel dans les revues reste relativement constante dans le temps.

L'emplacement de l'hôtel a également joué un rôle important dans les critiques positives. Il a été principalement perçu comme un aspect positif, avec de nombreux compliments généraux, et considéré comme pratique et situé au centre. Cependant, une tendance cruciale dont l'entreprise doit être consciente est qu'au fil du temps, la localisation a été mentionnée de moins en moins fréquemment dans les critiques positives alors qu'elle est de plus en plus mentionnée dans les critiques négatives. Bien que cela puisse être lié à l'emplacement extérieur et, par conséquent, à des facteurs externes indépendants de la volonté immédiate de l'hôtel, il s'agit d'une tendance potentielle qui mérite d'être surveillée.

Enfin, il convient de mentionner qu'un nombre important de critiques négatives ont commenté le Wi-Fi de l'hôtel, principalement parce qu'il était payant et non gratuit.

Keword-mentions-in-reviews

Demandes

Des projets de business intelligence et d'analyse des sentiments tels que celui-ci peuvent apporter de la valeur à de nombreux cas d'utilisation.

Electronic trade

De nos jours, une part importante des achats se fait en ligne. Le commerce électronique représente une tendance croissante à un accès quasi illimité aux ressources, aux marchés et aux produits en temps réel depuis n'importe où sur la planète. Comprendre la portée du marketing en termes de segmentation de la clientèle est très important pour qu'une entreprise puisse ajuster ses efforts pour atteindre le public cible souhaité.

Presque toutes les plateformes de commerce électronique contiennent une section d'avis dans laquelle les clients peuvent commenter les produits qu'ils ont achetés. Cette section de commentaires représente une source de données précieuse qui peut apporter de la valeur à l'entreprise.

Grâce aux techniques de PNL, il est possible de mieux comprendre ce que le client aime ou n'aime pas à propos des produits. Ces informations peuvent aider à comprendre les failles ou à apporter de nouvelles améliorations au produit et/ou à la plateforme. Nous pouvons identifier les principaux aspects qui suscitent de l'insécurité ou d'autres émotions chez le client, afin de pouvoir agir en conséquence.

Il devient également possible de suivre l'évolution du sentiment des utilisateurs à l'égard du produit au fil du temps et de mesurer la manière dont les changements ont affecté l'opinion globale des clients.

Hoteliary industry

L'industrie hôtelière est un secteur très compétitif où les petits détails peuvent s'avérer être des avantages essentiels par rapport à la concurrence.

Booking, Trivago, Google et d'autres plateformes répertorient souvent des établissements. Le point commun entre ces plateformes est que les clients les utilisent souvent pour laisser des avis. En analysant les notes d'évaluation et les commentaires, il est possible de recueillir des informations sur les opinions des clients sur les principaux aspects des entreprises.

Ces données nous permettent d'interpréter les aspects de l'entreprise qui nécessitent une modification ou une attention particulière, les pièces que les clients apprécient et éventuellement de prévoir certains ajustements que nous devrions envisager.

Food Services Industry

Les restaurants, les cafés et les bars comptent de plus en plus sur leur présence en ligne pour attirer des clients. Cela implique d'être répertorié sur plusieurs plateformes telles que Yelp, Google, Zomato et Tripadvisor, qui permettent aux utilisateurs de laisser des notes et des avis écrits. Souvent, les clients choisissent les nouveaux sites à essayer en se basant uniquement sur ces avis, ce qui en fait un élément clé pour comprendre les performances de l'entreprise.

Ces établissements ont tout intérêt à utiliser tous ces commentaires pour trouver des moyens de prendre l'avantage sur leurs concurrents. L'analyse des problèmes potentiels des clients permet d'investir dans des améliorations intéressantes, et le suivi du sentiment des consommateurs au fil du temps garantit que les investissements portent leurs fruits.

Tout établissement qui dépasse une taille spécifique doit s'appuyer sur les techniques de la science des données pour analyser les nombreux avis qu'il peut obtenir sur différentes plateformes. Ce processus peut être automatisé, fournissant un feedback rapide et une vision globale de ce qui attire ou déplait les clients. Cela aidera les gestionnaires à faire passer leurs services de restauration au niveau supérieur.

Divertissement industry

L'industrie du divertissement est vaste et comprend des films, des émissions de télévision et des chaînes Youtube, des parcs d'attractions et des spectacles de cirque. Le point commun à toutes ces entreprises, en particulier à l'ère numérique, est qu'elles sont soumises à des critiques et à des commentaires, tant de la part des critiques que des spectateurs.

À mesure que l'entreprise se développe, le nombre d'avis peut devenir ingérable, ce qui rend difficile la compréhension du sentiment général de la population. C'est là que les techniques de PNL devraient entrer en jeu, permettant d'analyser et d'analyser de nombreux commentaires afin d'en extraire des informations précieuses et exploitables.

blue arrow to the left
Imaginary Cloud logo

Fin notes

En résumé, nous avons analysé les commentaires des clients concernant leur séjour dans un hôtel à l'aide de techniques de traitement du langage naturel et avons découvert des informations exploitables qui peuvent avoir un impact direct sur les décisions commerciales. Cette analyse et les processus sous-jacents peuvent être utilisés pour de nombreuses autres applications, apportant ainsi de la valeur aux entreprises de nombreux secteurs.

Ce projet a été réalisé en 3 jours avec une équipe de 2 data scientists d'Imaginary Cloud. Imaginary Cloud fournit des services de développement en science des données et en intelligence artificielle, en s'efforçant d'apporter la plus grande valeur à ses clients grâce à des solutions personnalisées et à un processus agile.

Contactez-nous si vous avez besoin d'une solution personnalisée de science des données ou d'IA :

Artificial Intelligence Solutions  done right - CTA
blue arrow to the left
Imaginary Cloud logo
blue arrow to the left
Imaginary Cloud logo
blue arrow to the left
Imaginary Cloud logo
blue arrow to the left
Imaginary Cloud logo
blue arrow to the left
Imaginary Cloud logo
blue arrow to the left
Imaginary Cloud logo
Alexandra Mendes
Alexandra Mendes

Rédacteur de contenu curieux de l'impact de la technologie sur la société. Toujours entouré de livres et de musique.

Read more posts by this author
Vítor Bernardes
Vítor Bernardes

Scientifique des données passionné par la science des données et attentif à ses implications éthiques. Outre le travail, j'adore écouter de la musique et lire une bonne histoire.

Read more posts by this author
Rui Melo
Rui Melo

Scientifique des données qui aime explorer les problèmes. Pendant mon temps libre, j'enseigne le basket-ball aux enfants et j'aime aller à la plage.

Read more posts by this author

People who read this post, also found these interesting:

arrow left
arrow to the right
Dropdown caret icon