VIP,享尊贵服务 | | 加入桌面 | 手机版 | 无图版
 
都市118
 
 
当前位置: 首页 » 经营管理 » 经营指导 » 正文

海淀旅游酒店网络口碑大数据分析

放大字体  缩小字体 发布日期:2018-08-13  来源:大地云游  浏览次数:351
核心提示  本文选择OTA平台作为海淀旅游网络口碑数据来源,应用LDA主题模型对海淀区酒店的游客点评UGC内容进行大数据分析。
   本文应用LDA主题模型建立海淀旅游酒店的网络口碑主题模型,并结合游客的星级评价,分析酒店网络评价的主要问题所在,给出相应的管理提升建议。
 
  旅游网络口碑大数据
 
  在“互联网+”的时代,网络已经成为社会生活和商业活动的主阵地。截止2017年12月,在线旅行预订用户规模达到3.76亿,较2016年底增长7657万人,增长率为25.6%;在线旅行预订使用比例达到48.7%,较上年提升7.8个百分点。网上预订火车票、机票、酒店和旅游度假产品的网民比例分别为39.3%、23.0%、25.1%和11.5%。这意味着网络已经成为众多网民订购旅游产品或服务的重要方式,而网络口碑则是这些网民做出这一订购决策的主要依据。
 
  从消费的角度来看,旅游服务具有异地消费的特点,也即多数旅游者在获得旅游服务之前很难对该服务做出合理的质量评估。在网络媒体作为人们社交以及咨询的主要工具前,旅游者多是通过传统媒体、熟人口碑来获取旅游地、旅游企业、旅游产品的质量信息,并以此作为旅游决策的主要依据。近年来,随着旅游评论网站、论坛的兴起,旅游网络口碑便成为众多旅游者尤其是网民旅游者的最主要旅游决策信息。
 
  随着大数据研究的兴起与其在旅游领域的不断深入,为通过旅游网络口碑大数据研究旅游目的地的形象、服务质量、游客感知等议题提供了方法及工具。根据大数据来分析游客的网络评价,从而获取对于目的地网络口碑的结构化认知,从而为旅游服务提供者及旅游目的地管理方提供意见咨询,做出有利于未来的策略,将是旅游研究的重要研究方向。在大数据时代,旅游者不断地创造和产生新的数据,比如地理位置、消费数据、评价数据等,通过分析这些数据,可以比以往任何时代都能更好地去记录旅游者的行为,去解读不同旅游者行为背后深层次的原因,并根据这一深入分析做出更好的商业决策。
 
  基础数据
 
  根据海淀区旅游酒店名单,在OTA平台酒店预订页面中搜索相应的酒店名称,进入酒店预订页面中,会显示用户评论,其中不单包括用户撰写的酒店点评,也会包括用户对酒店的(1)总体评价、(2)位置、(3)服务、(4)清洁度、(5)舒适度、(6)设施、(7)餐饮等方面的量化评价,以1-5星的形式体现,OTA平台会根据用户的评价对其进行汇总,显示总体得分情况(满分10分)。
 
  对名单中酒店中每条用户的文字点评、用户名称、点评上传时间、星级评价等四项内容,通过技术手段进行分类汇总,同时采集网页中酒店的总体得分情况。对统计情况进行分析,游客对于酒店的评价数量差异较大,多至北京西苑饭店为3734条,北京世纪金源大饭店为1892条等,少至北京实创西山科技培训中心只有8条评价。游客评价数与酒店接待能力、区位条件等密切相关。西苑饭店建成于1984年,目前共有655间客房,同时饭店距离北京动物园地铁站(4号线)和白石桥南地铁站(6号线和9号线)仅有几步之遥,交通区位条件极为便利,所以入住游客的绝对数较高,相应的网络评价数量也高居第一位,与之对比的是北京实创西山科技培训中心位于北京市海淀区苏家坨镇凤凰岭风景区,区位较为偏远,因此关注度也相应极低。
 
 
酒店评价汇总情况
 
  对总体评价和评价星级做回归分析,相关系数为0.333,即二者相关系数较小;对总体评价和位置、服务等评价做回归分析,相关系数为0.971,即总体评价基本可以视作是位置、服务、清洁度、舒适度、设施、餐饮等分项评价的汇总,总体评价同单个用户评价的星级评价关系较小,总体评价和星级评价同时具有分析价值。同时,星级评价同样本量回归分析的结果为二者相关系数为0.094,即样本量的多少对用户评价星级结果影响极小。
 
  数据分析
 
  在互联网旅游评论中,每条评论都会有自己的中心主题,通过主题模型可以提取出隐含在评论中的主题,主题模型抽取的主要目的是提取出数据集中隐含的一些中心思想,提取出主题之后可以对原来的评论的意思进行直观的展现,然后可以对获得的主题进行信息分类、聚类、相似度分析等一系列的研究。这样可以很方便的对原来的海量信息文档进行简化,方便处理。近年来,主题模型抽取已经成为文本挖掘、信息检索的一个全新的方向。
 
  本研究采用LDA主题模型建构,Latent Dirichlet Allocation(LDA)模型由Blei等在2003年提出,属于主题模型(Topic Models,是当前文本表示研究的主要范式)的一种。作为一种产生式模型,LDA模型已经成功的应用到文本分类、信息检索等诸多文本相关的领域。
 
  应用LDA主题模型建构,可以摒弃研究者的主观判断带来的偏差,客观、高效、准确的得出网络文本的主题模型。文档是由某些主题构成的向量所表示的概率分布,而每一个主题项又是由很多项所表示的概率分布。本身的先验主题分布设定是分布,而该分布的随机向量各个部分之间具有一定的弱相关性。浅层语义分析的实质就是利用文档中的某些特征来发现文本的隐藏主题结构,这种方法不需要知道关于文本的任何先验知识
 
  首先对所有收集到的34039条海淀区旅游酒店游客评价进行汇总处理,对于文字的处理过程包括:
 
  (1)文字清洗:将每条评价单独分为一段,去除文字中所有的标点符号、数字、英文等,只保留中文;
 
  (2)中文分词:应用盘古分词V2.3.1.0版本对评价进行中文分词;
 
  (3)统计游客评价汇总文本的高频词以及高共现词,结果如下图:
 
 
酒店评价高频词
 
  从中可以得出游客对于酒店的评价主要集中在哪些语义方面,游客对于酒店入住,最关心的集中在房间设施、交通、服务、卫生等方面。对高频词进行共线统计,即两个词出现在同一个样本中即视为二者共线一次,结果如下图:
 
 
酒店评价高频词网络
 
  该图可以更加直观的反映出游客对于酒店评价的主要集中领域,可以看出,以“酒店”、“房间”、“方便”、“设施”、“服务”、“交通”等为核心,向四周投射出相应的次一级关键词。通过高频词可以归纳出游客对于酒店评价的核心领域,需要对其进行LDA主题建构,以使得评价更加结构化。
 
  在LDA建模过程中,采用 MCMC(Markov Chain Monte Carlo)中的Gibbs算法对LDA模型的参数进行近似估计。其中,本研究将狄利克雷函数的先验参数α和β设置为经验值,分别为α=0.1,β=0.01,对于主题个数的K取值,经过多次不同取值的结果比对,选择K=10,可以最大程度上对于文本进行结构化解释,同时排除掉无用主题。结果如下表,其中10个主题下分别对应着20个关键词,关键词之后为该关键词对于所在主题的贡献率。通过对于关键词以及原始点评文本的分析与判读,对每个主题进行语义的赋值。
 
 
 
  其中主题1性价比主要涉及酒店价格及性价比;主题2前台服务主要体现游客入住时在前台的服务体验,包括是否升级房间,查询是否有余房等;主题3地铁交通关注酒店到附近的地铁交通情况;主题4酒店区位关心酒店整体交通情况;主题5房间设施涉及酒店房间内设施的完备程度;主题6再访推荐主要表现游客是否愿意再次入住该酒店或者向朋友推荐等意愿;主题7房间服务表现游客对于房间服务的感知;主题8主要为游客对于酒店的正面评价;主题9体现游客对于酒店周边旅游吸引物、餐饮设施等空间要素的感知;主题10则反映了游客对于酒店的负面认知。
 
  以每个主题下的评论数量和平均星级得分作为指标,考察10个主题的分布,得到以下图表。
 
 
 
 
酒店主题评论数量及平均星级
 
  分析上表可以得出,在不同主题的评论数量方面,对于主题5房间设施、主题4酒店区位的关注度较高,而对于主题9周边环境的关注度较低,说明游客比较关心酒店房间内的基本设施提供与清洁度,以及酒店与出行主要目的地的区位关系,而对于在酒店周边的其他旅游吸引物关注度较低;在平均星级方面,主题8正面评价、主题9周边环境和主题3地铁交通平均星级较高,而主题10负面评价和主题7房间服务得分最低,对其进行分析,正面评价和负面评价本身就承载了游客对于酒店评价的积极和消极感知,因此呈现出两极分化的星级评价理所当然,而海淀区酒店较高的地铁交通和周边环境星级评价说明了酒店在地理位置和周边吸引物上均具有优势,较低的房间服务得分则揭示了酒店的服务质量已经成为制约海淀区旅游接待质量的短板,值得重视。
 
  结论与建议
 
  综合以上对于海淀区酒店的OTA游客点评分析,提出以下对于提升游客体验品质、改善整体接待形象的建议:
 
  (1)建立定时、实时的互联网游客口碑监测机制,对游客的评价和反馈进行结构化把控和指标化管理;
 
  (2)加强互联网口碑营销,重视游客对于酒店、餐饮、景区等旅游要素的消费体验;
 
  (3)酒店的服务质量已经成为游客在海淀区接待设施住宿体验的短板,需要从整体上提升酒店业接待服务水平;
 
  (4)对于旅游酒店的游客认知方面,需要进一步加强其主题特色,为游客留下深刻印象。
 
关键词: 酒店 口碑
 
[ 资讯搜索 ]  [ ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]

0条 [查看全部]  相关评论

 
推荐品牌
推荐图文
 
推荐资讯
点击排行
 
都市118

 
 
文明 协会 举报 行业 110

鲁公网安备 37020202000193号