




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于MSE模型和熵權(quán)法的游客目的地印象評(píng)價(jià)的數(shù)據(jù)清洗及挖掘分析摘要近年來(lái),在黨中央的領(lǐng)導(dǎo)下,市場(chǎng)經(jīng)濟(jì)的快速發(fā)展和群眾生活水平的顯著提高,使得國(guó)內(nèi)旅游市場(chǎng)迎來(lái)了顯著的增長(zhǎng)。根據(jù)2023年前三季度的數(shù)據(jù)顯示,國(guó)內(nèi)旅游總?cè)舜芜_(dá)到36.74億,同比增長(zhǎng)75.5%,城鎮(zhèn)居民和農(nóng)村居民的旅游人次分別同比增長(zhǎng)78.0%和67.6%。旅游消費(fèi)也大幅增長(zhǎng),居民國(guó)內(nèi)出游總花費(fèi)達(dá)到3.69萬(wàn)億元,同比增長(zhǎng)114.4%。這些數(shù)據(jù)表明,旅游已成為人們休閑娛樂和提升幸福感的重要途徑。游客的入住和景點(diǎn)的挑選,景點(diǎn)和賓館綜合服務(wù)設(shè)施的質(zhì)量直接影響客人的旅行感受和評(píng)價(jià)。于是提升景點(diǎn)及旅社等旅游目的地美譽(yù)度成為各個(gè)地方文旅管理部門和旅游相關(guān)企業(yè)非常側(cè)重的工作。本文通過對(duì)景區(qū)及酒店數(shù)據(jù)分析處理,圍繞游客印象因素建立模型,提煉特色并綜合評(píng)價(jià)景區(qū)和酒店。主要完成工作有:首先分析景區(qū)及酒店數(shù)據(jù),得到Top熱詞及頻率。然后根據(jù)LDA主題模型構(gòu)成主題詞典,根據(jù)主題詞對(duì)每個(gè)景區(qū)酒店進(jìn)行匹配,得出概率值,再對(duì)景區(qū)及酒店的服務(wù)、位置、設(shè)施、衛(wèi)生、性價(jià)比五個(gè)方面進(jìn)行評(píng)分及評(píng)價(jià),評(píng)價(jià)模型采用MSE模型。使用TF-IDF算法、Simhash算法分析景區(qū)及酒店網(wǎng)評(píng)的有效性,綜合MSE模型和熵權(quán)法對(duì)景區(qū)及酒店進(jìn)行特色分析。最后分析影響目的地游客滿意度的因素。在吸引游客、提升競(jìng)爭(zhēng)優(yōu)勢(shì)、提高游客滿意度和提升目的地美譽(yù)度方面為政府部門和旅游相關(guān)企業(yè)提供可以借鑒的建議。關(guān)鍵詞:TF-IDF算法;MSE;熵權(quán)法;K-Means;美譽(yù)度目錄1.緒論 [6],按照信息論基本原理的解釋,熵是系統(tǒng)中無(wú)序程度的一個(gè)標(biāo)準(zhǔn);在知道了信息熵的概念之后,才能了解熵值可用來(lái)評(píng)估或評(píng)價(jià)指標(biāo)的離散程度。熵值越小,則指數(shù)的離散程度越大,指數(shù)對(duì)綜合評(píng)價(jià)中的權(quán)重也越大。但假設(shè)每一個(gè)指數(shù)的值都相同,則該指數(shù)就不能再在綜合評(píng)價(jià)中發(fā)揮作用。這樣,就可以用信息熵來(lái)測(cè)算出不同指數(shù)的權(quán)重,以便于為各指數(shù)綜合評(píng)分提供基礎(chǔ)。。簡(jiǎn)單的說(shuō),就是信息分散程度越大,該指標(biāo)權(quán)重越大;信息分散程度越小,該指標(biāo)權(quán)重越小。具體步驟:Step1對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(需要注意的是這里不能是同向化后的矩陣,會(huì)損失原始信息),課題采用的標(biāo)準(zhǔn)化處理方式簡(jiǎn)單的比值歸一化:pij=xStep2計(jì)算各個(gè)指標(biāo)的熵值:hj其中K的值往往與樣本大小有關(guān),經(jīng)常讓k=1∕lnn。另外,如果Pij=0Step3計(jì)算各指標(biāo)的權(quán)系數(shù):?j熵權(quán)系數(shù)?j值越大3.2均方誤差(MSE)均方誤差REF_Ref101182199\r\h[7]是每個(gè)數(shù)據(jù)偏離真實(shí)值之間的距離平方和的平均值。它可以用來(lái)評(píng)價(jià)模型的好壞,當(dāng)求出的MSE值越小的時(shí)候,意味著預(yù)測(cè)模型能更好的描述實(shí)驗(yàn)數(shù)的準(zhǔn)確性。計(jì)算公式如下:MSE=1Mm=1M(3.3TF-IDF算法TF-IDF是為信息檢索和文本挖掘的常用加權(quán)技術(shù)。TF-IDF是一個(gè)統(tǒng)計(jì)學(xué)方法,用來(lái)評(píng)價(jià)文本集或語(yǔ)料庫(kù)中特定詞匯對(duì)文本的意義。一個(gè)詞語(yǔ)的重要性會(huì)隨著其在文本中出現(xiàn)的頻次提高,而與此同時(shí),其在語(yǔ)料庫(kù)中的頻次也會(huì)降低。TF-IDF的主要思想是:一個(gè)詞在一篇文章中出現(xiàn)次數(shù)高,而且越少的出現(xiàn)在其他文章,便更能代表該文章。(1)詞頻(TermFrequency)詞頻是指文本中詞條的頻率。通常來(lái)說(shuō),某個(gè)詞在文檔中出現(xiàn)的詞頻越高,則在文檔中的權(quán)重越高,成為關(guān)鍵詞的可能性越大REF_Ref101182240\r\h[8]。這個(gè)數(shù)據(jù)經(jīng)常要進(jìn)行歸一化REF_Ref101182263\r\h[9](一般是詞頻除以文章總詞數(shù))處理,將數(shù)據(jù)轉(zhuǎn)化為(0,1)或(-1,1)之間,使特征具有相同的度量尺度,以防止它偏向文章比較長(zhǎng)的文件。公式:tf其中ni,j是某個(gè)詞在文章dj中出現(xiàn)的頻次(2)逆向文件頻率(InverseDocumentFrequency)逆向文件頻率(IDF)REF_Ref101182278\r\h[10]:對(duì)于一個(gè)詞,可以用文件總數(shù)來(lái)除以包含這個(gè)詞的文件數(shù)量,將得到的商取得對(duì)數(shù)算出IDF。假如包含這個(gè)詞t的文檔數(shù)量越少,說(shuō)明IDF值會(huì)越大,這意味著該詞能很好的區(qū)分這個(gè)文檔的類別。公式:idfi=其中,|D|是文檔總數(shù)量。|{j:ti∈dj}|是包含詞ti(3)TF-IDF事實(shí)上,TF-IDF值就是詞頻與逆文檔頻率的乘積。利用某一文章中的的高頻詞,和該詞在整個(gè)文章集合中的低文檔頻率,能求出高權(quán)重的TF-IDF。根據(jù)高權(quán)重的TF-IDF值能剔除常見的詞,保留重要的詞。公式:TF?IDF=TF?IDF(3-7)注:該算法易于理解和實(shí)現(xiàn),但其結(jié)構(gòu)簡(jiǎn)單,沒有考慮詞的語(yǔ)義信息,無(wú)法處理一詞多義和一義多詞的情況。3.4LDA主題模型文檔主題生成模型REF_Ref101182298\r\h[11](LatentDirichletAllocation,泛稱LDA)通常三層結(jié)構(gòu)組成,包括詞、主題和文檔。文檔主題生成模型又稱為盤子表示法(PlateNotation)。圖3-1是模型的標(biāo)示圖,其中雙圓圈表示可測(cè)變量,單圓圈表示潛在變量,箭頭表示兩個(gè)變量之間的依賴關(guān)系,矩形框表示重復(fù)抽樣,對(duì)應(yīng)的重復(fù)次數(shù)在矩形框的右下角顯示。具體步驟:(1)從每個(gè)文本D中對(duì)應(yīng)的多項(xiàng)分布θ中抽取每一個(gè)單詞對(duì)應(yīng)的一個(gè)主題z。(2)從主題z對(duì)應(yīng)的多項(xiàng)分布φ中抽取一個(gè)單詞w.重復(fù)(1)(2)步驟,共計(jì)Nd次,直至遍歷文本中的每一個(gè)單詞。圖3-1模型標(biāo)示圖現(xiàn)在假設(shè)存在一個(gè)數(shù)據(jù)集DS,數(shù)據(jù)集中的每篇預(yù)料記為D,整個(gè)數(shù)據(jù)集共T個(gè)主題,數(shù)據(jù)集的特征詞表稱為詞匯表,所包含的單詞總數(shù)記為V。LDA模型對(duì)其描述的內(nèi)容是:數(shù)據(jù)集DS中每個(gè)實(shí)篇語(yǔ)料D都與這個(gè)T主題的多項(xiàng)式分布相對(duì)應(yīng),記為多項(xiàng)分布θ;每個(gè)主題都與詞匯表中V個(gè)單詞的多項(xiàng)分布對(duì)應(yīng),記為多項(xiàng)分布φ。其中θ和φ分別存在一個(gè)帶超參數(shù)的α和β的迪利克雷先驗(yàn)分布。3.5Hmihash算法SimHashREF_Ref101182326\r\h[12]算法是Google在2007年發(fā)表的論文“DetectingNear-DuplicatesforWebCrawling” 中提到得一種指紋算法,通過對(duì)兩個(gè)相似文本的漢明距離來(lái)確定文章是否重復(fù)或者高度近似。HammingDistance:又稱漢明距離,在信息論中,兩個(gè)等長(zhǎng)字符串之間的漢明距離是兩個(gè)字符串對(duì)應(yīng)位置的不同字符的個(gè)數(shù)。實(shí)現(xiàn)思路如下:(1)分詞:對(duì)意思模糊的文本進(jìn)行分詞,提取特征詞并計(jì)算TF-IDF值。(2)hash:對(duì)特征詞進(jìn)行哈希編碼。(3)加權(quán):在hash值的基礎(chǔ)上,給所有特征詞進(jìn)行加權(quán)。(4)合并:把同一個(gè)文本的所有的特征詞的向量進(jìn)行相加最終形成一個(gè)的向量。(5)降維:把合并之后的向量轉(zhuǎn)化為0、1向量,每一個(gè)大于0的記為1,小于0的記為0。(6)計(jì)算:通過比較兩個(gè)哈希編碼按異或求得漢明距離,再計(jì)算文本相似度。3.6K-means聚類常用的聚類分析算法如表3-1所示。表3-1常用的聚類分析算法算法名稱算法描述K-MeansK均值聚類也被稱為一種快速聚類算法,它基于最小化誤差函數(shù)將數(shù)據(jù)劃分為預(yù)定類數(shù)數(shù)量k。該算法通俗易懂,易于處理大量數(shù)據(jù)。K-中心點(diǎn)K-均值算法對(duì)異常值的敏感性,K-中心點(diǎn)算法不使用簇中心,而選用最接近簇中離平均值最近的對(duì)象作為簇中心。系統(tǒng)聚類系統(tǒng)聚類也叫多級(jí)聚類,分類單位自上而下呈樹形結(jié)構(gòu),位置越低,包含的對(duì)象就越少,這些對(duì)象間的共同特征越多。這種聚類方法只適用于少量數(shù)據(jù),當(dāng)數(shù)據(jù)量大的時(shí)候,聚類速度會(huì)非常慢。根據(jù)數(shù)據(jù)集和算法功能,選擇K-Means算法作為課題聚合分析算法。K-meansREF_Ref101182349\r\h[13]的算法步驟為:(1)從數(shù)據(jù)對(duì)象中任意選擇k個(gè)對(duì)象作為初始聚類中心a=(2)根據(jù)每個(gè)聚類對(duì)象的均值中心對(duì)象,計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離,并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分;(3)重新計(jì)算每個(gè)有變化聚類的均值中心對(duì)象;(4)重復(fù)上面2、3兩步操作,直到每個(gè)聚類不再發(fā)生變化為止。
4.數(shù)據(jù)處理4.1數(shù)據(jù)清洗經(jīng)過簡(jiǎn)單的初步探索,基本了解了數(shù)據(jù)的基本結(jié)構(gòu)。具體結(jié)構(gòu)字段如表4-1、4-2、4-3和4-4所示:表4-1景區(qū)評(píng)論景區(qū)名稱評(píng)論日期評(píng)論內(nèi)容A012020-11-25挺好的!人多熱鬧項(xiàng)目多A012020-11-06整體沒有想象的那么好,而且好像雙人票還比兩張單人票貴A012020-09-28不錯(cuò),推薦帶孩子一塊去表4-2酒店評(píng)論酒店名稱評(píng)論日期評(píng)論內(nèi)容入住房型H012020-01-01酒店很適合家庭出行標(biāo)準(zhǔn)客房H012020-01-01升級(jí)了房間延遲退房很贊標(biāo)準(zhǔn)客房H012020-01-01這幾年,每年都會(huì)來(lái)廣州,每次都會(huì)住**酒店。因?yàn)槲恢煤茫频甑男詢r(jià)比也不錯(cuò),這次給免費(fèi)升級(jí)了大房間。標(biāo)準(zhǔn)客房表4-3景區(qū)評(píng)分景區(qū)名稱總得分服務(wù)得分位置得分設(shè)施得分衛(wèi)生得分性價(jià)比得分A014.43.84.94.94.54.5A024.23.84.94.24.54.0A034.23.94.24.14.54.5表4-4酒店評(píng)論酒店名稱總得分服務(wù)得分位置得分設(shè)施得分衛(wèi)生得分性價(jià)比得分H0H0H0其中酒店和景區(qū)各50家,酒店評(píng)論共25226條,景區(qū)評(píng)論59107條。其中重點(diǎn)需要處理評(píng)論數(shù)據(jù)。利用Python的pandas庫(kù),實(shí)現(xiàn)對(duì)兩個(gè)評(píng)論Excel表的處理。在數(shù)據(jù)清洗的過程中,重點(diǎn)去除重復(fù)評(píng)論、英文、數(shù)字及特殊的標(biāo)點(diǎn)符號(hào)。在目的地評(píng)論文本中,發(fā)現(xiàn)有些評(píng)論是純英文文本。粗略的統(tǒng)計(jì)了一下,這些文本總共有2436條,主要分布在酒店評(píng)論庫(kù)中。因此,決定將其一并去除,只保留中文文本。經(jīng)過數(shù)據(jù)清洗后,酒店評(píng)論有22789條數(shù)據(jù),占原數(shù)據(jù)的90.3%,景區(qū)評(píng)論有58411條數(shù)據(jù),占原數(shù)據(jù)的98.8%,可以進(jìn)行數(shù)據(jù)挖掘。4.2中文分詞在自然語(yǔ)言與計(jì)算機(jī)的交互中,成熟的中文分詞算法可以更好地實(shí)現(xiàn)自然語(yǔ)言處理結(jié)果。目前,分詞工具有:HanLp分詞、SnowNLP、北京大學(xué)PKUse、Jieba分詞、NLPIR分詞系統(tǒng)、BaiduLac等。本文采用的是Jieba分詞。Jieba分詞算法原理:(1)對(duì)前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(DAG);(2)采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;(3)對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用Viterbi算法REF_Ref101182380\r\h[14]。Jieba分詞常用的三種模式,分別如下:(1)精確模式:該模式會(huì)將句子最精確地切分開,適合在文本分析時(shí)使用。(2)全模式:該模式會(huì)將句子中所有成詞的詞語(yǔ)都掃描出來(lái),速度也非常快,缺點(diǎn)是不能解決歧義問題,有歧義的詞語(yǔ)也會(huì)被掃描出來(lái)。(3)搜索引擎模式:該模式會(huì)在精確模式的基礎(chǔ)上對(duì)長(zhǎng)詞再進(jìn)行切分,將更短的詞語(yǔ)切分出來(lái)。在搜索引擎中,要求輸入詞語(yǔ)的一部分也能檢索到整個(gè)詞語(yǔ)相關(guān)的文檔,所以該模式適用于搜索引擎分詞。處理方法如下:針對(duì)一條去除完符號(hào)酒店評(píng)論語(yǔ)句采用Jieba的全分詞模式進(jìn)行效果展示,如圖4-1所示。圖4-1Jieba分詞結(jié)果4.3去停用詞在自然語(yǔ)言的處理過程中,文本分析中有大量無(wú)用的數(shù)詞、量詞、連詞、助詞等,如“啊”、“哦”、“地”等,對(duì)語(yǔ)義作用很小。因此,過濾停用詞能提高文本的檢索效果,使分類結(jié)果更加精確,同時(shí)過濾標(biāo)點(diǎn)符號(hào)、常規(guī)英文字母與數(shù)字的詞。本文結(jié)合中文停用詞列表、哈爾濱工業(yè)大學(xué)停用詞列表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停同詞列表和百度停用詞列表,從文本中剔除停止詞。針對(duì)一條去除完符號(hào)酒店評(píng)論語(yǔ)句采用Jieba的全分詞模式后,根據(jù)停用詞表對(duì)文本進(jìn)行剔除停用詞進(jìn)行效果展示如4-5所示:圖4-5去除停用詞結(jié)果在圖4-5中可以很清楚的看到把一些無(wú)關(guān)的詞都進(jìn)行了去除,比如:離、都、很、比較等。5.數(shù)據(jù)分析及挖掘模型構(gòu)建5.1景區(qū)及酒店的印象分析在論文前面階段,已經(jīng)對(duì)景區(qū)評(píng)論與酒店評(píng)論進(jìn)行了預(yù)處理,清除了一些臟數(shù)據(jù)。接下來(lái)對(duì)預(yù)處理后的文本進(jìn)行操作,讀取文檔,對(duì)文檔中的缺失評(píng)論進(jìn)行處理,處理后的景區(qū)評(píng)及酒店評(píng)論,分別把各個(gè)景區(qū)及酒店的評(píng)論進(jìn)行聚合處理,生成對(duì)應(yīng)的新文件。接下來(lái)就是對(duì)評(píng)論進(jìn)行分詞操作,在對(duì)每一家酒店、景區(qū)評(píng)論的操作中,選擇用Jieba分詞。Jieba分詞有三種常用的分詞方式,精確模式、全模式、以及搜索引擎模式,而且操作都比較簡(jiǎn)單。本文中采用全模式方式,針對(duì)每一條評(píng)論進(jìn)行如圖4-5進(jìn)行分詞去除停用詞,在完成印象詞表之前,還對(duì)景區(qū)評(píng)論、酒店評(píng)論每一條評(píng)論寫入txt文檔(如圖5-1、5-2),進(jìn)行了詞云展示(如圖5-3、5-4):圖5-1景區(qū)評(píng)論圖5-2酒店評(píng)論圖5-3景區(qū)詞云展示圖5-4酒店詞云展示經(jīng)過這個(gè)詞云展示,停用詞過濾,可以很明顯的看出大家對(duì)景區(qū)的評(píng)論集中在游玩、開心、便宜、好玩、環(huán)境等詞,對(duì)酒店的評(píng)論集中在服務(wù)、服務(wù)態(tài)度、早餐、性價(jià)比、環(huán)境等。接下來(lái),便是對(duì)每一家酒店、景區(qū)評(píng)論的操作,把對(duì)每一家景區(qū)、酒店的評(píng)論內(nèi)容用Pandas中的GroupBy分組函數(shù)進(jìn)行聚合并讀取進(jìn)來(lái),在循環(huán)中進(jìn)行對(duì)每一家的評(píng)論進(jìn)行分詞、過濾停用詞、寫入列表final,用Counter將final轉(zhuǎn)化成詞典,用counts.items()進(jìn)行詞頻統(tǒng)計(jì),然后根據(jù)詞頻用sorted()進(jìn)行降序排序,讀取前20熱詞與熱度,寫入以每一家酒店、景區(qū)命名的.csv文件,如圖5-5、5-6所示。從圖中可以看出,大家對(duì)A30景區(qū)評(píng)論集中在動(dòng)物和動(dòng)物園等詞,H13酒店側(cè)重在服務(wù)和早餐等方面。圖5-5景區(qū)A30評(píng)論熱詞排行表圖5-6酒店H13評(píng)論熱詞排行表5.2景區(qū)及酒店的綜合評(píng)價(jià)通過評(píng)分列表中給出的五個(gè)評(píng)分項(xiàng),分別對(duì)每個(gè)酒店及景區(qū)得出一個(gè)綜合得分。以此種方式,在量化分?jǐn)?shù)上給游客一個(gè)直觀的酒店及景區(qū)的印象,方便他們進(jìn)行選擇。進(jìn)行綜合評(píng)分的主要目的是找出差異化,因此擬對(duì)每一個(gè)評(píng)分項(xiàng)給出一個(gè)權(quán)重。并不是每一個(gè)人都是評(píng)分專家,因此在主觀印象上給出的權(quán)重沒有理論依據(jù)和權(quán)重合理性。為了避免主觀印象所導(dǎo)致的評(píng)分誤差,把權(quán)重的取值交給數(shù)據(jù)處理。用LDA模型進(jìn)行主題詞典構(gòu)建,并加上補(bǔ)充詞典構(gòu)建,然后對(duì)每一家酒店景區(qū)的評(píng)分進(jìn)行分詞,匹配每個(gè)主題的數(shù)量求出概率值,作為一個(gè)指標(biāo)進(jìn)行評(píng)分。得出各項(xiàng)評(píng)分之后,用熵權(quán)法求出的值作為總得分。基于熱詞提取的結(jié)果可知,基于詞頻的關(guān)鍵詞提取會(huì)提取出其中無(wú)實(shí)際意義或不具備代表性的詞語(yǔ),使用逆文檔頻率以彌補(bǔ)詞頻排序帶來(lái)的缺點(diǎn),使更多合理的詞排在前面,挖掘景區(qū)或酒店的隱含屬性。因此,本模塊通過評(píng)論文本進(jìn)行分詞,使用TF-IDF的算法對(duì)去停用詞保留的評(píng)論進(jìn)行文本向量化處理。利用LDA主題模型對(duì)每個(gè)主題的300個(gè)主題詞進(jìn)行輸出,提取主題詞。利用sklearn.feature_extraction.text中的CountVectorizer類實(shí)現(xiàn)調(diào)用讀取預(yù)料景區(qū)評(píng)論并寫入croups列表中,然后用CountVectorizer()方法將文本中的詞語(yǔ)轉(zhuǎn)化為詞頻矩陣,vectorizer.fit_transform(corpus)計(jì)算每個(gè)詞語(yǔ)出現(xiàn)的的次數(shù),調(diào)用lda.LDA()函數(shù)訓(xùn)練LDA主題模型,其中參數(shù)n_topics表示設(shè)置5個(gè)主題,n_iter表示設(shè)置迭代次數(shù)2000次,并調(diào)用fit()函數(shù)填充訓(xùn)練數(shù)據(jù),用vectorizer.get_feature_names()函數(shù)獲取各個(gè)特征或詞語(yǔ),model.topic_word_函數(shù)是存儲(chǔ)各個(gè)主題單詞的權(quán)重,根據(jù)所得的權(quán)重分別輸出五個(gè)主題的權(quán)重最高的300個(gè)單詞,如圖5-7是景區(qū)主題1的前300個(gè)單詞。根據(jù)讀取出的單詞來(lái)進(jìn)行挑選,將挑選出的詞作為為景區(qū)主題一的詞典。同理,酒店也可以這樣獲得主題詞典。圖5-7Topic1借助陳天琪等REF_Ref101182427\r\h[15]對(duì)景區(qū)評(píng)價(jià)和繆章偉等REF_Ref101182439\r\h[16]對(duì)酒店評(píng)價(jià)主題歸納的結(jié)果,對(duì)景區(qū)及酒店評(píng)價(jià)的相關(guān)主題詞進(jìn)行了擴(kuò)充和豐富,分別歸納景區(qū)和酒店的評(píng)價(jià)維度和具體分類下的主題詞。景區(qū)和酒店的主題詞典分別如表5-1、表5-2所示:表5-1景區(qū)主題詞典評(píng)價(jià)維度景區(qū)主題詞典服務(wù)服務(wù)、早餐、美味、美食、菜品、口味、好吃、味道、品種、種類、自助餐、自助、牛腩、餐廳、餐館、口感、菜品、服務(wù)態(tài)度、售票員、態(tài)度、前臺(tái)、保安、熱情、小姐、和善、經(jīng)理、服務(wù)員、熱情、服務(wù)態(tài)度、貼心、親切、主動(dòng)、敬業(yè)、體貼、笑容、售票、訂票、拿票、取票、管理、速度、接待、行李、效率、細(xì)節(jié)、周到、到位、方便、服務(wù)水平、刷卡、素質(zhì)、文明位置地理位置、廣州東站、北京路、花城、地標(biāo)、機(jī)場(chǎng)、車站、出口、入口、附近、靠近、周圍、購(gòu)物、周邊、地段、世界之窗、地鐵口、湖邊、商場(chǎng)、邊上、廣場(chǎng)、旁邊、公園、大橋、交通、巴士、擁堵、地鐵、自駕、車、打車、步行、出門、方便、公交車、公交、出行、出租車、車程設(shè)施設(shè)施、設(shè)備、景點(diǎn)、觀光車、游覽車、升級(jí)、摩天輪、大峽谷、莊園、館、摩托車、沖浪、索道、安全、規(guī)范、危險(xiǎn)、農(nóng)家樂、游船、大門、動(dòng)物、猛獸、海獅、孔雀、老虎、獅子、熊貓、鯉魚、白鯨、噴泉、瀑布、海洋館、溫泉、溫泉水、沙灘、微縮、陽(yáng)元石、陰元石、取票機(jī)、休息室、衛(wèi)生間、洗手間、廁所、馬桶、指示牌、寄存處、路標(biāo)、大廳、大堂、環(huán)境、停車、停車場(chǎng)、豪華、顏值、富麗堂皇衛(wèi)生空氣、空氣質(zhì)量、氣味、清新、新鮮、衛(wèi)生、干凈、防疫、疫情、整潔、灰塵、霉味、亂、臟、差、臭、舒適、舒服性價(jià)比性價(jià)比、免費(fèi)、優(yōu)惠、消費(fèi)、價(jià)格、經(jīng)濟(jì)、自費(fèi)、價(jià)位、便宜、門票、票價(jià)、值得、劃算、貴、漲價(jià)、不值、購(gòu)物、價(jià)格不菲、公道、金額、風(fēng)景、品質(zhì)、景色、景觀、天堂、谷、峰、湖、海、美、云霄、鐘靈毓秀、山清水秀、亮點(diǎn)、特色、景色宜人、雪山、奇特、美麗、夜景表5-2酒店主題詞典評(píng)價(jià)維度酒店主題詞典服務(wù)服務(wù)、早餐、美味、正宗、普通、口味、好吃、味道、品種、種類、豐富、自助餐、自助、酒廊、牛腩、餐廳、菜品、口感、服務(wù)態(tài)度、態(tài)度、前臺(tái)、迎賓、保安、熱情、經(jīng)理、服務(wù)員、禮貌、溫馨、熱情、貼心、親切、主動(dòng)、敬業(yè)、體貼、笑容、員工、速度、及時(shí)、接待、行李、效率、細(xì)節(jié)、周到、到位、方便、服務(wù)水平、刷卡、素質(zhì)位置地理位置、廣州、廣州東站、廣東、北京路、深圳、成都、珠海、珠江、長(zhǎng)隆、流溪河、臺(tái)山、中國(guó)、深圳市、東莞、花城、小蠻、地標(biāo)、機(jī)場(chǎng)、出口、附近、靠近、周圍、購(gòu)物、風(fēng)景、邊上、廣場(chǎng)、旁邊、公園、大橋、沙灘、大海、景觀、酒吧、地段、商圈、夜景、交通、巴士、地鐵站、打車、步行、出門、方便、公交車、公交、出行、出租車設(shè)施床、桌子、燈、枕頭、電視、拖鞋、空調(diào)、電腦、上網(wǎng)、陳舊、溫馨、升級(jí)、房間設(shè)施、衛(wèi)生間、浴缸、浴室、一次性、用品、視野、視野隔音、聲音、效果、安靜、酒店、電梯、設(shè)施、硬件、樓層、風(fēng)格、裝修、商務(wù)、裝潢、繁華、度假、大廳、環(huán)境、游泳池、溫泉、停車場(chǎng)、滑梯衛(wèi)生房間、房、衛(wèi)生、干凈、防疫、疫情、整潔、灰塵、霉味、亂、臟、差性價(jià)比性價(jià)比、免費(fèi)、優(yōu)惠、消費(fèi)、價(jià)格、經(jīng)濟(jì)、價(jià)位、便宜、值得、劃算、貴、漲價(jià)、不值、價(jià)格不菲、公道、金額、額外收費(fèi)、價(jià)錢、老牌、品質(zhì)、星級(jí)、五星、四星、三星、二星、一星、特色、檔次、舒適、舒服然后根據(jù)構(gòu)造的景區(qū)、酒店主題詞典轉(zhuǎn)換成代碼中的詞典,設(shè)置另一個(gè)詞典{'服務(wù)':0,'位置':0,'設(shè)施':0,'衛(wèi)生':0,'性價(jià)比':0}。將每一個(gè)景區(qū)、酒店的評(píng)論分詞之后,遍歷每一個(gè)單詞,在對(duì)應(yīng)的key的value加1,對(duì)景區(qū)酒店各個(gè)指標(biāo)進(jìn)行匹配統(tǒng)計(jì),再與總數(shù)相除得出概率值寫入Excel表格,如圖5-8、5-9所示:圖5-8景區(qū)概率分布圖5-9酒店概率分布把景區(qū)酒店每個(gè)指標(biāo)的概率取出最大值與最小值進(jìn)行求差除以10,分成10個(gè)概率段。為了避免給出的評(píng)分差距過大,每個(gè)概率段對(duì)應(yīng)0.1分,從4.1分開始計(jì)算,屬于哪個(gè)范圍的則賦予對(duì)應(yīng)的值。對(duì)各個(gè)酒店景區(qū)進(jìn)行打分的結(jié)果,如圖5-10、5-11所示:圖5-10景區(qū)得分圖5-11酒店得分通過用熵權(quán)法,對(duì)景區(qū)酒店的得分進(jìn)行比值歸一化處理,計(jì)算各個(gè)指標(biāo)的熵值,計(jì)算權(quán)系數(shù)得出酒店景區(qū)的指標(biāo)權(quán)重(如表5-3、5-4所示)。表5-3景區(qū)評(píng)分權(quán)重服務(wù)得分位置得分設(shè)施得分衛(wèi)生得分性價(jià)比得分0.149493150.191945720.272609120.201600860.18435115表5-4酒店評(píng)分權(quán)重服務(wù)得分位置得分設(shè)施得分衛(wèi)生得分性價(jià)比得分0.220776010.179695890.225776210.200842020.17290987用Excel通過對(duì)表5-3、表5-4的數(shù)據(jù)進(jìn)行繪制權(quán)重直方圖,如圖5-12、5-13所示。圖5-12景區(qū)評(píng)分指標(biāo)權(quán)重直方圖圖5-13酒店各項(xiàng)指標(biāo)權(quán)重直方圖從上面兩個(gè)權(quán)重直方圖圖可以看出,權(quán)重的分配是合理的。因此,可以使用熵權(quán)法計(jì)算出的權(quán)值乘以對(duì)應(yīng)的指標(biāo)得分計(jì)算出綜合得分。計(jì)算出的得分結(jié)果保留兩位小數(shù),效果如圖5-14、5-15所示:圖5-14景區(qū)綜合得分圖5-15酒店綜合得分除此之外還需要對(duì)這一結(jié)果進(jìn)行誤差驗(yàn)證。驗(yàn)證總得分的誤差采用均方誤差(MSE)。將均方誤差方法的公式(3-4)轉(zhuǎn)換為具體的Python代碼,以此來(lái)處理兩個(gè)評(píng)論文本。具體處理效果如圖5-16、5-17展示:圖5-16酒店MSE圖5-17景區(qū)MSE從驗(yàn)證總得分的誤差采用均方誤差(MSE)得出的結(jié)果中,利用Python自帶的函數(shù)篩選出極大值、極小值,求出極差如表5-5所示。表5-5酒店及景區(qū)極大值、極小值、極差的MSE項(xiàng)目酒店評(píng)分總得分MSE景區(qū)評(píng)分總得分MSE極大值0.12330.1148極小值0.00650.0104極差0.11680.1044從表5-5中指標(biāo)可看出,誤差范圍在可接受的范圍內(nèi)。該評(píng)分在可以信任。5.3網(wǎng)評(píng)的有效性分析經(jīng)過之前的文本臟數(shù)據(jù)處理,得到了一個(gè)較為“干凈”的文本數(shù)據(jù)。文本的有效性REF_Ref101182473\r\h[17]是用戶接收評(píng)論信息的效率。因此,應(yīng)該在文本信息傳遞效率上下很多功夫。通過閱讀文獻(xiàn)和查找資料,借鑒商城購(gòu)物評(píng)論關(guān)鍵詞提取的經(jīng)驗(yàn)進(jìn)行處理。圖5-18是京東商場(chǎng)關(guān)于西門子洗碗機(jī)的評(píng)論關(guān)鍵詞提取。圖5-18京東商城關(guān)鍵詞該模塊可以快速的讓用戶了解到這個(gè)洗碗機(jī)的各種特點(diǎn),還可以避免“網(wǎng)絡(luò)水軍”刷評(píng)論。因此,可以利用這種方式處理評(píng)論文本。課題采用sklearn中的TF-IDF算法輔助提取關(guān)鍵詞。根據(jù)TF-IDF算法的特點(diǎn),需要將文檔進(jìn)行歸并。再利用pandas實(shí)現(xiàn)。具體效果如圖5-19、5-20所示:圖5-19景區(qū)文本聚合圖5-20酒店文本聚合然后,通過文本分詞、過濾停用詞,最后利用TF-IDF算法生成一個(gè)TF-IDF值得矩陣,具體效果如圖5-21所示:圖5-21TF-IDF矩陣通過每個(gè)TF-IDF值來(lái)確定每個(gè)酒店或景區(qū)評(píng)論文本中的關(guān)鍵字。根據(jù)TF-IDF的值來(lái)進(jìn)行排序,因此封裝了一個(gè)sort()排序函數(shù),返回前30的熱詞,并保存文檔(景區(qū)關(guān)鍵詞.xlsx、酒店關(guān)鍵詞.xlsx),如圖5-22、5-23所示:圖5-22景區(qū)關(guān)鍵詞圖5-23酒店關(guān)鍵詞還可以將數(shù)據(jù)中模糊不清的、看不出來(lái)意思是否一樣的數(shù)據(jù)拿出來(lái),進(jìn)行對(duì)比判斷漢明距離是否小于3,大于3的則需要?jiǎng)h除一條其中的數(shù)據(jù);“服務(wù)很好不錯(cuò)的”,“酒店服務(wù)態(tài)度不錯(cuò)很好的酒店”,這是酒店H01里面的兩條數(shù)據(jù),看著文本內(nèi)容有點(diǎn)相似,但是是否需要?jiǎng)h除,可以根據(jù)漢明距離算兩個(gè)文本的相似度,如圖5-24、5-25、5-26所示。圖5-24文本1計(jì)算圖5-25文本2計(jì)算圖5-26漢明距離、相似度從圖5-26中得出漢明距離等于22,明顯大于3并且計(jì)算出來(lái)的相似度為0.34375,所以不需要去重。可以根據(jù)上述的步驟,去除其它文本中的模糊不清、相似的評(píng)論。5.4景區(qū)及酒店的特色分析(1)聚類分析模型構(gòu)建旅游業(yè)繁榮發(fā)展給游客帶來(lái)了選擇困難的問題,評(píng)分接近的景區(qū)或酒店很難根據(jù)評(píng)分進(jìn)行取舍。在整理酒店及景區(qū)評(píng)分的時(shí)候,也發(fā)現(xiàn)了有很多目的地的綜合評(píng)分是一樣。因此,為了解決這個(gè)痛點(diǎn),構(gòu)建K-Means聚類分析模型,實(shí)現(xiàn)細(xì)粒度的對(duì)酒店及景區(qū)劃分排名,并采用高、中、低三個(gè)檔次對(duì)它們進(jìn)行分組,以此種方式進(jìn)一步減少游客選擇上的麻煩。利用sklearn中的函數(shù)完成K-Means的計(jì)算。計(jì)算的結(jié)果如下圖5-27、5-28所示:圖5-27景區(qū)聚類圖5-28酒店聚類(2)結(jié)果分析根據(jù)K-Means算法,可以得到三個(gè)特征分布清晰的聚類。如表5-6聚群檔次劃分:表5-6三個(gè)特征分布清晰的聚類類別檔次高中低酒店聚群酒店群3酒店群2酒店群1景區(qū)聚群景區(qū)群1景區(qū)群3景區(qū)群2根據(jù)計(jì)算出來(lái)景區(qū)酒店聚群結(jié)果進(jìn)行聚類分布圖繪制,圖5-29、5-30是展示劃分聚組中,每個(gè)聚組的數(shù)量:圖5-29酒店聚類分布圖圖5-30景區(qū)聚類分布圖將每個(gè)景區(qū)酒店分出類別的結(jié)果如圖5-21、5-32所示:圖5-31景區(qū)聚類類別圖5-32酒店聚類類別從每個(gè)景區(qū)酒店分出的每個(gè)聚類中都選擇3個(gè)對(duì)象,并結(jié)合熱詞算法得出的熱詞表來(lái)代表整個(gè)類別的特征項(xiàng),如表5-7、5-8、5-9、5-10、5-11、5-12所示:(1)景區(qū)表5-7高檔次景區(qū)前三名景區(qū)總評(píng)分特色A394.9動(dòng)物,公園,不錯(cuò),玩,茂名,值得,地方,動(dòng)物園,好玩,適合,門票,環(huán)境,小孩,茂名市,挺,喜歡,小孩子,植物,開心,表演,帶,空氣,景點(diǎn),孩子,老虎,走,小朋友,勇敢者,水上,感覺A234.8園林,中山,不錯(cuò),蘇州園林,值得,嶺南,地方,景色,古典,江南,環(huán)境,大宅門,門票,母親,園子,私家,感覺,古色古香,挺,建筑,私家園林,蘇州,精致,適合,風(fēng)景,名園,特色,風(fēng)格,景點(diǎn),園主A374.7溫泉,不錯(cuò),池,環(huán)境,溫泉水,值得,泡,泡溫泉,水質(zhì),玩,干凈,好玩,地方,感覺,房車,前臺(tái),服務(wù),設(shè)施,新興縣,水溫,下次,舒服,按摩,云浮,沖浪,功效,便宜,挺,適合,性價(jià)比分析高層次景區(qū)熱詞表可知,A39景區(qū)以動(dòng)物園為特色,值得游玩;環(huán)境好,空氣清新;有動(dòng)物表演,小朋友很開心,適合小朋友游玩。A23景區(qū)以蘇州園林為特色,環(huán)境優(yōu)美。景色帶有古典韻味;建筑古色古香、各有特色。A37以溫泉為特色,地方不錯(cuò);環(huán)境好,可以泡溫泉,水質(zhì)干凈;可以按摩,價(jià)格便宜,性價(jià)比高,適合游玩。表5-8中等檔次景區(qū)前三名景區(qū)總評(píng)分特色A364.6陶瓷,石灣,景區(qū),佛山,陶,龍窯,陶藝,不錯(cuò),制陶,地方,文化,公仔,窯,值得,景點(diǎn),歷史,生產(chǎn),門票,博物館,燒制,工藝,特色,灶,陶都,明清,文藝,瓷器,店鋪,挺,習(xí)藝A404.6島上,海鮮,海水,沙灘,不錯(cuò),伶仃,島,小島,海島,景色,珠海,加工,風(fēng)景,清澈,住,爬山,香港,游泳,海景,美,船票,景區(qū),酒店,住宿,珠海市,沙子,地方,加工費(fèi),芝,潛水A444.6松湖,東莞,自行車,騎,騎行,地方,不錯(cuò),湖,煙雨,單車,騎車,華為,風(fēng)景,桃花,湖煙雨,很大,景色,踩,環(huán)湖,值得,環(huán)境,單車,公園,花海,周末,散步,租,萬(wàn)科,產(chǎn)業(yè)園,大學(xué)路分析中層次景區(qū)熱詞表可知,A36景區(qū)以陶藝為特色,帶有歷史風(fēng)貌;可以了解制作、燒制陶瓷的工藝,有明清的陶瓷,還有陶瓷博物館。A40景區(qū)以海島為特色,風(fēng)景美麗;有海鮮、沙灘,還可以游泳;可以坐船、潛水等活動(dòng)。A44景區(qū)以湖為特色,地方不錯(cuò);可以繞湖騎行,風(fēng)景秀麗,還有桃花可以觀賞;適合周末過來(lái)散步。表5-9低檔次景區(qū)前三名景區(qū)總評(píng)分特色A254.5溫泉,廟會(huì),不錯(cuò),日式,服務(wù),自助餐,吃,環(huán)境,池子,珠海,池,泡,泡溫泉,感覺,地方,值得,干凈,酒店,大餐,挺,舒服,毛巾,換水,水果,下次,晚上,玩,房間,小湯,榻榻米A324.3溫泉,不錯(cuò),池,環(huán)境,池子,服務(wù),泡,銀盞,按摩,玩,自助餐,泡溫泉,挺,干凈,水果,下次,值得,地方,設(shè)施,感覺,舒服,飲料,取票,開心,池水,好玩,水療,免費(fèi),水,水溫A424.3溫泉,不錯(cuò),環(huán)境,池,服務(wù),挺,泡,泡溫泉,地方,舒服,前臺(tái),下次,玩,值得,服務(wù)態(tài)度,茂名,服務(wù)員,好好,開心,感覺,裝修,溫泉水,地?zé)?魚療,黃丹婷分析低層次景區(qū)熱詞表可知A25景區(qū)以溫泉為特色,環(huán)境舒適;帶有日式服務(wù),可以吃自助餐。水質(zhì)干凈,水果不錯(cuò)。A32以溫泉為特色,感覺舒適;水質(zhì)干凈,水溫適合;設(shè)施好,取票方便,可以做水療。A42景區(qū)以溫泉為特色,環(huán)境不錯(cuò);服務(wù)態(tài)度好,感覺舒適,裝修好。前臺(tái)服務(wù)好,可以做魚療,值得游玩。(2)酒店表5-10高檔次酒店前三名酒店總評(píng)分特色H044.9溫泉,酒店,服務(wù),不錯(cuò),玩,孩子,池畔,環(huán)境,水上,親子,房間,早餐,小朋友,泳池,適合,水房,開心,帶,樂園,玩水,入住,下次,特別,喜歡,住,設(shè)施,陽(yáng)臺(tái),深圳,挺,區(qū)H064.9溫泉,服務(wù),酒店,泡溫泉,不錯(cuò),流溪河,早餐,房間,環(huán)境,孩子,玩,池,干凈,區(qū),喜歡,特別,帶,設(shè)施,小朋友,服務(wù)員,從化,啤,感覺,入住,泡,兒童,服務(wù)態(tài)度,下次,體驗(yàn),工作人員H074.9酒店,沙面,江景,房間,服務(wù),不錯(cuò),玉堂春,廣州,環(huán)境,早茶,珠江,住,早餐,入住,老牌,位置,米其林,房,五星級(jí),暖,特別,設(shè)施,第一家,宏圖,故鄉(xiāng),升級(jí),棒,江邊,島,舒服分析高層次酒店熱詞表可知,H04酒店以親子房、樂園游玩為特色,服務(wù)好;環(huán)境好,有水上親子間,父母可以跟孩子游玩樂園、游泳;設(shè)施好,值得入住。H06酒店以服務(wù)好、適合小孩子居住為特色,有早餐供應(yīng),房間環(huán)境好;有小朋友游玩地區(qū),設(shè)施好,值得入住。H07酒店以地理位置、設(shè)施好為特色,有江景房間,是個(gè)老牌酒店;五星級(jí)服務(wù),提供廣州早茶;感覺舒適,靠近江邊可以散步游玩。表5-11中檔次酒店前三名酒店總評(píng)分特色H354.7酒店,房間,服務(wù),干凈,河源,不錯(cuò),責(zé)任,女性,住,律師,舒服,舒適,噴泉,前臺(tái),希岸,衛(wèi)生,事故,溝通,應(yīng)急,承認(rèn),維權(quán),環(huán)境,入住,挺,滿意,流血,第一,新,這家,摔倒H084.7不錯(cuò),服務(wù),酒店,房間,前臺(tái),住,干凈,惠州,性價(jià)比,環(huán)境,衛(wèi)生,服務(wù)態(tài)度,高,價(jià)格,推薦,下次,位置,早餐,很大,挺,實(shí)惠,值得,西湖,熱情,設(shè)施,入住,滿意,舒適,小姐姐,四星級(jí)H024.6酒店,服務(wù),不錯(cuò),前臺(tái),房間,深圳,入住,早餐,大使,位置,肖宇玲,住,宇行,陳丹娜,機(jī)場(chǎng),劉麗平,環(huán)境,干凈,曾莉,李燃,交通,李然,特別,大衛(wèi),羅小環(huán),下次,熱情,挺,機(jī)器人,衛(wèi)生分析中層次酒店熱詞表可知,H35酒店以服務(wù)好、環(huán)境好為特色,房間干凈,服務(wù)好;出現(xiàn)事故,能及時(shí)溝通,有應(yīng)急處理方式,有維權(quán)。H08酒店以服務(wù)好、性價(jià)比高為特色,比較實(shí)惠;前臺(tái)服務(wù)好,設(shè)施完善,靠近西湖可以游玩;價(jià)格實(shí)惠,可以優(yōu)先考慮入住。H02酒店以服務(wù)環(huán)境不錯(cuò)、交通便利為特色,位置靠近機(jī)場(chǎng);服務(wù)熱情,衛(wèi)生干凈,值得入住。表5-12低檔次酒店前三名酒店總評(píng)分特色H394.5酒店,房間,北京路,不錯(cuò),位置,服務(wù),性價(jià)比,設(shè)施,舊,好好,前臺(tái),環(huán)境,交通,很大,廣州,住,入住,免費(fèi),步行街,衛(wèi)生,干凈,一般般,早餐,大巴,老城區(qū),停車場(chǎng),停車,機(jī)場(chǎng),小吃,地理位置H434.5酒店,小蠻,腰,塔,不錯(cuò),珠江,廣州,位置,服務(wù),房間,江景,設(shè)施,環(huán)境,景觀,老,干凈,江邊,舊,住,性價(jià)比,泳池,入住,早餐,夜景,花城,景色,景房,陳舊,衛(wèi)生,臨江H484.5酒店,服務(wù),不錯(cuò),房間,衛(wèi)生,位置,東門,住,光華,國(guó)貿(mào),干凈,前臺(tái),交通,地理位置,挺,便利,老街,環(huán)境,性價(jià)比,金,下次,推薦,服務(wù)態(tài)度,加油,優(yōu)越,價(jià)格,舊,值得,早餐,黃金分析低層次酒店熱詞表可知,H39酒店以地理位置好、出行方便為特色,服務(wù)好、這家酒店性價(jià)比對(duì)游客來(lái)說(shuō)適合優(yōu)先考慮;有停車場(chǎng),有大巴車停靠,靠近機(jī)場(chǎng),四通八達(dá);提供小吃,衛(wèi)生干凈,靠近步行街可以購(gòu)物。H43酒店以地理位置好、性價(jià)比高為特色,在房間可以欣賞江景;環(huán)境干凈,夜景優(yōu)美;靠近景點(diǎn)可以游玩。H48酒店以交通便利、地理位置優(yōu)越為特色,服務(wù)不錯(cuò),衛(wèi)生干凈;價(jià)格實(shí)惠,提供早餐,值得入住。
6.旅游目的地建設(shè)建議6.1提高用戶感受度從結(jié)果中可以看到影響游客滿意度的因素主要有五個(gè)方面,分別是服務(wù)、位置、設(shè)施、衛(wèi)生、性價(jià)比。分析中得出衛(wèi)生環(huán)境對(duì)于顧客滿意度的影響比較明顯差,所以要從衛(wèi)生管理方面多下功夫。對(duì)于旅游目的地的酒店的管理來(lái)講,可以從提升衛(wèi)生環(huán)境方面入手,現(xiàn)在的游客越來(lái)越重視衛(wèi)生環(huán)境,擁有干凈整潔的衛(wèi)生環(huán)境是外出旅游選擇的一項(xiàng)不可或缺的重要因素。酒店不僅要看重肉眼可見到的一塵不染視覺指標(biāo),更要引來(lái)科學(xué)檢測(cè)裝備和手段來(lái)落實(shí)理化指標(biāo),酒店不可以只靠衛(wèi)生部門的檢查來(lái)整改,以致酒店客房的整潔只經(jīng)得起表象檢擦,而并未科學(xué)手段的測(cè)量和評(píng)測(cè),環(huán)境質(zhì)量不達(dá)標(biāo),導(dǎo)致顧客的滿意度大大減少。因此可以加強(qiáng)對(duì)于衛(wèi)生清潔設(shè)備的管理、制定符合酒店自身的衛(wèi)生管理程序、增強(qiáng)員工的衛(wèi)生意識(shí)與職業(yè)道德、重點(diǎn)注意衛(wèi)生盲區(qū)的清理等措施來(lái)提升衛(wèi)生環(huán)境這一方面,衛(wèi)生質(zhì)量上的去,顧客的滿意度也會(huì)上升,當(dāng)然酒店目的地的美譽(yù)度也會(huì)得到提高。再者就是酒店位置對(duì)于旅游目的地滿意度也有很大的影響,大多數(shù)旅游的人們都會(huì)選擇離自己旅游地點(diǎn)相近的酒店,這樣會(huì)給人們提供很大的方便,還會(huì)愉悅?cè)藗兊男那椤K跃频甑奈恢梦挥谟欣匚唬瑫?huì)對(duì)景區(qū)和酒店的美譽(yù)度有很大的提升。6.2進(jìn)行差異化消費(fèi)游客對(duì)于酒店及景區(qū)的取舍是有很明顯的劃分趨勢(shì)的,因此需要按照游客不同的需要來(lái)給他們提供相應(yīng)的服務(wù)。在之前的分析中,將酒店及景區(qū)劃分為高、中、低三個(gè)組類。因此,可以以此為參考,思考一些不同的消費(fèi)模式。這樣做一方面可以提高用戶的旅游和消費(fèi)體驗(yàn),另一方面可以幫助酒店及景區(qū)改善自己的面貌。
7.總結(jié)隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展和旅游業(yè)信息的高度密集,在線評(píng)論平臺(tái)上出現(xiàn)了大量以評(píng)論和游記等為形式的非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的調(diào)研方式已無(wú)法滿足如今動(dòng)輒上萬(wàn)的數(shù)據(jù)挖掘需求,本文主要通過TF-IDF算法、LDA主題模型、和K-Means模型解決了景區(qū)及酒店的印象分析、綜合評(píng)價(jià)、網(wǎng)評(píng)文本有效性識(shí)別、特色分析四個(gè)任務(wù)。為實(shí)現(xiàn)印象詞云表,本文在對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理后,進(jìn)行基于對(duì)每一個(gè)詞的詞頻統(tǒng)計(jì),將計(jì)算結(jié)果都寫入了csv文件保存。為解決綜合評(píng)價(jià)問題,本文首先通過對(duì)每一家景區(qū)酒店的分詞,基于LDA主題模型進(jìn)行主題識(shí)別,并結(jié)合相關(guān)文獻(xiàn)構(gòu)建的主題詞詞典。隨后,通過對(duì)每一家景區(qū)酒店的評(píng)論文本分詞跟構(gòu)建的主題詞典進(jìn)行匹配數(shù)據(jù),將每一指標(biāo)的數(shù)據(jù)統(tǒng)計(jì)出來(lái),再和五個(gè)指標(biāo)的總數(shù)相比求得每一家景區(qū)酒店的各個(gè)指標(biāo)概率寫入Excel中并保存。再將得到的概率通過Excel自帶的函數(shù)求得各
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年鋰離子蓄電池行業(yè)發(fā)展分析及發(fā)展趨勢(shì)與投資前景預(yù)測(cè)研究報(bào)告
- 2025-2030年鋁合金電纜產(chǎn)業(yè)市場(chǎng)發(fā)展分析及前景趨勢(shì)與投資管理研究報(bào)告
- 2025-2030年鈦合金粉產(chǎn)業(yè)市場(chǎng)深度調(diào)研及發(fā)展趨勢(shì)與投資研究報(bào)告
- 2025-2030年遙控電動(dòng)病床行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年過濾棉行業(yè)競(jìng)爭(zhēng)格局分析及投資前景與戰(zhàn)略規(guī)劃研究報(bào)告
- 2025-2030年跑步機(jī)行業(yè)市場(chǎng)深度調(diào)研及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2025-2030年資產(chǎn)管理行業(yè)市場(chǎng)發(fā)展分析及投資前景研究報(bào)告
- 2025-2030年課外輔導(dǎo)行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年自動(dòng)化機(jī)械手產(chǎn)業(yè)行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年紅棗美容食品行業(yè)市場(chǎng)深度分析及競(jìng)爭(zhēng)格局與投資發(fā)展研究報(bào)告
- 2020-2024年各地中考語(yǔ)文試卷【標(biāo)點(diǎn)符號(hào)使用題】匯集練附答案解析
- 數(shù)據(jù)分析師歷年考試真題試題庫(kù)(含答案)
- 住宅小區(qū)園林景觀綠化工程施工組織設(shè)計(jì)方案
- 物質(zhì)的量說(shuō)課
- 人教版八年級(jí)下冊(cè)歷史教案全冊(cè)
- 企業(yè)網(wǎng)絡(luò)設(shè)備資產(chǎn)清查合同
- 2024年北京普通高中學(xué)業(yè)水平等級(jí)性考試化學(xué)試題及答案
- C語(yǔ)言程序設(shè)計(jì) 課件 第5章-數(shù)組
- 住家護(hù)工聘用合同協(xié)議書
- 平面向量的基本定理(說(shuō)課)
- 投標(biāo)擔(dān)保函樣式
評(píng)論
0/150
提交評(píng)論