




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于評(píng)論文本的江西5A風(fēng)景區(qū)旅游評(píng)價(jià)實(shí)證分析案例目錄TOC\o"1-2"\h\u1351基于評(píng)論文本的江西5A風(fēng)景區(qū)旅游評(píng)價(jià)實(shí)證分析 121331.1研究區(qū)域和數(shù)據(jù)的預(yù)處理 2279121.1.1研究區(qū)域 285851.1.2數(shù)據(jù)的來(lái)源 360601.1.3爬取數(shù)據(jù)的問(wèn)題及解決方法 420441.1.4數(shù)據(jù)的預(yù)處理 5219691.2基于LDA模型的江西5A級(jí)旅游景區(qū)評(píng)價(jià)指標(biāo)確立 628671.2.1旅游景區(qū)關(guān)注度的分布特征 6237721.2.2基于文本挖掘的情感值分析 831651.2.3LDA主題建模的結(jié)果 10182401.3基于LDA改進(jìn)AHP的江西5A級(jí)旅游景區(qū)評(píng)價(jià)體系 13277201.3.1確定旅游目的地的評(píng)價(jià)指標(biāo) 13245881.3.2旅游目的地評(píng)價(jià)體系的建立 131.1研究區(qū)域和數(shù)據(jù)的預(yù)處理1.1.1研究區(qū)域江西省位于我國(guó)的中部地區(qū),旅游發(fā)展區(qū)位與資源優(yōu)勢(shì)明顯。江西省有著“天然氧吧”的美譽(yù),不僅森林覆蓋面積將近60%,而且生態(tài)環(huán)境優(yōu)勢(shì)顯著。5A級(jí)景區(qū)就多達(dá)十幾家,其中就包括著名的廬山、滕王閣和井岡山等國(guó)家風(fēng)景名勝區(qū)。廬山風(fēng)景區(qū)和滕王閣因名人而名聲大噪。井岡山和瑞金景區(qū)作為我國(guó)著名的紅色革命旅游目的地,受到大批國(guó)內(nèi)外知名人士的來(lái)訪。同時(shí)還擁有我國(guó)最大的淡水湖泊—鄱陽(yáng)湖,鄱陽(yáng)湖擁有豐富的動(dòng)植物資源,大量鳥(niǎo)類在此棲息。這些優(yōu)質(zhì)的旅游資源為江西旅游發(fā)展提供強(qiáng)有力的支撐。此外,江西省擁有聞名國(guó)內(nèi)外的“世界瓷都”—景德鎮(zhèn)景區(qū),還包括具有地方特色景觀的婺源景區(qū),“中國(guó)道教第一山”的龍虎山景區(qū)。江西省人文薈萃,在這片土地上先后誕生了曾鞏、湯顯祖、朱熹等一大批文人墨客,這些都為江西旅游行業(yè)發(fā)展提供人文支撐。此外,江西區(qū)位優(yōu)勢(shì)明顯,毗鄰經(jīng)濟(jì)發(fā)達(dá)的東南沿海省份,與東南部地區(qū)形成良好的互補(bǔ),一方面江西憑借其優(yōu)質(zhì)的旅游資源一舉成為經(jīng)濟(jì)發(fā)達(dá)城市的“后花園”,另一方面,而東南沿海城市也為江西旅游市場(chǎng)形成提供了強(qiáng)有力的資金支撐,這些無(wú)疑為江西旅游業(yè)發(fā)展提供了優(yōu)良的區(qū)位優(yōu)勢(shì)。A級(jí)景區(qū)的數(shù)量是衡量一個(gè)地理區(qū)域旅游資源豐富程度的重要指標(biāo),江西省旅游資源豐富,截止2020年6月30日,江西省內(nèi)的5A級(jí)旅游景區(qū)數(shù)量達(dá)到11家,4A級(jí)景區(qū)高達(dá)146家,3A級(jí)和2A級(jí)景區(qū)分別為226家和37家。江西省作為我國(guó)中部地區(qū)的旅游大省,其旅游業(yè)發(fā)展較早,而且人文資源和區(qū)位優(yōu)勢(shì)明顯,但旅游資源優(yōu)勢(shì)與旅游經(jīng)濟(jì)呈現(xiàn)明顯不相匹配的問(wèn)題,并且作為全省5A級(jí)旅游發(fā)展標(biāo)桿的廬山、滕王閣以及井岡山等旅游景區(qū),競(jìng)爭(zhēng)力和知名度也不如中部其他省份的同類景區(qū)。本研究以江西省11個(gè)5A級(jí)旅游景區(qū)為例,爬取國(guó)內(nèi)7大主流在線旅游訂票APP上游客點(diǎn)評(píng)數(shù)據(jù),基于LDA改進(jìn)的層次分析法對(duì)旅游景區(qū)評(píng)價(jià)指標(biāo)作出科學(xué)的評(píng)估,為旅游目的地管理者決策的制定提供科學(xué)的依據(jù)以及全新的視角和方法。1.1.2數(shù)據(jù)的來(lái)源本研究選取攜程網(wǎng)、同程網(wǎng)、大眾點(diǎn)評(píng)等7個(gè)國(guó)內(nèi)主要在線旅游平臺(tái)的用戶評(píng)論作為數(shù)據(jù)樣本,對(duì)應(yīng)江西省所有11個(gè)5A旅游景區(qū)用戶評(píng)論的文本內(nèi)容。按照規(guī)則進(jìn)行檢索,以滕王閣2018年11月1日正式榮升國(guó)家5A級(jí)景區(qū)為時(shí)間節(jié)點(diǎn),采用Python軟件采集2018年11月1日至2020年12月30日的江西省所有5A級(jí)旅游景區(qū)用戶在線旅游評(píng)論的原始數(shù)據(jù)共計(jì)266581條,原始數(shù)據(jù)包括用戶名、評(píng)論性質(zhì)、評(píng)論時(shí)間和評(píng)論原文。本文使用Python軟件對(duì)旅游網(wǎng)站(攜程網(wǎng)、同程網(wǎng)、去哪兒網(wǎng)等)進(jìn)行爬蟲(chóng)處理,網(wǎng)絡(luò)爬蟲(chóng)分為四個(gè)步驟。第一,通過(guò)調(diào)用Requests包向網(wǎng)頁(yè)發(fā)起請(qǐng)求,通過(guò)url得到取網(wǎng)址的源碼。第二,獲取響應(yīng)內(nèi)容,得到Response,即各網(wǎng)站景區(qū)HTML頁(yè)面。第三,解析內(nèi)容,使用正則表達(dá)式Re和BeautifulSoup來(lái)解析,BeautifulSoup本身自帶遍歷文檔搜索,支持正則表達(dá)式,配合使用可以提取頁(yè)面所有元素,使用find.all()獲得信息。第四,保存數(shù)據(jù),將獲取的數(shù)據(jù)保存為文本。在獲取原始數(shù)據(jù)后,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。將爬取得到的評(píng)論文本使用pandas數(shù)據(jù)包中df.duplicated和d#drop_duplicates函數(shù)刪除相同的評(píng)論內(nèi)容,包括同一個(gè)用戶的相同和相似評(píng)論,或者用戶復(fù)制粘貼的其他人的評(píng)論。通過(guò)以上處理,保留的數(shù)據(jù)量為145625條。數(shù)據(jù)來(lái)源分布如圖1-1所示。接著對(duì)所有景點(diǎn)的有效評(píng)論進(jìn)行歸類整理,得到江西省11個(gè)5A級(jí)旅游景區(qū)評(píng)論數(shù)據(jù)庫(kù)表1.1。圖1-1數(shù)據(jù)來(lái)源表1.1江西省5A級(jí)旅游景區(qū)評(píng)論數(shù)據(jù)庫(kù)編號(hào)地區(qū)/市旅游風(fēng)景區(qū)評(píng)論數(shù)/條編號(hào)地區(qū)/市旅游風(fēng)景區(qū)評(píng)論數(shù)/條1九江廬山風(fēng)景區(qū)198197贛州瑞金共和國(guó)景區(qū)35812上饒三清山風(fēng)景區(qū)194128宜春明月山風(fēng)景區(qū)74293井岡山井岡山風(fēng)景區(qū)49069撫州大覺(jué)山風(fēng)景區(qū)82414景德鎮(zhèn)景德鎮(zhèn)風(fēng)景區(qū)1380810上饒龜峰風(fēng)景區(qū)74915鷹潭龍虎山風(fēng)景區(qū)1137111南昌滕王閣景區(qū)333516上饒婺源江灣風(fēng)景區(qū)162161.1.3爬取數(shù)據(jù)的問(wèn)題及解決方法攜程和大眾點(diǎn)評(píng)作為國(guó)內(nèi)大型的OTA(OnlineTravelAgency)網(wǎng)站,其反爬蟲(chóng)策略十分成熟,本文在爬取研究所需數(shù)據(jù)時(shí)難點(diǎn)和解決辦法如下。(1)攜程將禁止訪問(wèn)同一個(gè)經(jīng)常訪問(wèn)的IP。通過(guò)設(shè)置IP代理池,定期更換IP地址,就可以實(shí)現(xiàn)擺脫IP封鎖。(2)攜程的旅游評(píng)論數(shù)據(jù)采用了大量的Ajax動(dòng)態(tài)網(wǎng)頁(yè)技術(shù),并對(duì)動(dòng)態(tài)數(shù)據(jù)的傳輸進(jìn)行加密,因此很難通過(guò)訪問(wèn)網(wǎng)站直接捕獲目標(biāo)數(shù)據(jù)。本文利用瀏覽器仿真組件來(lái)模擬人工訪問(wèn)網(wǎng)站的行為,獲取動(dòng)態(tài)數(shù)據(jù)。(3)旅游評(píng)論的文本數(shù)據(jù)中除了文字外,還有圖片、鏈接和表達(dá)方式。這些特殊的數(shù)據(jù)格式在存儲(chǔ)文本時(shí)會(huì)導(dǎo)致編碼混亂。本文利用正則表達(dá)式去除網(wǎng)頁(yè)中的圖片和鏈接,利用Python表達(dá)式過(guò)濾工具箱對(duì)表達(dá)式數(shù)據(jù)進(jìn)行過(guò)濾,最終得到可存儲(chǔ)的純文本旅游數(shù)據(jù)。1.1.4數(shù)據(jù)的預(yù)處理(1)停用詞典建立雖然已經(jīng)對(duì)旅游景區(qū)文本中的重復(fù)的評(píng)論進(jìn)行了剔除,但仍然有一部分中文文本是對(duì)本文的LDA主題分析研究沒(méi)有意義的,因此需要在進(jìn)行文本分詞前需要設(shè)立一個(gè)停用詞典,以去除對(duì)主題分析用處不大的詞語(yǔ)。本文使用哈工大停用詞表的最新版stopwords1893,除了常規(guī)的停用詞外,還有一些詞對(duì)LDA模型的主題識(shí)別用處不大。本研究的評(píng)論數(shù)據(jù)是涉及旅游類的,里面會(huì)出現(xiàn)大量人名、物名、事物名以及旅游這一名詞,而這些名詞對(duì)LDA模型的題識(shí)別基本沒(méi)有作用,因此需要將這些詞加入停用詞典。(2)數(shù)據(jù)的分詞本研究將收集的所有有效評(píng)論導(dǎo)入Excel表中作為文本信息,使用本文的中文分詞工具選用Python環(huán)境中的jieba中文分詞庫(kù)對(duì)文本進(jìn)行分詞處理,對(duì)于軟件分析不準(zhǔn)確或錯(cuò)誤的詞人為的進(jìn)行改正和替換,為使用LDA模型進(jìn)行主題建模做好數(shù)據(jù)準(zhǔn)備。(3)LDA參數(shù)的設(shè)置本文借用開(kāi)源軟件R中的tm包對(duì)爬取的游客評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理,其步驟具體分為以下幾步:第一,將145625條評(píng)論導(dǎo)入.txt文件當(dāng)中,形成一個(gè)語(yǔ)料庫(kù),并通過(guò)建立的停用詞表去除一標(biāo)點(diǎn)符號(hào)、數(shù)字和對(duì)主題提取無(wú)關(guān)的詞,從而得到一個(gè)145625行54521列的文檔-詞矩陣。通過(guò)不斷的調(diào)試,來(lái)設(shè)置文檔-主題分布參數(shù)α,主題-詞分布的參數(shù)β和迭代次數(shù),LDA算法的部分代碼如表1.2所示。首先將主題數(shù)K依次定為5-20,發(fā)現(xiàn)K在9與11之間,模型的困惑度較低,如圖1-2所示。因此將主題數(shù)依次設(shè)定為9、10、11,運(yùn)行LDA模型,觀察主題之間的語(yǔ)義排他性與主題內(nèi)部的語(yǔ)義一致性,發(fā)現(xiàn)主題數(shù)為9的主題模型,能較好地涵蓋游客評(píng)論的內(nèi)容。因此將主題數(shù)K=9作為本實(shí)驗(yàn)的最優(yōu)主題數(shù)。表1.2LDA算法的部分代碼LDA算法的部分偽代碼Step1:import
numpy
as
np
Step2:import
lda
Step3:import
lda.datasets
Step4:model
=
lda.LDA(n_topics=9,
n_iter=1000,
random_state=1)
Step5:model.fit(np.asarray(weight))
Step6:topic_word
=
model.topic_word_#計(jì)算文檔-主題分布
Step7:doc_topic
=
model.doc_topic_
Step8:print("type(doc_topic):
{}".format(type(doc_topic)))
Step9:print("shape:
{}".format(doc_topic.shape))
#得到每段旅游評(píng)論最可能從屬的主題Step10:label
=
[]
Step11:for
n
in
range(145625):
Step12:topic_most_pr
=
doc_topic[n].argmax()
Step13:label.append(topic_most_pr)
Step14:print("doc:
{}
topic:
{}".format(n,
topic_most_pr))
圖1-2困惑度與主題數(shù)的關(guān)系1.2基于LDA模型的江西5A級(jí)旅游景區(qū)評(píng)價(jià)指標(biāo)確立1.2.1旅游景區(qū)關(guān)注度的分布特征網(wǎng)絡(luò)有效評(píng)論數(shù)是旅游目的地關(guān)注度的直接反映,網(wǎng)絡(luò)旅游關(guān)注度的公式為Ai=Xi/Y,Xi為第i風(fēng)景區(qū)的有效評(píng)論數(shù),Y為風(fēng)景區(qū)有效評(píng)論的總和。為了更好地揭示江西省11個(gè)5A級(jí)旅游目的地網(wǎng)絡(luò)旅游景區(qū)關(guān)注度差異和影響因素,創(chuàng)新性地用氣泡的大小代表旅游地的關(guān)注度大小,以旅游景點(diǎn)評(píng)論數(shù)據(jù)為基礎(chǔ)分析了旅游景區(qū)網(wǎng)絡(luò)旅游關(guān)注度的分布特征。對(duì)江西省的11個(gè)5A級(jí)景區(qū)的145625有效評(píng)論分析可以發(fā)現(xiàn),景區(qū)的有效評(píng)論呈現(xiàn)顯著的離散型,而且極化特征明顯,其中大部分評(píng)論(108624條)集中于北部的環(huán)鄱陽(yáng)湖的景區(qū)當(dāng)中,即占總有效評(píng)論的71.6%。通過(guò)查閱江西統(tǒng)計(jì)局發(fā)布的江西省各省市生產(chǎn)總值并對(duì)照本研究得出的江西省各5A級(jí)旅游景區(qū)的網(wǎng)絡(luò)關(guān)注度,可以發(fā)現(xiàn)江西5A級(jí)旅游景區(qū)的關(guān)注度與當(dāng)?shù)氐貐^(qū)經(jīng)濟(jì)和旅游發(fā)展水平呈明顯的正比關(guān)系,結(jié)果如表1.3所示。網(wǎng)絡(luò)有效評(píng)論數(shù)是旅游目的地關(guān)注度的直接反映。為了更好地揭示江西省11個(gè)5A級(jí)旅游景區(qū)之間的關(guān)注度和影響因素差異,創(chuàng)新性地用氣泡的大小代表旅游地的關(guān)注度大小,以旅游景點(diǎn)評(píng)論數(shù)據(jù)為基礎(chǔ)分析了旅游景區(qū)網(wǎng)絡(luò)旅游關(guān)注度的分布特征。對(duì)江西省的11個(gè)5A級(jí)景區(qū)的145625有效評(píng)論分析可以發(fā)現(xiàn),景區(qū)的有效評(píng)論呈現(xiàn)顯著的離散型,而且極化特征明顯,其中大部分評(píng)論集中于北部的環(huán)鄱陽(yáng)湖的景區(qū)當(dāng)中。表1.3各景區(qū)的關(guān)注度—滿意度和人均可支配收入景區(qū)關(guān)注度滿意度人均可支配收入(元)景區(qū)關(guān)注度滿意度人均可支配收入(元)滕王閣景區(qū)0.2290.90944136明月山風(fēng)景區(qū)0.0400.87934831三清山風(fēng)景區(qū)0.1630.94337456井岡山風(fēng)景區(qū)0.0400.91037543廬山風(fēng)景區(qū)0.1560.93638076龜峰風(fēng)景區(qū)0.0280.94837456婺源風(fēng)景區(qū)0.1170.89537456大覺(jué)山風(fēng)景區(qū)0.0180.91534518景德鎮(zhèn)風(fēng)景區(qū)0.1160.89940143瑞金風(fēng)景區(qū)0.0030.90134826龍虎山風(fēng)景區(qū)0.0920.89037151分景區(qū)來(lái)看,龜峰風(fēng)景區(qū)的滿意度最高,達(dá)到91.8%,三清山風(fēng)景區(qū)和廬山風(fēng)景區(qū)位列第二和第三,明月山風(fēng)景區(qū)的游客滿意度最低。滿意度的計(jì)算方式為:滿意度Si=Pi/(Pi+Ni),Pi為第i個(gè)目的地有效評(píng)論中的正面印象數(shù),Ni為第i個(gè)目的地有效評(píng)論中的負(fù)面印象數(shù)。圖1-3景點(diǎn)關(guān)注度的空間分布圖通過(guò)ArcGIS10.7軟件對(duì)江西省11個(gè)5A級(jí)旅游景區(qū)進(jìn)行可視化處理,結(jié)果如圖1-3所示。由圖可見(jiàn),在空間分布上,江西省旅游資源和網(wǎng)絡(luò)評(píng)論分布存在明顯不均衡的現(xiàn)象,大部分5A景區(qū)以及網(wǎng)絡(luò)評(píng)論聚于北部的環(huán)鄱陽(yáng)湖地區(qū),包括南昌、上饒、九江等地,其中大部分旅游資源集中在鄱陽(yáng)湖生態(tài)經(jīng)濟(jì)區(qū),而中南部與西部地區(qū)等地5A級(jí)景區(qū)數(shù)量相對(duì)偏少格局。同時(shí),網(wǎng)絡(luò)旅游關(guān)注度呈現(xiàn)明顯的極化現(xiàn)象,呈現(xiàn)由北-西-南逐步遞減。1.2.2基于文本挖掘的情感值分析隨著社交平臺(tái)的發(fā)展和普及,越來(lái)越多的游客樂(lè)于在社交網(wǎng)絡(luò)上分享自己旅行體驗(yàn),但是他們大多數(shù)只會(huì)選擇性地將自己的正面印象或負(fù)面印象表達(dá)出來(lái)。將江西省11個(gè)5A級(jí)旅游景區(qū)按照景區(qū)類型可以分為兩類:一是人文類景區(qū):井岡山風(fēng)景區(qū)、景德鎮(zhèn)風(fēng)景區(qū)、瑞金風(fēng)景區(qū)、滕王閣景區(qū)和婺源風(fēng)景區(qū)。二是自然類景區(qū):廬山風(fēng)景區(qū)、三清山風(fēng)景區(qū)、龍虎風(fēng)景區(qū)、明月山風(fēng)景區(qū)、大覺(jué)山風(fēng)景區(qū)和龜峰風(fēng)景區(qū)。使用軟件ROSTCOM6.0對(duì)不同類別的景點(diǎn)評(píng)論中正面及負(fù)面詞匯進(jìn)行識(shí)別和統(tǒng)計(jì),得到的結(jié)果如表1.4所示,總體而言正面印象數(shù)遠(yuǎn)高于負(fù)面印象數(shù),江西5A級(jí)旅游景點(diǎn)的總體滿意度均值達(dá)到91.05%。這與《2018江西旅游景區(qū)暑期游客滿意度報(bào)告》中江西5A級(jí)景區(qū)調(diào)查的游客滿意度90.00%極其接近。對(duì)爬取的網(wǎng)絡(luò)評(píng)論數(shù)據(jù)根據(jù)其情感值分為正面印象和負(fù)面印象兩個(gè)文檔,然后分別對(duì)負(fù)面印象和正面印象的評(píng)論進(jìn)行分詞,待分詞結(jié)束后,將文本文件(.txt)導(dǎo)入ROSTOM6.0軟件中,分析軟件ROSTCM6.0“功能性分析”一欄中的“詞頻分析”功能提取出詞頻排名50的詞,利用過(guò)濾詞表過(guò)濾無(wú)關(guān)詞匯。對(duì)錯(cuò)誤分詞結(jié)果進(jìn)行相應(yīng)修正,將修正的詞語(yǔ)加入用戶詞典,并過(guò)濾掉與研究無(wú)關(guān)的詞匯,重新對(duì)文本進(jìn)行分詞處理,篩選的詞通過(guò)LDA模型進(jìn)行主題分類,得到表1.5。表1.4情感值分析景區(qū)類別正面印象數(shù)(條)負(fù)面印象數(shù)(條)人文類景區(qū)642677595自然類景點(diǎn)662986892匯1.5正負(fù)面高頻詞及情感特征主題詞負(fù)面印象高頻詞(前5)排序服務(wù)意識(shí)不滿態(tài)度差勁糟糕失望1景區(qū)管理管理混亂危險(xiǎn)垃圾廁所4價(jià)格感知不值太貴商業(yè)化坑人現(xiàn)金3游玩體驗(yàn)辛苦排隊(duì)秩序素質(zhì)人多2主題詞正面印象高頻詞(前5)排序服務(wù)意識(shí)值得態(tài)度好評(píng)舒服耐心3環(huán)境質(zhì)量空氣清新漂亮干凈美麗2價(jià)格感知?jiǎng)澦惚阋嗣赓M(fèi)優(yōu)惠性價(jià)比4游玩體驗(yàn)好玩索道美景開(kāi)心壯觀1通過(guò)高頻詞和語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)對(duì)游客評(píng)論數(shù)據(jù)進(jìn)行情感值的提取,正面評(píng)論主要是體現(xiàn)在四個(gè)方面:一是對(duì)游玩體驗(yàn)高度認(rèn)同,主要體現(xiàn)在“好玩”,“索道”,“美景”,“開(kāi)心”,“壯觀”等高頻詞上;二是對(duì)景區(qū)內(nèi)的景色和環(huán)境感到滿意,通過(guò)“空氣”,“清新”“漂亮”,“干凈”,“美麗”等高頻詞來(lái)體現(xiàn);三是對(duì)景區(qū)內(nèi)的工作人員的服務(wù)以及對(duì)待游客的態(tài)度感到滿意,主要體現(xiàn)在“值得”,“態(tài)度”,“好評(píng)”,“舒服”,耐心等高頻詞上;四是對(duì)景區(qū)內(nèi)商品的價(jià)格感到滿意,認(rèn)為景區(qū)的商品性價(jià)比還是很高的,甚至有些還是免費(fèi)給游客提供的,這主要體現(xiàn)在“劃算”,“便宜”,“免費(fèi)”,“優(yōu)惠”,“性價(jià)比”等高頻詞上。通過(guò)對(duì)正面印象進(jìn)行主題提取時(shí)發(fā)現(xiàn)對(duì)游客選擇目的地最大的因素依次是游玩體驗(yàn)、環(huán)境質(zhì)量、服務(wù)感知和價(jià)格因素。在負(fù)面評(píng)論中也主要體現(xiàn)在四個(gè)方面,一是對(duì)景區(qū)的服務(wù)質(zhì)量感到不滿意,主要體現(xiàn)在“不滿”,“態(tài)度”,“差勁”,“糟糕”,“失望”等高頻詞上;二是對(duì)景區(qū)娛樂(lè)項(xiàng)目數(shù)量不足,經(jīng)常要排隊(duì)感到不滿意,主要體現(xiàn)在“辛苦”,“排隊(duì)”,“秩序”,“素質(zhì)”,“人多”等高頻詞上;三是對(duì)景區(qū)內(nèi)部商品價(jià)格太高的吐糟,隨著無(wú)紙幣化進(jìn)程的推進(jìn),還有些商家不提供電子支付,只收取現(xiàn)金,這主要體現(xiàn)在“不值”,“太貴”,“商業(yè)化”,“坑人”,“現(xiàn)金”等高頻詞上;四是對(duì)景區(qū)管理的不滿意,在一些比較危險(xiǎn)的地方,甚至不安裝護(hù)欄,給旅游造成了一定的安全隱患,這主要體現(xiàn)在“管理”,“混亂”,“危險(xiǎn)”,“垃圾”,“廁所”等高頻詞上。通過(guò)對(duì)負(fù)面印象進(jìn)行主題提取時(shí)發(fā)現(xiàn)對(duì)游客選擇目的地最大的因素依次是服務(wù)感知、游玩體驗(yàn)、價(jià)格因素和景區(qū)管理。1.2.3LDA主題建模的結(jié)果主題建模結(jié)果包含了多個(gè)主題,主題建模結(jié)果包含了多個(gè)主題,通過(guò)設(shè)置參數(shù)來(lái)選擇主題數(shù)量,得到的主題包括對(duì)應(yīng)的主題詞以及主題詞對(duì)應(yīng)的權(quán)重,按照權(quán)重的大小排序,篩選出該主題下可能的主題詞。本文將模型參數(shù)設(shè)定主題數(shù)量為9,關(guān)鍵詞數(shù)量為10,提取結(jié)果如下所示:Topic1:0.012*"方便"+0.012*"索道"+0.011*"公交"+0.011*"停車場(chǎng)"+0.011*"特色"+0.010*"排隊(duì)"+0.010*"危險(xiǎn)"+0.009*"排隊(duì)"+0.008*"護(hù)欄"+0.008*"垃圾桶"。Topic2:0.025*"滕王閣"+0.013*"廬山"+0.011*"三清山"+0.010*"龜峰"+0.010*"大覺(jué)山"+0.009*"龍虎山"+0.009*"婺源"+0.008*"明月山"+0.006*"井岡山"+0.005*"景德鎮(zhèn)"。Topic3:0.065*"方便"+0.051*"取票"+0.043*"優(yōu)惠"+0.026*"訂票"+0.025*"便宜"+0.023*"小貴"+0.022*"價(jià)格"+0.019*"門(mén)票"+0.018*"坑人"+0.016*"合適"。Topic4:0.029*"駱駝峰"+0.021*"丹霞地貌"+0.020*"瀑布"+0.015*"懸棺"+0.013*"竹筏"+0.013*"漂流"+0.011*"便捷"+0.010*"道教"+0.010*"棧道"+0.009*"特色"。Topic5:0.047*"特色"+0.021*"服務(wù)"+0.020*"管理"+0.017*"不錯(cuò)"+0.015*"環(huán)境"+0.014*"遺憾"+0.013*"風(fēng)景區(qū)"+0.011*"旅行"+0.011*"窗口"+0.011*"景點(diǎn)"。Topic6:0.014*"態(tài)度"+0.012*"滿意"+0.010*"窗口"+0.008*"服務(wù)"+0.008*"不錯(cuò)"+0.007*"冷淡"+0.007*"景區(qū)"+0.007*"導(dǎo)游"+0.006*"說(shuō)話"+0.006*"熱情"。Topic7:0.012*"曬圖"+0.011*"全家"+0.011*"分享"+0.009*"拍照"+0.009*"商業(yè)化"+0.008*"不亞于"+0.008*"休閑游"+0.007*"網(wǎng)上"+0.008*"上傳"。Topic8:0.037*"風(fēng)景"+0.027*"山清水秀"+0.025*"干凈"+0.022*"秀麗"+0.021*"旅途"+0.020*"美麗"+0.020*"景色宜人"+0.019*"漂亮"+0.019*"不舍得"。Topic9:0.019*"開(kāi)心"+0.019*"刺激"+0.016*"快樂(lè)"+0.016*"好看"+0.016*"不錯(cuò)"+0.015*"不舍得"+0.015*"推薦"+0.014*"大贊"+0.013*"游玩"+0.013*"滿意"。根據(jù)LDA算法的運(yùn)行結(jié)果,得到145625條旅游評(píng)論數(shù)據(jù)文本和主題分布θi,j和主題的詞項(xiàng)分布φj,v,具體如表1.6和表1.7所示。θ1,2=0.4301表明評(píng)論文本1的主要內(nèi)容為T(mén)opic2的概率為0.4301。根據(jù)表1.8的高概率主題詞,可為每個(gè)主題命名,同時(shí)分析主題的內(nèi)容。表1.6所有旅游評(píng)論的主題分布θi,jTopic1Topic2Topic3Topic4Topic5Topic6Topic7Topic8Topic910.02410.43010.01310.06870.01320.06600.13990.04830.196220.01550.02910.01560.01550.01540.01580.01520.10200.776330.01620.01620.01620.01620.05940.05300.04940.07870.70411456230.02240.72180.02240.02240.02240.02240.09810.04480.02251456240.03150.71550.03160.03150.03160.03150.03150.06310.03161456250.03140.42010.03140.03140.03140.32820.03140.06280.0314表1.7旅游評(píng)論主題的7個(gè)概率詞主題主題的7個(gè)高概率詞Topic1方便索道公交停車場(chǎng)特色排隊(duì)危險(xiǎn)Topic2滕王閣廬山三清山龜峰大覺(jué)山龍虎山婺源Topic3方便取票優(yōu)惠訂票便宜小貴價(jià)格Topic4駱駝峰丹霞地貌瀑布懸棺竹筏漂流便捷Topic5特色服務(wù)管理不錯(cuò)環(huán)境遺憾風(fēng)景Topic6態(tài)度滿意窗口服務(wù)冷淡景區(qū)導(dǎo)游Topic7曬圖全家分享拍照商業(yè)化休閑游網(wǎng)上Topic8風(fēng)景山清水秀干凈秀麗旅途美麗景色宜人Topic9開(kāi)心刺激快樂(lè)好看不錯(cuò)不舍得推薦根據(jù)表1.7的主題-詞分布,本文只截取與主題相關(guān)的前7的高概率詞,發(fā)現(xiàn)主題內(nèi)部的詞高度相關(guān)。如Topic2中高概率詞“滕王閣”,“廬山”,“三清山”,“龜峰”,“大覺(jué)山”,“龍虎山”,“婺源”均與緊密相關(guān),這表明LDA模型在提取旅游評(píng)論數(shù)據(jù)的潛在主題方面是有效的,雖然LDA模型可以有效從大量數(shù)據(jù)集中挖掘出潛在的主題,但每個(gè)分類結(jié)果的主題到底如何凝練和表達(dá),并未形成標(biāo)準(zhǔn)或統(tǒng)一方法[43]。已有研究一般由研究者基于研究目標(biāo)自行判斷主題語(yǔ)義。因此,即使采用相同文本集合得到同樣的主題分類結(jié)果,不同研究者可能提煉出不同的主題語(yǔ)義。針對(duì)這一問(wèn)題,由不同參與者分別提煉主題后,判斷結(jié)果的相關(guān)性,減少主題凝練結(jié)果的主觀性。本文提出對(duì)每個(gè)主題的高概率特征詞進(jìn)基于旅游景區(qū)評(píng)價(jià)維度的方法,為L(zhǎng)DA分類結(jié)果的主題語(yǔ)義提煉提供標(biāo)準(zhǔn)和約束框架,以控制語(yǔ)義描述的一致性。因此,根據(jù)主題2中的前7個(gè)高頻詞,將Topic2命名為“地域關(guān)注度”;Topic1中高概率詞“方便”,“索道”,“公交”,“停車場(chǎng)”,“特色”,“排隊(duì)”,“危險(xiǎn)”均相關(guān),說(shuō)明游客對(duì)有危險(xiǎn)性的設(shè)施表露出了擔(dān)憂,有關(guān)方面應(yīng)根據(jù)游客的相關(guān)反饋予以相應(yīng)的解決,將Topic1命名為“旅游設(shè)施”;主題3中的“方便”,“取票”,“優(yōu)惠”,“訂票”,“便宜”,“小貴”,“價(jià)格”,體現(xiàn)了游客在旅游時(shí)會(huì)考慮到游玩時(shí)產(chǎn)生的成本,因此將Topic3命名為“價(jià)格感知”;在主題4中出現(xiàn)了較多的游玩項(xiàng)目,如“竹筏”和“漂流”等高頻詞,可以將Topic4命名為“游覽項(xiàng)目”;在主題5中出現(xiàn)了“服務(wù)”,“管理”,“不錯(cuò)”和“遺憾”等高頻詞,體現(xiàn)了游客對(duì)旅游景區(qū)管理的重視程度,因此,將Topic5命名為“景區(qū)管理”;主題6中出現(xiàn)了大量關(guān)于服務(wù)的一些詞匯,如“態(tài)度”,“滿意”,“服務(wù)”,“冷淡”等,將Topic6命名為“服務(wù)意識(shí)”;主題7中的“全家”,“拍照”,“曬圖”,“分享”,“網(wǎng)上”等高頻詞,體現(xiàn)旅游一般喜歡和自己的親人一起去游玩,而且喜歡將自己所聞所見(jiàn)發(fā)布在網(wǎng)上進(jìn)行分享,因此,可以將主題Topic7命名為“景區(qū)氛圍”;主題8中“山清水秀”,“秀麗”,“美麗”,“景色宜人”等高頻詞,無(wú)不體現(xiàn)出江西旅游景區(qū)的景觀讓游客贊不絕口,因此,將Topic8命名為“景觀質(zhì)量”;游客的直接感知體驗(yàn)包括“開(kāi)心”,“刺激”,“快樂(lè)”,“好看”,“不錯(cuò)”,“舍不得”和“推薦”,因此,將Topic9命名為“游玩體驗(yàn)”。1.3基于LDA改進(jìn)AHP的江西5A級(jí)旅游景區(qū)評(píng)價(jià)體系1.3.1確定旅游目的地的評(píng)價(jià)指標(biāo)根據(jù)LDA模型可以得到旅游景區(qū)評(píng)論的主題以及主題所對(duì)應(yīng)的概率值,如表1.8所示。計(jì)算各個(gè)主題所對(duì)應(yīng)的概率值的方法為:取表1.6中每條評(píng)論數(shù)據(jù)對(duì)應(yīng)的概率值得累加的平均值。從表中可以看出在旅游景區(qū)評(píng)價(jià)指標(biāo)中,游玩體驗(yàn)(0.206)表明游客在選擇旅游景區(qū)時(shí)最為看重游玩的體驗(yàn),這說(shuō)明一個(gè)旅游景區(qū)真正要想發(fā)展好,游玩體驗(yàn)、地域關(guān)注度、服務(wù)意識(shí)和景觀質(zhì)量缺一不可。地域關(guān)注度(0.164)表明旅游者選擇目的地時(shí),很看重的景區(qū)的知名度。此外,服務(wù)意識(shí)(0.119)、景觀質(zhì)量(0.117)和游覽項(xiàng)目(0.102)的概率值均大于0.1,其次是價(jià)格感知(0.098)、景區(qū)管理(0.086)、旅游設(shè)施(0.056)和景區(qū)氛圍(0.053)。當(dāng)通過(guò)LDA模型計(jì)算所有評(píng)論數(shù)據(jù)對(duì)應(yīng)的主題的概率值時(shí),可以用同樣的方法計(jì)算出每個(gè)旅游景區(qū)評(píng)論所對(duì)應(yīng)的概率值。表1.8旅游景區(qū)評(píng)論主題及對(duì)應(yīng)的概率值指標(biāo)(主題)內(nèi)容概率值旅游目的地評(píng)價(jià)指標(biāo)Topic1旅游設(shè)施0.056Topic2地域關(guān)注度0.164Topic3價(jià)格感知0.098Topic4游覽項(xiàng)目0.102Topic5景區(qū)管理0.086Topic6服務(wù)意識(shí)0.119Topic7景區(qū)氛圍0.053Topic8景觀質(zhì)量0.117Topic9游玩體驗(yàn)0.2061.3.2旅游目的地評(píng)價(jià)體系的建立通過(guò)LDA模型不僅能得出旅游目的地的評(píng)價(jià)指標(biāo),而且還可以計(jì)算出評(píng)價(jià)指標(biāo)對(duì)應(yīng)的權(quán)重。通過(guò)LDA算法計(jì)算出江西省11個(gè)5A級(jí)旅游景區(qū)對(duì)評(píng)價(jià)指標(biāo)的重要程度(權(quán)重),見(jiàn)附錄3,各風(fēng)景區(qū)的對(duì)應(yīng)評(píng)價(jià)主題的概率的計(jì)算方式:計(jì)算每條評(píng)論對(duì)應(yīng)主題的概率值的累加值,然后對(duì)累加值求平均。按照層次分析法的思路,如圖1-4所示,利用LDA模型計(jì)算出指標(biāo)層的權(quán)重以及方案層對(duì)應(yīng)指標(biāo)的權(quán)重,這樣就可以計(jì)算出每個(gè)旅游景區(qū)的綜合得分,進(jìn)而對(duì)他們進(jìn)行排序。結(jié)果如表1.9所示。婺源風(fēng)景區(qū)中其對(duì)應(yīng)的Topic5(景區(qū)管理)權(quán)重最高,值為0.090;滕王閣風(fēng)景區(qū)對(duì)應(yīng)Topic7(景區(qū)氛圍)權(quán)重最高,值為0.204;三清山風(fēng)景區(qū)評(píng)論中Topic5(景區(qū)管理)權(quán)重最高,對(duì)應(yīng)的值為0.211;瑞金風(fēng)景區(qū)對(duì)應(yīng)Topic3(價(jià)格感知)權(quán)重最高,其值為0.120;明月山風(fēng)景區(qū)旅游評(píng)論中對(duì)應(yīng)Topic3(價(jià)格感知)權(quán)重最高,值為0.104;廬山風(fēng)景區(qū)旅游評(píng)論中對(duì)應(yīng)Topic9(游玩體驗(yàn))權(quán)重最高,值為0.232;龍虎山風(fēng)景區(qū)旅游評(píng)論中對(duì)應(yīng)Topic5(景區(qū)管理)權(quán)重最高,值為0.117;景德鎮(zhèn)風(fēng)景區(qū)旅游評(píng)論中對(duì)應(yīng)Topic3(價(jià)格感知)權(quán)重最高,值為0.124;井岡山風(fēng)景區(qū)旅游評(píng)論中對(duì)應(yīng)Topic6(服務(wù)意識(shí))權(quán)重最高,值為0.212;龜峰風(fēng)景區(qū)旅游評(píng)論中對(duì)應(yīng)Topic8(景觀質(zhì)量)權(quán)重最高,值為0.120;大覺(jué)山風(fēng)景區(qū)旅游評(píng)論中對(duì)應(yīng)Topic5(景區(qū)管理)權(quán)重最高,值為0.083。圖1-4江西5A級(jí)景區(qū)層次結(jié)構(gòu)圖表1.9各旅游景區(qū)對(duì)應(yīng)的主題的概率值主題概率值婺源滕王閣三清山瑞金明月山廬山龍虎山景德鎮(zhèn)井岡山龜峰大覺(jué)山Topic10.0560.0560.1640.0980.0500.0860.1150.0530.1170.1060.1000.055Topic20.1640.0530.1700.1040.0720.1000.1500.0830.0910.0620.0700.045Topic30.0980.0820.0990.0550.1200.1040.1450.0600.1240.1040.0840.023Topic40.1020.0500.1070.0670.0940.0730.0890.0420.1230.2060.0780.061Topic50.0860.0900.1180.2110.0650.0690.1060.1170.0500.0640.0270.083Topic60.1190.0450.1450.0840.0650.0720.0930.0460.1120.2120.1000.026Topic70.0530.0530.2040.0980.0690.0790.1020.0460.0730.1550.0450.076Topic80.1170.0470.1260.1050.0290.0890.0920.0410.1080.2040.1200.039Topic90.2060.0700.1010.0680.0820.0820.2320.0570.0940.1150.0460.053綜合得分0.0610.1320.0940.0730.0850.1380.0620.0990.1340.0740.049排序1035861942711注:以上景區(qū)名由于表格篇幅原因全部省略“風(fēng)景區(qū)”。對(duì)于婺源景區(qū),其綜合得分為X1,最終計(jì)算X1為0.061。由表1.9可知,婺源景區(qū)在Topic6(服務(wù)意識(shí))的概率值最低,這體現(xiàn)該景區(qū)在今后應(yīng)該著力提升景區(qū)的服務(wù)意識(shí),不斷提高游客滿意度。滕王閣景區(qū),其綜合得分為X2,最終計(jì)算X2為0.132。由表1.9可知,滕王閣景區(qū)在Topic3(價(jià)格感知)的概率值最低,這體現(xiàn)該景區(qū)在今后應(yīng)該著力降低旅游景區(qū)的消費(fèi)價(jià)格,可以豐富景區(qū)內(nèi)的游覽項(xiàng)目,通過(guò)薄利多銷的方式提高景區(qū)的收入。三清山風(fēng)景區(qū),其綜合得分為X3,最終計(jì)算X3為0.094。由表1.9可知,三清山景區(qū)在Topic9(游玩體驗(yàn))的概率值最低,游玩體驗(yàn)作為景區(qū)間競(jìng)爭(zhēng)的王牌,這體現(xiàn)該景區(qū)在今后應(yīng)該著力提升景區(qū)的游玩體驗(yàn),不斷提高游客滿意度。瑞金風(fēng)景區(qū),其綜合得分為X4,最終計(jì)算X4為
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電梯建設(shè)工程合同范本
- 恒大土建合同范本
- 出售空中商鋪合同范本
- 玩具委托設(shè)計(jì)合同范本
- 花崗巖界樁采購(gòu)合同范本
- 房屋過(guò)戶合同范本模板
- 充電樁充電合同范本
- 奧迪賣車合同范本
- 家具定向合同范本
- 2025建筑工程監(jiān)理合同示范文本(GF)
- 《Python程序設(shè)計(jì)基礎(chǔ)教程(微課版)》全套教學(xué)課件
- 牧場(chǎng)物語(yǔ)-礦石鎮(zhèn)的伙伴們-完全攻略
- 汽車營(yíng)銷知識(shí)競(jìng)賽題庫(kù)及答案(295題)
- 腎病綜合征的實(shí)驗(yàn)室檢查
- 2024年河北省邢臺(tái)市中考一模理綜物理試題(解析版)
- DL∕T 1753-2017 配網(wǎng)設(shè)備檢修試驗(yàn)規(guī)程
- 深基坑專項(xiàng)方案論證流程
- 《創(chuàng)業(yè)基礎(chǔ)》課件-第五章 創(chuàng)業(yè)計(jì)劃
- 列寧人物課件
- 數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用-課程標(biāo)準(zhǔn)
- 《巍巍井岡山》參考課件
評(píng)論
0/150
提交評(píng)論