




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第三章電子商務信息搜集主要內容3.1、電子商務信息搜集途徑3.2、Web2.0環境下電子商務信息搜集3.3、關鍵績效指標信息3.4、電子商務信息數據挖掘2023/2/513.1.1搜索引擎搜索引擎采用“機器人”、“蜘蛛”、“爬蟲”等軟件不間斷地在網上抓取網頁信息,并建立相應索引數據庫,從而實現對用戶提出的各種查詢做出響應。
美國:google、雅虎等
中國:百度、搜狗等2023/2/523.1電子商務信息搜集途徑搜索引擎基本結構數據采集:Robot定期對Web站點的網頁進行遍歷,將搜集的頁面信息存入到“網頁數據庫”標注索引:對搜集數據的內容分析和分詞,構建倒排索引表數據檢索:根據用戶查詢請求,在索引庫中查詢匹配2023/2/532023/2/54Robot搜集數據庫Indexer索引數據庫UserProfile檢索器用戶接口數據挖掘Web1)標注索引2023/2/55例:0號文件內容:itiswhatitis1號文件內容:whatitis2號文件內容:itisabanana倒排序列表如作圖所示:
2023/2/56分詞文件序號a2banana2is0,1,2it0,1,2what0,1若檢索條件是:
“what”*“is”*“it”{0,1}∩{0,1,2}{0,1,2}={0,1}2023/2/57例:0號文件內容:重慶南方翻譯學院1號文件內容:重慶南方集團2號文件內容:渝北回興南方翻譯學院則其倒排列表為:2023/2/58分詞結果文件序號
重慶0,1
南方0,1,2
翻譯0,2
學院0,2
集團1渝北2回興2
檢索條件檢索結果
“南方”*“學院”{0,1,2}∩{0,2}={0,2}“重慶”*“集團”{0,1}∩{1}={1}“回興”+“重慶”{2}∪{0,1}={0,1,2}2023/2/592)檢索表達式構造方法(i)布爾邏輯檢索策略檢索符:*,+,-(ii)截詞檢索策略檢索符:*(任意多個字符),
?(任意一個字符)比如:張*,張?(iii)限制檢索策略“Title”,
”keywords”,”mp3”,”author”2023/2/510(iv)位置邏輯檢索策略
常用檢索符:W,N,FWith(W):A(nW)B表示詞A與詞B之間最多可以插入n個其他詞,詞A與詞B前后順序不變;Near(N):A(nN)B表示詞A與詞B之間最多可以插入n個其他詞,詞A與詞B不必保持前后順序;2023/2/511
Field(F):A(F)B表示詞A與詞B必須同時出現在一個字段中,如同時出現在摘要,關鍵字,篇名中;各詞之間可以插入任意個其他詞,詞序任意變化;2023/2/5123.1.2目錄檢索雅虎,galaxy,搜狐,美國虛擬圖書館等,按類別提供相應的網絡資源地址3.1.3網絡站點3.1.4網絡數據庫知網,萬方,維普等3.1.5隱形網絡2023/2/5133.2、Web2.0環境下電子商務信息搜集Web2.0環境下搜集方式1)blog:網絡日志,以網絡作為載體,用戶對相關話題發表自己的觀點,及時與他人交流的個性化平臺。主要通過企業和公司的博客獲得有價值商務信息。2023/2/5142)Tag:是更為有趣、靈活的分類方式,通過對文檔日志添加不同的標簽實現多種分類。比如:您寫了一篇北京旅游的日志,原先都放到自己的“游記”分類下,但是有了Tag之后,您可以給這篇日志同時加上“旅游”,“北京”,“天安門”,“長城”等幾個Tag,當瀏覽者點擊任意一個Tag時,都會看到您的日志。2023/2/515RSS(RichSiteSummary):豐富的站點摘要2023/2/516
常用的RSS閱讀器Googlereader新浪點點通閱讀器AbotNewsReader2023/2/5173.3、關鍵績效指標信息2023/2/518網站類型
網站經營內容關鍵績效指標
電子交易網站網絡購物成交數量平均單筆成交額平均單筆成交品種注冊登錄分布業務統計離線交易頻率新老訪客比
品牌推介網站吸引客戶認識、接納特定品牌的商品平均逗留時間訪問深度訪問間隔訪問頻率訪客與非訪客平均單筆交易額之比客戶滿意度調查品牌形象變化調查2023/2/519網站類型
網站經營內容關鍵績效指標
信息產品內容服務網站以游戲、文獻資料、多媒體、證書認證等與客戶交易每周訪客數量廣告點擊率新老客戶比訪問間隔訪問頻率訪客黏度3.4、電子商務信息數據挖掘數據挖掘:從大量的、不完全的、有噪聲的數據中提取有用知識的過程。數據挖掘主要方法有:統計分析(相關分析、因子分析、回歸分析)、分類(貝葉斯、決策樹、人工神經網絡,支持向量機等)、聚類(k-means聚類、密度聚類)、關聯規則分析(APRIORI)2023/2/5203.4.1Bayes分類以概率論為依據,由先驗概率推導出后驗概率托馬斯·貝葉斯(1701-1761)英國牧師和數學家。為了證明上帝的存在,他提出了概率統計學原理。遺憾的是,他的美好愿望至今未能實現。貝葉斯理論廣泛應用于人工智能,統計決策等領域。2023/2/5211)條件概率定義設A,B兩個隨機事件,且P(A)>0.稱
為A事件發生的條件下B事件發生的概率2023/2/522例:將一枚硬幣拋擲兩次,觀察正反面的情況,設A為“至少有一次為H”,事件B為“兩次擲出同一面”,求已知事件A已經發生的條件下事件B發生的概率。樣本空間(隨機試驗所有可能結果組成的集合)為S={HH,HT,TH,TT};事件A={HH,HT,TH},事件B={HH,TT}
2023/2/5232)劃分的定義設S為隨機試驗E的樣本空間,B1,B2,…,Bn為E的一組事件(樣本空間的子集),若(i)Bi∩Bj=?,i≠j,i,j=1,2,…,n(積事件)(ii)B1,∪B2∪,…,∪Bn
=S(和事件)則稱B1,B2,…,Bn為E的一個劃分。
2023/2/524例:設隨機試驗E為“擲一顆骰子觀察其點數”,其樣本空間為S={1,2,3,4,5,6},則E的一組事件B1={1,2,3},B2={4,5},B3={6}是S的一個劃分;C1={1,2,3},C2={3,4},C3={5,6}不是S的一個劃分。2023/2/5253)全概率公式設S為隨機試驗E的樣本空間,B1,B2,…,Bn為E的一個劃分,且P(Bi)>0(i=1,2,…,n),則稱P(A)=P(AB1)+P(AB2)+…..+P(ABn)=P(A|B1)P(B1)+P(A|B2)P(B2)+…..+P(A|Bn)P(Bn)為全概率公式。2023/2/526在許多實際問題中,P(A)不容易直接求得,但卻容易找到S的一個劃分B1,B2,…,Bn并且P(Bi)和P(A|Bi)容易得到,此時就可用全概率。2023/2/527例:某一個電子設備制造廠所用的元件由三家元件制造廠提供,以往記錄有以下數據,設這三家工廠產品在倉庫均勻混合,且無區別標志在倉庫中隨機取一只元件,求它是次品的概率2023/2/528元件制造廠
次品率份額10.020.1520.010.8030.030.05設A表示“取到的是一只次品”,Bi(i=1,2,3)表示“取到的產品是由第i家工廠提供”,則B1
,
B2
,B3是樣本空間的一個劃分。P(B1)=0.15,P(B2)=0.80,P(B3)=0.05P(A|B1)=0.02,P(A|B2)=0.01,P(A|B3)=0.03由全概率公式可知P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+P(A|B3)P(B3)=0.0125
2023/2/5294)貝葉斯公式設S為隨機試驗E的樣本空間,A為E的事件,B1,B2,…,Bn為E的一個劃分,且P(A)>0P(Bi)>0(i=1,2,…,n),則稱為貝葉斯公式2023/2/530依上例,在倉庫中隨機取一只元件,若它是次品,求此次品有那家工廠生產的概率最大由貝葉斯公式得:2023/2/5313.4.2決策樹分類算法決策樹的基本思想:(1)在數據集的所有非類別屬性中找出一個最具有分辨能力(提供信息量最大)的屬性作為樹根節點,并用其將數據集分成若干子集,對每一個子集重復上述操作,直到所有的子集都只含有同類型數據。(2)用得到的決策樹新樣本分類2023/2/532廣泛使用的決策樹算法有:ID3(重點講解)、C4.5等ID3引入信息論中的互信息(信息增益),作為判斷非類別屬性分辨能力的度量,即計算各個非類別屬性與類別屬性的互信息,找出最大者作為決策樹的根節點,直到所有的子集都只含有同類型數據。2023/2/5332023/2/534NoOutlookTemperatureWindyHumidityPlay1sunnyhotfalsehighno2sunnyhottruehighno3overcasthotfalsehighyes4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno7overcastcooltruenormalyes8sunnymildfalsehighno9sunnycoolfalsenormalyes10rainmildfalsenormalyes11sunnymildtruenormalyes12overcastmildtruehighyes13overcasthotfalsenormalyes14rainmildtruehighno2023/2/535特點:每一個非葉子節點代表一個屬性;每一個弧代表一個屬性的取值;每個葉子節代表一個類別;2023/2/536相關公式:設類別屬性U的屬性取值為{u1,u2,…,un}非類別屬性V的屬性取值為{v1,v2,…,vm}則,類別屬性U的先驗熵(平均信息量)為其中,為屬性值ui出現的概率2023/2/537屬性V的不同取值相對于U的后驗熵為U相對于V的條件熵U相對于V的信息增益2023/2/5382023/2/539NoOutlookTemperatureWindyHumidityPlay1sunnyhotFalsehighno2sunnyhottruehighno3overcasthotfalsehighyes4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno7overcastcooltruenormalyes8sunnymildfalsehighno9sunnycoolfalsenormalyes10rainmildfalsenormalyes11sunnymildtruenormalyes12overcastmildtruehighyes13overcastHotfalsenormalyes14rainMildtruehighno非類別屬性類別屬性OutlookTemperatureWindyHumidityPlaySunny(5)Overcast(4)Rain(5)Hot(4)Mild(6)Cool(4)True(6)False(8)High(7)Normal(7)Yes(9)No(5)2023/2/540構造上表數據的決策樹計算類別屬性play的先驗熵
2023/2/541outlook屬性信息增益1)計算outlook屬性取值的后驗熵2023/2/542nooutlookplay1sunnyno2sunnyno3overcastyes4rainyes5rainyes6rainno7overcastyes8sunnyno9sunnyyes10rainyes11sunnyyes12overcastyes13overcastyes14rainno2)計算outlook屬性的條件熵3)計算outlook屬性的互信息(信息增益)2023/2/543humidity屬性信息增益1)計算取值的后驗熵2023/2/544nohumidityplay1highno2highno3highyes4highyes5normalyes6normalno7normalyes8highno9normalyes10normalyes11normalyes12highyes13normalyes14highno2)計算條件熵3)計算信息增益2023/2/545windy屬性信息增益1)計算取值的后驗熵2023/2/546nowindyplay1Falseno2trueno3falseyes4falseyes5falseyes6trueno7trueyes8falseno9falseyes10falseyes11trueyes12trueyes13falseyes14trueno2)計算條件熵3)計算信息增益2023/2/547temperature屬性信息增益1)計算后驗熵2023/2/548notemperatureplay1hotno2hotno3hotyes4mildyes5coolyes6coolno7coolyes8mildno9coolyes10mildyes11mildyes12mildyes13Hotyes14Mildno2)計算條件熵3)計算temperature屬性劃分后的信息增益2023/2/549比較不同屬性的信息增益,選出信息增益最大的屬性作為樹根節點因此,選擇outlook屬性作為樹根節點2023/2/550構造決策樹根節點2023/2/551數據子集1數據子集22023/2/552NoOutlookTemperatureWindHumidityPlay1sunnyhotFalsehighno2sunnyhottruehighno8sunnymildfalsehighno9sunnycoolfalsenormalyes11sunnymildtruenormalyesNoOutlookTemperatureWindHumidityPlay3overcasthotfalsehighyes7overcastcooltruenormalyes12overcastmildtruehighyes13overcastHotfalsenormalyes數據子集32023/2/553NoOutlookTemperatureWindHumidityPlay4rainmildfalsehighyes5raincoolfalsenormalyes6raincooltruenormalno10rainmildfalsenormalyes14rainMildtruehighno確定數據子集(1)的根節點計算數據子集(1)的先驗熵2023/2/554數據子集(1)下Humidity屬性的信息增益1)計算數據子集(1)下humidity屬性取值的后驗熵2023/2/555nohumidityplay1highno2highno8highno9normalyes11normalyes2)計算數據子集(1)下humidity屬性的條件熵3)計算數據子集(1)下humidity屬性的信息增益2023/2/556數據子集(1)下windy屬性的信息增益1)計算數據子集(1)下windy屬性的取值后驗熵2023/2/557NoWindyPlay1Falseno2trueno8falseno9falseyes11trueyes2)計算數據子集(1)下windy屬性的條件熵3)計算數據子集(1)下windy屬性的信息增益2023/2/558數據子集(1)下temperature屬性的信息增益1)計算數據子集(1)下temperature屬性取值的后驗熵2023/2/559NoTemperaturePlay1hotno2hotno8mildno9coolyes11mildyes2)計算數據子集(1)下temperature屬性的條件熵3)計算數據子集(1)下temperature屬性的信息增益2023/2/560在數據集(1)下,比較不同屬性的信息增益,選出信息增益最大的屬性作為樹根節點因此,選擇humidity屬性作為數據集(1)的樹根節點2023/2/561構造子樹根節點
2023/2/562構造子樹根節點
2023/2/563確定數據子集(3)的根節點計算數據子集(3)的先驗熵2023/2/564數據子集(3)下windy屬性的信息增益1)計算數據子集(3)下windy屬性取值的后驗熵2023/2/565NoWindyPlay4falseyes5falseyes6trueno10falseyes14trueno2)計算數據子集(3)下windy屬性的條件熵3)計算數據子集(3)下windy屬性的信息增益2023/2/566數據子集(3)下temperature屬性的信息增益1)計算數據子集(3)下temperature屬性取值的后驗熵2023/2/567NoTemperaturePlay4mildyes5coolyes6coolno10mildyes14Mildno2)計算數據子集(3)下temperature屬性的條件熵3)計算數據子集(3)下temperature屬性的信息增益2023/2/568在數據子集(3)下,比較不同屬性的信息增益,選出信息增益最大的屬性字樹根節點因此,選擇windy屬性作為數據集(3)的樹根節點2023/2/569構造子樹根節點
rain,cool,normal,falseno/yes?2023/2/5703.4.2K-means聚類算法K-means聚類思想:根據“物以類聚”的思想,將沒有類別的樣本聚集成不同的組(簇),使得簇內緊湊,簇間疏遠。2023/2/5712023/2/572歐氏距離給定數據集合X={xi|i=1,2,3,..,n},其中,xi的維度為d,即樣本xi=(xi1,xi2,….,xid),樣本xj=(xj1,xj2,….,xjd);規定樣本xi和xj歐氏距離為:
2023/2/573k-means聚類算法采用誤差平方和準則函數評價聚類性能。假設數據集X包含k個聚類子集X1,X2,…,Xk;各個聚類子集的聚類中心分別為m1.m2…,mk,則誤差平方和準則函數為2023/2/574k-means聚類算法描述:輸入:N個d維聚類樣本
,聚類簇數k輸出:k個聚類簇,使得誤差平方和準則足夠小或聚類簇不再發生變化Step1:為每個聚類簇確定一個聚類中心Step2:將樣本集中的樣本按照最小距離原則最鄰近簇中;Step3:計算每個簇中樣本的均值,并將其作為該簇的新聚類中心Step4:重復step2,step3,直到誤差平方和準則足夠小或聚類中心不再發生變化2023/2/575例:利用k-means算法將以下用戶分成兩類2023/2/576U
消費金額(萬元)未消費金額(萬元)u102u200u31.50u450u552(1)選擇u1(0,2),u2(0,0)為初始簇中心,對應簇分別為C1,C2
即m1=u1=(0,2),m2=u2=(0,0)(2)對剩余的用戶數據,根據其到每個簇中心的距離,劃分到不同簇中對u3
則把u3劃分到簇C2中
2023/2/577對u4
則把u4劃分到簇C2中對u5
則把u5劃分到簇C1中2023/2/578得到新簇C1={u1,u5,},C2={u2,u3,u4,}計算平方誤差準則E1=|0-0|2+|2-2|2+|5-0|2+|2-2|2=25E2=|0-0|2+|0-0|2+|1.5-0|2+|0-0|2+|5-0|2+|0-0|2=27.25E
=E1+E2=25+27.25=52.252023/2/579計算簇的新聚類中心m1=((0+5)/2,(2+2)/2)=(2.5,2)m2=((0+5+1.5)/3,(0+0+0)/3)=(2.17,0)80U
消費金額(萬元)未消費金額(萬元)u102u552U
消費金額(萬元)未消費金額(萬元)u200u31.50u450以新聚類中心為基礎,重新對所有樣本劃分簇對樣本u1
則把u1劃分到簇C1中2023/2/581對樣本u2
則把u2劃分到簇C2中對樣本u3
則把u3劃分到簇C2中2023/2/582對樣本u4
則把u4劃分到簇C2中對樣本u5
則把u5劃分到簇C1中2023/2/583得到新簇C1={u1,u5,},C2={u2,u3,u4,}重新計算平方誤差準則E1=|0-2.5|2+|2-2|2+|5-2.5|2+|2-2|2=12.5E2=|0-2.17|2+|0-0|2+|1.5-2.17|2+|0-0|2+|5-2.17|2+|0-0|2=13.17E
=E1+E2=12.5+13.17=25.672023/2/5843.4.3Apriori關聯規則分析算法美國沃爾瑪超市中有趣的現象:啤酒和尿布擺放在同一貨架2023/2/5852023/2/586Apriori算法描述CkCandidateitemsetofsizekLkFrequentitemsetofsizekC1={allCandidatesitemsetofsize1fromDB}L1={CandidatesitemsetinC1withmin_support}For(k=1;Lk!=?;k++)dobeginCk=CandidatesgeneratedfromLk-1
foreachtransactiontinDBdoincrementthecountofallcandidatesinCkthatarecontainedint
Lk={CandidatesitemsetinCkwithmin_supportendreturnUkLk
87兩步驟:1)產生頻繁項集:發現滿足支持度大于閾值的所有項;
2)產生關聯強規則:從上述頻繁項目集中提取大于置信度閾值的規則。相關概念項集:包含0個或多個項的集合k-后選項集:包含k個項的項集支持度:k-后選項集中k項在事務集中出現的次數k-頻繁項集:k-后選項集中支持度大于閾值的項的集合置信度confidence(AB)=support_count(AUB)/support_count(A)2023/2/588
2023/2/589交易序號
銷售商品1咖啡,果醬,冰激凌2面包,果醬,牛奶3牛奶,果醬,面包,咖啡4面包,牛奶Isetsup{牛奶}3{冰激凌}1{果醬}3{咖啡}2{面包}32候選項目集C21頻繁項目集L1Isetsup{牛奶}3{果醬}3{咖啡}2{面包}3Isetsup{牛奶
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 汞中毒患者的護理
- 外匯和配套人民幣借款合同范例二零二五年
- 電腦維護合同模板
- 主播合同經紀協議二零二五年
- 二手房屋買賣協議書樣本
- 二零二五合同簽訂授權委托書
- 店面租賃合同參考示例
- 期末數學四上試卷及答案
- 七下期末試卷福建及答案
- 秦腔基礎知識
- 工程爆破實用手冊
- 《犯罪學》教學大綱
- 詩歌藝術手法:《揚州慢》【知識精講+備課精研】 高二語文課內知識點拓展延伸(統編版選擇性必修下冊)
- GA/T 1509-2018法庭科學現場制圖規范
- 臨床醫學概要課件
- 模板及支撐計算書
- 中醫藥方大全教學教材
- 電信智慧家庭工程師3級認證考試題庫-下(判斷題大全)
- 海綿鈦生產工藝
- 整數與小數的認識整理與復習課件
- 會計報表 資產負債表02
評論
0/150
提交評論