信息分布教材_第1頁
信息分布教材_第2頁
信息分布教材_第3頁
信息分布教材_第4頁
信息分布教材_第5頁
已閱讀5頁,還剩81頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二章信息分布

2.1信息產生與分布中的馬太效應2.1.1馬太效應的表現和作用形式1、信息產生和分布中的“馬太效應”

在社會信息流的產生、傳遞和利用過程中,發現信息及相關因素常常表現出明顯的核心趨勢和集中取向,如少數出版社會成為某類圖書的權威(核心)出版機構,為數不多的科學期刊因刊載了某學科領域的大量論文而成為該領域的核心期刊,少數作者(即信息生產者)因寫得最多、被引率最高而成為某一領域的核心作者,少數網站集中了大量用戶,傳遞功能強的詞匯被經常選用,SCI中80%的引文集中在15%~20%的期刊中等等現象

2、馬太效應的由來

馬太效應是美國學者R

.

默頓引用圣經《新約全書·馬太福音》中的一段話:“……誰若有,就給他,并不斷增加;而誰沒有,則連已有的都要被奪走”。

馬太效應真實地概括人類社會生活中的慣性,描述了優勢和劣勢的積累過程:一經存在有優勢,這種優勢局面就會不斷加強,反之若處于劣勢,則這種不利條件也會繼續加劇。

3、馬太效應的內在機制

馬太效應是人類社會特有的選擇機制支配的結果。在這種選擇作用下,當一系列同類對象被選擇時,有的經常被選擇,有的不常被選擇,這種頻度不均勻的選擇結果,實際上表征著對象之間個體特性方面的差異,其本身又可以反過來作為再次選擇的依據。如果我們把對象受到一次選擇看成一次成功,那么,這種成功的累積必然使得該對象具有突出的優勢,從而引致新的成功。以科學論文而言,兩篇同樣水平的文章,一篇是新作者,另一篇是知名度較高的老作者。由于新作者缺乏“成功”的積累,其論文入選可能性很低,甚至決然沒有,而反之老作者具有較多的“成功”積累,名氣較大,論文發表可能性很大,“還要給他,并不斷增加”,這樣高產作者就逐漸出現,并形成一個核心群體。于是在信息生產的社會實踐中,“強者”與“弱者”愈漸分明,乃至懸殊。論文(信息)的數量上便出現嚴重傾斜。2.1.2馬太效應的負面影響1、信息工作簡單化

馬太效應描述信息對象的優勢和劣勢過度積累,容易使信息工作者按簡單的優劣進行信息的選擇、評價、傳播和利用,走入極端,使信息工作者因循守舊、不思進取,不求變革創新,按經驗和簡單的規則從事復雜多變的信息管理工作。2、信息聚集與信息價值的評價誤差

馬太效應所形成的信息分布富集有時僅僅是表面的、外在的。例如一篇論文被引次數多并不一定表明它有較高的價值,一些有錯誤觀點或有爭議的論文也可能有較高的被引率。3、信息聚集效應的統計誤差

優勢積累過程帶有突發性和受統計學因素的影響,使得信息價值失真。

4、信息聚集的研究過程的不足核心信息源是馬太效應優勢積累的結果,由于其所含相關信息密度大,一直是信息服務機構選擇和管理的重點對象。但如果過分注重核心信息源,就會忽略分布在其他信息源中有價值的信息。而核心信息源(如核心期刊)本身有一個發育過程,如果不加以控制,任其在某一方面的優勢過度積累,高度專門化,其所含的信息就會越來越單一,這對部分用戶可能有利,但它卻會失去更多的用戶。

5、限制信息創新

信息生產者的成長和數量無疑對信息的產生和分布具有較大影響,馬太效應青睞名人、拒絕新人的習慣勢力不利于新人成長,限制了新思想、新知識和新信息的產生及傳播。2.2信息生產者分布規律2.2.1洛特卡定律

1926年,在美國一家人壽保險公司供職的統計學家洛特卡經過大量統計和研究,在美國著名的學術刊物《華盛頓科學院學報》上發表了一篇題名為“科學生產率的頻率分布”的論文,旨在通過對發表論著的統計來探明科技工作者的生產能力及對科技進步和社會發展所作的貢獻。這篇論文發表后并未引起多大反響,直到1949年這一研究成果才引起學術界關注,并譽之為“洛特卡定律”。

洛特卡選擇美國《化學文摘》和德國奧爾巴赫《物理學史一覽表》為數據源研究科技工作的論著數量分布。他統計分析了《化學文摘》1907~1916年10年累積索引中的部分作者,即姓氏以字母A和B開頭的6891位作者。分別列出發表過1篇、2篇,一直到346篇論文的人數。《物理學史一覽表》包括了1900年前物理學領域內出現的1325位物理學家及其論著,取其全部數據進行統計。

洛特卡定律的圖形描述

洛特卡以論文數(x)和作者數(yx)的對數為橫坐標和縱坐標(即logx和logyx)作圖,兩組數據都是直線(如圖所示)。圖中虛線表示《化學文摘》數據,實線代表《物理學史一覽表》的數據。用最小二乘法計算擬合直線的斜率,近似為-2。LogyxLogx10532151253010020洛特卡定律的數學描述

根據洛特卡分析,在論文數x和作者數yx之間存在下列關系:式中,yx

是發表了論文x篇的作者數,n和c是對應于這一典型數據集合而估計出來的兩個常數,n的數值在2上下波動。通過變換可以得到下面的公式:=令f(yx)=,實際表示寫x篇論文的作者出現的頻率,C=,表示作者取樣總數的比例,這樣可以寫成:f(yx)=這就是著名的平方反比分布現求常數C。令x=1,2,…,n,…,則f(yx)分別為f(y1),f(y2),…,f(yn)…,我們有:

兩邊取累積和:2.2.2普賴斯定律

受洛特卡定律的啟示,普賴斯提出了核心生產者分布的“平方根定律”,在某一特定領域中,全部論文的半數系由該領域中全部作者的平方根的那些人撰寫的.“那些人”無疑是核心或高產作者。

該定律可表示為:

=(3-6)

式中,n(x)為撰寫x篇論文的作者數;I=nmax為該學科規定時期內最高產的作者數;N為該學科領域全部作者總數。m可由下式確定:

=(3-7)2.3信息離散分布規律2.3.1布拉德福定律

英國著名文獻信息學家布拉德福發現,某一學科領域中的相關論文在期刊中的分布是不均勻的,而且具有明顯的集中與分散規律。他在長期的觀察和統計基礎之上,提出了有名的“布拉德福分散定律”

(BradfordsLawofScattering),簡稱為布拉德福定律或布氏定律:“如果將科學期刊按其刊載某個學科主題的論文數量,以遞減順序排列起來,就可以在所有這些期刊中區分出載文率最高的‘核心’部分和包含著與核心部分同等數量論文的隨后幾區,這時核心區和后繼各區中所含的期刊數成1∶a∶a2的關系(a>1)。”這就是布拉德福定律的區域表述形式。

應用地球物理學論文的布氏分布

對于布拉德福當時統計的應用地球物理學的數據,a約等于5。如表3-1所示,將所有的期刊劃分為3個區,使每區論文數大致相等,則期刊數服從布拉德福定律,即:

9∶55∶258≈1∶5∶25分區期刊載文量(篇/年)期刊數量論文數量1>4942921-45549931258408布拉德福定律圖形描述

如果橫坐標取期刊按載文量遞減排列時的順序號n的對數,縱坐標取1至n號期刊所載論文的累積數,我們將繪制出的曲線稱為布拉德福分散曲線。布拉德福分散曲線R(n)CBDNLogenR(N’)COAR(N)n1R(n1)N’布拉德福分散曲線由三部分構成,先是一段上升的曲線AC,然后是一段直線CB,最后是下垂的曲線。B.C.布魯克斯用下述模式來表示布拉德福定律:

R(n)=αnβ(1≤n≤C)…………(3-15)R(n)=klog(n/s)(C≤n≤N)…………(3-16)曲線上BD部分只是近似地滿足(3-16)式。式中:R(n)——相關論文累積數。n——雜志等級排列的序號(級)。α——第一級雜志中的相關文章數R(1)。也就是載文章最高的雜志中的相關文章數。C——“核心區”中的雜志數量。N——等級排列的雜志總數。k,s——待定參數,k等于分布曲線中直線部分的斜率,可用實驗方法求得。當N足夠大時,k≈N。β——參數,與收藏的雜志(核心中雜志)數量有關,大小等于分布圖中曲線部分的曲率,β總小于1。式(3-15)和(3-16)就是布拉德福定律的圖形表述形式。彎曲下垂部分BD,我們稱為格魯斯下降,這說明,布拉德福曲線在進入直線部分后,并非無休止地延伸下去,后來總要下垂,關于下垂的原因,目前已經從數學上得到解釋。布氏定律的維克利解釋B.維克利(B.C.Vickery)修正了布拉德福模式,他將雜志分區的數目推廣到n>3的普遍情形。設將載有某一學科相關論文的雜志分為m個區,使每一區的論文數量相等,各區中期刊的數量n1,n2,n3,…,nm有如下關系:

T1:T2:T3:…:Tm=1:b;b2:…:bm-1(b為維氏分布系數)Tm=n1+n2+n3+…+nm=N,N為雜志總數3、布拉德福定律的內在機理

文獻為什么會分散呢?我們可以這樣設想,在某一新的學科中,寫第一批論文時,人們首先把它寄給最合適的雜志發表。這些雜志伴隨著該學科的發展,刊載越來越多的這類文章。投稿數量大大增加,使雜志選擇性增大,因而對文章的質量要求提高,雜志的威信也日益提高,這就產生了一些帶“核心”性質的雜志,這種現象就是文獻分布中的“堆加”效應。與此同時,有關這一學科的文章也在其他雜志上發表,這就產生了集中與分散的現象。

由上可見,布拉德福定律有兩個基本要點:一是頻次等級排序,形成主體來源(期刊)的有序目錄;二是確定相關論文在主體來源中的分布規律。它所揭示的都是論文在期刊中的分散規律。

布拉德福定律主要揭示的是宏觀層次的信息(文獻)離散分布,而對于微觀層次的信息(內容單元)分布的研究則基本上是空白。2.3.2齊夫定律1.齊夫定律的表述如果將一篇較長文章(約5000字以上)中每個詞按其出現頻次遞減排列起來(高頻詞在前,低頻詞在后),并用自然數給這些詞編上等級序號,出現頻次最高的為1級,其次為2級……這樣一直到D級,如果用f表示詞在文章中出現的頻次,用r表示詞的等級序號,則有:

fr=c………………(3-19)

式中c為常數。上式稱為齊夫定律。

如果建立f與r的直角坐標系,用縱坐標表示詞的等級序號,橫坐標表示出現頻次,就得到一條雙曲線。如果等級r與頻次f都取對數,則雙曲線變成一條直線。與之等價的數學表達式為:

lgr+lgf=lgc詞頻分布RfLgrLgf140005.9922000.695.3031331.104.8941001.384.605801.614.386661.794.197581.944.068502.083.919442.203.7810402.303.69齊夫詞頻分布曲線及其對數曲線f25020015010050300r132564LgfLgr齊夫定律的修正

圖中的虛線表示理想化形式,一般地,斜率為b的任一直線可表示為:blgr+lgf=lgc

這一直線由圖中的實線表示。如果將其改寫成(3-19)式的形式就得:

(3-20)

取b=1,(3-20)式與(3-19)式相同,因此可以將(3-20)式看做是對齊夫定律的修正。案例賞析:長尾理論與信息分布長尾(或長尾效應,TheLongTail)一詞最初由美國《連線》雜志(Wired)總編輯克里斯·安德森(ChrisAnderson)發表在2004年的《連線》雜志中,用來描述諸如亞馬遜和Netflix、R/Rhapsody之類網站的商業和經濟模式。是指那些原來不受到重視的銷量小,種類多的產品或服務由于總量巨大,累積起來的總收益超過主流產品的現象。在互聯網領域,長尾效應尤為顯著。長尾理論中描述了在網絡環境下,由于網絡存儲空間較之物理存儲空間的無限擴大,一系列的網絡信息資源和網絡商品能夠在網上陳列、傳遞和銷售,除了集中的“頭部”以外,更多的“尾部”上的眾多的非主流資源以更加分散的狀態存在,從而為消費者提供了更多的選擇空間,也為商家帶來了更多的商機。向來被商業界視為鐵律“二八定律”,其內涵認為企業界80%的業績來自20%的產品,就此看法,商業經營看重的是銷售曲線左端的少數暢銷商品,曲線右端的多數冷門商品,被該定律定義為不具銷售力且無法獲利的區塊。但長尾定論卻認為,互聯網的崛起已打破這項鐵律,這些具有長尾特性的商品將具有增長企業營利空間的價值。不但如此,長尾商品的規模還大得驚人,其商品的總值甚至可與暢銷商品抗衡。長尾理論圖圖中縱軸為人氣(popularity),橫軸為產品(products)。該理論分析得出,商業經營者應該反向思考,不再只是集中精神于前百分之二十的主要產品內容,而是應該注意百分之八十的“長尾巴”。長尾的理論數學基礎,十分簡單。就是將龐大長尾利基商品量乘以相當小的單項長尾商品的銷售量,其獲利仍極為可觀。長尾理論與布拉德福曲線和齊普夫曲線的關系根據中國互聯網絡信息中心CNNIC《中國互聯網絡發展狀況統計報告》(2009年7月)中分省域名數有關數據,從地域層面來分析國內域名信息資源的分布情況。分省域名資源分布統計柱形圖和域名資源分布面積圖如下圖所示。將樣本數據圖形的縱軸進行域名數量的累加處理,橫軸的省份序號進行對數變換后,將得到域名分布的布拉德福分布曲線如下圖。可以發現,布拉德福曲線在橫軸和縱軸未經變換之前與長尾理論分布的圖形是相似的。f25020015010050300r132564LgfLgr齊普夫分布曲線橫縱坐標未取對數值的圖形與長尾理論曲線的圖形也是一致的,充分反映出二者之間的契合度。問題與思考:通過上面的兩個例子,我們發現布拉德福曲線和齊夫詞頻曲線與長尾理論分布圖形之間有著很高的相似度。試分析:(1)作為市場營銷領域的關于商品分布的長尾理論,與信息分布之間有何關系?二者在對各自對象(一個是商品,一個是信息資源)分布規律的描述上,反映出了什么共同的特征?(2)長尾分布對網絡信息資源分布規律的研究有什么樣的啟示?2.4信息對時間的分布規律

2.4.1指數增長律1.普賴斯曲線如果我們以文獻量為縱軸,以歷史年代為橫軸,把各不同年代的文獻量在坐標圖上逐點描繪出來,然后以一光滑曲線連接各點,則可十分近似地表征文獻隨時間增長的規律。這就是著名的普賴斯曲線。普賴斯曲線F(t)1001019001950t1665100001000180017501850

通過對曲線分析,普賴斯最先注意到文獻增長與時間成指數函數關系。如果用F(t)表示時刻t的文獻量,則指數定律可表為下式:

式中:a是統計的初始時刻(t=0)的文獻量;

e=2.718;

b表示持續增長率。人們還常常用文獻量翻一倍的時間來衡量文獻的增長速度,即

t′=(ln2)/b………………(3-24)

式中:t′為文獻量翻倍時間,b為持續增長率。

從統計實例來看,文獻信息的指數增長規律在一定程度上正確反映了文獻的實際增長情況。

對1952~1982年間世界圖書增長情況的統計分析表明,圖書種數大約每20年翻一倍,指數增長模型與實際情況符合得較好。又如,對1907~1977年世界化學論文數量進行統計,由指數模型計算的值與實際情況大體一致,說明這一時期的化學論文數量也是按指數增長的,大約每10年翻一倍。因此,文獻的指數增長定律具有一定程度的正確性和普遍性,并獲得了學術界承認。

2.生長曲線

普賴斯指出,考慮物質的、經濟的、智力的及時間的影響和限制,文獻信息的增長更趨近于生物的生長曲線(LogisticCurve),即最初生長或繁殖很快,隨著時間推移,其生長速度越來越慢,以致幾乎不增加了。其方程為:式中:F(t)代表時刻t的文獻量,k為文獻增長的最大值。生長曲線F(t)tK/2Lna/kb生長曲線表明,在文獻增長的初始階段,它是符合指數增長規律的,但它不能始終保持指數增長的勢頭,當文獻增至最大值的一半時,增長率開始變小,最后緩慢增長,并以k為其極限。

增長率的描述一般來說,在不同的階段科學文獻增長的態勢是不同的。學科處于誕生和發展階段,文獻量指數增長,文獻的壽命較短。學科進入相對成熟階段,文獻增長就不能總保持原有的指數速率,增長率變小,曲線變得平緩,文獻壽命相對變長。某一知識領域的研究取得重大進展后進入相對成熟的階段。內容上更新的文獻又將進入一個新的急劇增長時期(如指數增長)。然后又進入一個穩定時期。文獻的增長往往會出現幾個急劇增長時期和幾個相對穩定時期,呈現出錯綜復雜的格局。一般說來,對不同的領域,描述其文獻增長的生長曲線中各個常數(a,b和k)也是不相同的。2.4.2逐漸過時律1.文獻老化的表現文獻信息的老化一般指這樣四種情形:文獻中所含信息仍然有用,但現在已被包含在更新的其他論著中;文獻中信息仍舊有用,但現在正處于一個人們對其興趣下降的學科;文獻中的信息仍舊有用,但為后來的著作所超越;信息不再有用。2.文獻半衰期所謂文獻的半衰期,是指某學科領域現時尚在利用的全部文獻中的一半是在多長一段時間內發表的。3.普賴斯指數

普賴斯指數,即某一學科領域內,對發表年限不超過5年的文獻的引用次數與總的引用次數之比值。一般來說,普賴斯指數越大,半衰期就越小,文獻老化的速度越快。文獻信息老化曲線

用縱坐標表示現在正被利用(引證)的文獻的被引量,橫坐標表示時間,我們可以繪制出文獻的老化曲線。相應的方程可表示為:

C(t)=ke-at

式中:C(t)表示發表了t年的文獻的被引次數,k是常數,隨學科不同而異,a為老化率。被引證次數C(t)0.5出版年齡tt1t2t3文獻信息老化的影響因素(1)文獻增長。文獻的增長和老化是一個事物的兩個方面,它們從不同的側面來描述科學的發展,闡明科學知識的修正率。

(2)學科差異。世界上93%~98%的科學雜志引用壽命為20年左右,但并不是所有這些學科的文獻老化速率都大體一致,相反,彼此之間差異甚大。

(3)學科發展階段的差異。即使是同一學科,不同的時期或階段,文獻的半衰期不盡完全相同。

(4)信息環境和需求。不同信息用戶對文獻的需求是不同的,因而信息利用者的需求及所處的信息環境的研究十分必要。2.5網絡計量學網絡信息計量學作為信息計量學在互聯網上的拓展,其研究對象主要為:1)web中的以網頁、網站為載體的信息,如文本信息、連接信息、圖片等多媒體信息、載體數量信息;2)訪問網頁、網站的日志信息;3)網絡學術數據庫中的各種信息。網絡信息計量學是借助信息計量學的方法,統計分析web中以網頁/網站為載體的信息、訪問網頁/網站的日志信息、網絡學術數據庫中的各種信息,旨在評價網絡信息的質量并挖掘網絡信息的數量特征及內在規律的一門學科。網絡計量學內容體系Web理論鏈接分析理論網絡引文分析理論日志分析理論Web鏈接結構學者們通過統計分析AltaVista搜索引擎的數據,將web結構分成了五大部分:2.5.1web理論SCC(強連通部分)是最大一組頁面集合,從其中的任何一個頁面都可以沿著鏈接的方向到達集合中的所有其它頁面。OUT是指那些不在SCC中,但是可以從SCC中沿著鏈接到達的頁面集合。IN是指那些SCC中任何頁面都不可到達,但卻可沿著鏈接到達SCC中頁面的頁面集合。TENDRILS是指不在IN,OUT或者SCC中,而與IN或OUT鏈接的頁面集合相鄰,這種鏈接是指頁面間的前向鏈接、后向鏈接或雙向鏈接。DISCONNECTED是指剩余的頁面,這些頁面不以任何方式與其他頁面鏈接。DISCONNECTED是最小的部分,但是仍占頁面總數的8%,這意味著依然有相當大一部分頁面與web頁面主題相隔離。SCC的大小意味著web中包含大量通過鏈接鏈而互相鏈接的核心頁面,它幾乎包含所有重要的門戶網站。這對于搜索引擎的啟發是:一個新爬蟲如果從好的起點開始,將會爬取大約當前數據庫中一半的OUT+SCC。區域SCCINOUTTENDRILSDISCTotal頁面數量56,463,99343,343,16843,166,18543,797,94416,777,756203,549,046AltaVista爬取結果中各部分頁面的數量Web內容結構

網頁內容是指:通過一定的算法從頁面文本中提取的數據;而人為判斷網頁內容時,網頁內容就不僅是文本了,還有外觀及圖形等,因為這些方面也可以提供解釋網頁內容的信息。1996年,美國加利福尼亞州大學伯克利分校的R.R.Larson將文獻計量學中的共引分析法應用到web中,研究了web中的共鏈現象,這種方法被稱為網絡共鏈分析,或者共鏈分析。共鏈分析的假設前提與共引分析相同,即共入鏈或共出鏈的兩個網頁在內容上存在一定的關聯,共鏈次數越多,這種關聯越緊密。從共鏈分析法中可以得到啟示:借助鏈接可以判斷網頁中內容之間的關聯。第一項大范圍的“鏈接—內容”研究始于2002年,由孟買的印度技術研究所(IndianInstituteofTechnology,IIT)的研究團隊提出,并與一位來自普林斯頓NEC研究機構的研究者合作研究(Chakrabarti,Joshi,Punera&Pennock,2002)。研究目的包括:確定從一個“泛主題(broadtopics)”的相關頁面鏈接到另一個泛主題的可能性,以及測定Web上主題的“背景分布。IIT團隊以10,000,000個網頁為樣本,并用它們來評估Web泛domz主題的分布狀況。爬取樣本的形式被稱作“隨機鏈接行走”,該形式模擬了網民在大量頁面中隨機點擊頁面上的鏈接跳轉至下一頁的過程,這種方法的一個特點就是它只包括了Web中連通性好的部分(即第五章術語中的OUT+SCC)。之所以出現這樣的結果,是因為樣本偏向于用戶最可能訪問的頁面類型。

在同一篇論文中,使用同樣方法所做的第二組實驗研究了鏈接,以便發現指向那些屬于不同主題的頁面的概率。結果顯示,某一主題的頁面傾向于引用其它具有相同主題的頁面。另外,交叉主題之間的鏈接不是隨機的,各主題頁面不是均勻地鏈接到其它主題頁面,而是有偏好的,這些偏好并不總是相互的。由此可見:鏈接明顯的與網絡語義內容相關。Web小世界理論小世界理論源于對社會網絡(可以把社會網絡看作以人為節點,以人與人之間的關聯為邊線的研究)的研究。Watts和Stogatz提出小世界圖包含以下兩個特性:1)聚類系數遠大于隨機圖(與小世界圖相比,節點數相同,平均每個節點的邊數相同)的聚類系數;2)平均路徑長度與隨機圖的平均路徑長度同樣小。無獨有偶,小世界理論逐步出現于對引文網絡與web結構的研究中。Web小世界理論小世界理論源于對社會網絡(可以把社會網絡看作以人為節點,以人與人之間的關聯為邊線的研究)的研究。Watts和Stogatz提出小世界圖包含以下兩個特性:1)聚類系數遠大于隨機圖(與小世界圖相比,節點數相同,平均每個節點的邊數相同)的聚類系數;2)平均路徑長度與隨機圖的平均路徑長度同樣小。無獨有偶,小世界理論逐步出現于對引文網絡與web結構的研究中。2.5.2網絡鏈接分析理論網絡連接分析,也稱鏈接分析,或稱鏈接分析法、超鏈分析。從字面上看,可廣義理解為web中頁面間的超鏈接為研究對象的分析活動。從網絡信息計量學的角度,將其定義為:鏈接分析是以鏈接解析軟件、統計分析軟件為工具,用統計學、拓撲學、情報學的方法對鏈接數量、類型、鏈接集中與離散規律、共鏈現象等進行分析,以用于web中的信息挖掘及質量評價的一種方法。鏈接術語鏈接,超鏈接(Link,hyperlink):兩者都指網絡鏈接。入鏈(Inlink):指向某頁面的鏈接。B有一個來自A的入鏈,A與B之間,A是鏈接來源,B是鏈接目標。出鏈(Outlink):從某頁面指出的鏈接,即該頁面的導出鏈接。B有一個指向C的出鏈,B是鏈接來源,C是鏈接目標。自鏈(Selflink):從某頁面指向該頁面自身的鏈接,可能是同一頁面的不同部分。B有一個自鏈。鏈接術語互鏈(Interlink,reciprocallink):通常指兩個不同網站之間的鏈接,也指站間鏈接。E與F互鏈。共入鏈(Co-linked):如果兩個頁面都含有來自第三個頁面的入鏈,則這兩個頁面共入鏈。C與D共入鏈。共出鏈(Co-linking):如果兩個頁面都含有指向第三個頁面的出鏈,則這兩個頁面共出鏈。B與E共出鏈。共鏈(Co-link):共入鏈與共出鏈統稱為共鏈。鏈接分析指標入鏈數

入鏈數源于引文分析中的被引次數,鏈接如同引用,代表一種推薦或認可,被鏈接的次數越多,則被認可的程度越高。被引次數中通常包括自引,同樣,入鏈數中包括自鏈和外部鏈接數。出鏈數

出鏈數是指一個網頁的出鏈總數量,類似于文獻計量中的“引文數”。出鏈數反映了網頁指向能力的大小,是一個純粹的數量型概念,出鏈數越大,則該網頁的指向能力越強。網絡影響因子

網絡影響因子(WebImpactFactor,WIF)是由Ingwerson在1998年提出的、利用網站獲得的鏈接數計量網站影響力的計量指標。網絡影響因子的理論基礎是鏈接與引文的相似性,它是文獻計量學中的期刊影響因子(JournalImpactFactor,JIF)在網絡上的應用。

Ingwerson將網絡影響因子定義為:指定時間內,指向某一國家或網站的外部入鏈(externalinlinks)和內部入鏈(internalinlinks)網頁數的邏輯和與該國家或網站內部的網頁數的比值。

最初,Ingwerson提出的網絡影響因子算法是:WIF=

自網絡影響因子被提出后,因其分母難以準確統計,又因語言、地域差異導致國家或網站網頁數的客觀差異,有些學者提出了網絡影響因子的修正式,如2002年Thelwall將WIF算法修正為:WIF=

其中,S指網絡空間,U指大學網站。2006年,Noruzi和Alireza[]將WIF算法歸納為:WIF=

WIF測度了網站吸引鏈接的能力,是計量網站影響力的重要指標,可應用于評價網站和網頁資源、網站建設和管理、評價電子核心期刊等方面。網絡使用因子網絡使用因子(WebUseFactor,WUF)反映某一國家或網站的網頁指向其他網頁能力的分布情況,可以用來測度某一國家或網站的鏈接分布特征。

某一國家或網站的出鏈數除以網頁數、科研人員數或科研生產率便得到了網頁平均出鏈數、科研人員平均出鏈數或科研生產率的平均出鏈數,即WUF。但如果一個國家的科研生產率數據很難獲得,并且有理由相信該國的大學在研究能力上相似,或者因為商業搜索引擎和專業網絡爬行工具覆蓋范圍的問題導致難以計算一個網站的網頁數,則科研人員數就成為WUF的分母;但若科研人員數無法獲得,仍然要用網頁數做分母。

網絡使用因子可以用某一國家或網站的出鏈數作為分子,分別用該國家或網站的網頁數、科研人員數和科研生產率作為分母,得出WUF的不同算法,即:WUF=或,WUF=或,WUF=

從概念和算法上看,WUF反映了網站出鏈的平均量,得出網站鏈接的分布情況,通常WUF越高,說明網站利用其他網絡信息資源的程度越高,相應的,該網站的信息數量和質量也就可能越高。鏈接傾向

鏈接傾向(LinkPropensity,LP)由Smith和Thelwall于2002年首次提出。Smith和Thelwall在研究澳大利亞大學網站的網絡影響因子時,將其定義為某大學網站的外部入鏈數與來源網站和目標網站的全職科研人員乘積的比值。LP有效地排除了來源網站和目標網站規模大小的影響,適于揭示兩個網站之間相互鏈接的意愿,因而從理論上講更具科學性。

鏈接傾向可被看作WIF的一個特例,反映了網站被鏈接的情況,同時可以反映一個國家在網絡利用中的地位,因而可以作為評價網站影響力的重要指標。鏈接傾向

可以用某大學網站的外部入鏈數作為分子,分別用該國家或網站的網頁數、全職科研人員數和科研生產率作為分母,得出LP的不同算法,即:LP=

或,LP=

或,LP=網絡引文分析的發展網絡引文的產生階段

1996-2000年,為網絡引文的產生階段。網絡引文伴隨著網絡鏈接的出現而產生。這一階段學者們所關注的是文獻引文和網絡鏈接之間的聯系。因此,網絡引文分析在一定程度上被認為屬于鏈接分析的概念范疇,并沒有作為一個獨立的研究對象。網絡引文的發展階段

2000年至今,為網絡引文的發展階段。傳統文獻引文和網絡鏈接之間的區別逐漸成為學者們關注的焦點。Citation和hyperlinks之間的區別研究使得人們對網絡引文有了新的了解和定位。經研究發現,網絡引文的功能更傾向于傳統引文,網絡引文分析因而逐漸從鏈接分析的研究中獨立出來。2.5.3網絡引文分析理論對網絡引文的理解主要包括三種觀點:網絡引文是期刊論文、專著等傳統文獻中的URL類型的引文;

網絡引文是指網絡學術數據庫(如GoogleScholar、Scopus、CiteSeer)中的文獻之間的引用關系;網絡引文是指網絡中網頁之間的引用關系,即鏈接關系。

網絡引文分析是一個新興的研究領域,其研究尚處于探索發展階段,以開創性研究和探索性研究為主。對于網絡引文的研究主要集中在探討網絡引文和傳統文獻引文(ISI)的關系以及網絡引文分析的作用。

目前,網絡引文分析研究領域主要的研究內容有:網絡引文的提取方式網絡引文數網絡引文平均值與期刊影響因子關系;網絡引文的類型

網絡引文的提取方式基于網絡的引文索引的提取

主要是從網絡數據庫或是網絡引文系統(CiteSeer/ResearchIndex)中提取網絡引文。基于搜索引擎的提取二者結合的綜合式的提取方法

網絡引文的類型2003年,Vaughan和Shaw將網絡引文分為期刊、作者、服務、課程、論文、會議以及其它。名稱描述Journal期刊:期刊的發行者或者主辦者的網站地址Author作者:單個作者,合作者,具體信息包括作者的通郵地址或者網址Service服務:主要指文章中列出的網絡地址Class課程:一門課程中所開列的閱讀書目Paper論文:網絡文獻的參考引文Conference會議:會議文獻中的被引文獻Other其它:通過其他方式被引的網絡引文

網絡引文數量對網絡引文的研究大都集中在引文數量方面。主要通過對網絡引文數的研究,探討其與傳統引文的相關性。2003年,L.Vaughan和D.Shaw通過研究證實了參考文獻和網絡引文之間具有明顯相關性。不久,網絡引文數量與傳統引文數量之間具有相關性的論斷在KayvanKousha與M.Thelwall的研究中再一次得到了驗證。

網絡引文平均值Vaughan和Shaw在2003年的研究中,將期刊作為基本研究單位,研究期刊影響因子和網絡引文平均值之間的關系。發現期刊影響因子(JIF)高的期刊具有較高的ISI引文數和網絡引文數。在Kousha和Thelwall對開放式期刊的研究中,同樣得出了期刊影響因子與網絡引文平均值顯著相關,以及ISI影響因子高的期刊其網絡引文平均值也高的結論。2.5.4網絡日志分析理論

網絡日志(WebLog),是指在服務器上有關網絡訪問的各種日志文件,包括訪問日志、引用日志、代理日志、錯誤日志等文件。這些文件里包含了大量的用戶訪問信息,如用戶的IP地址、所訪問的URL、訪問日期和時間、訪問路徑等。

網絡日志分析(WebLogAnalysis),是指從網絡的存取模式中獲取有價值信息的過程,也就是對用戶訪問網絡時在服務器留下的訪問記錄進行分析,尋找其中蘊含的規律。網絡日志分析是網絡信息計量學的一種重要的研究方法。網絡日志分析旨在[]通過對網絡日志進行有效的數據挖掘,發掘隱藏在日志數據背后的規律和模式。網絡日志分析的分類

網絡日志按其記錄位置的不同可以分為三類:客戶端網絡日志、代理服務器端網絡日志和Web服務器端網絡日志。

三種日志數據集記載了用戶使用網絡資源的不同模式。客戶端日志數據記錄了單用戶訪問多服務器的模式,代理服務器端日志記載的是多用戶訪問多服務器的訪問模式,而Web服務器端日志數據記載的是多用戶訪問單服務器的模式。代理服務器和Web服務器日志數據的收集是由服務器自動記錄的,客戶端日志數據則需要有專門的程序收集,比如客戶端的代理軟件或者經過修改的瀏覽器等。網絡日志挖掘的步驟

網絡日志挖掘中使用和研究較多的是服務器日志挖掘,服務器日志挖掘一般分為四個步驟:源數據收集、數據預處理、模式挖掘和對挖掘出來的模式進行分析。源數據收集

源數據的收集方法一般分為兩種:服務器端數據收集和使用包檢測技術收集。Web服務器和代理服務器數據合稱為服務器端數據。服務器端的數據收集可以使用網絡日志收集工具,如WebTrends、FastStatsAnalyzer和HappyLog等等,從Web服務器、代理服務器的Web日志文件中收集數據。包檢測技術是指監視所有到達服務器的數據,提取其中的HTTP請求信息。此部分數據主要來自瀏覽者的點擊流。數據預處理

數據預處理是在將日志文件轉換成數據庫文件之后進行的,其目的是把網絡日志轉化為適合進行數據挖掘的可靠的精確的數據。因此,數據預處理是整個web日志分析的基礎也是實施分析的前提,數據預處理的結果直接關系到整個Web日志分析的成敗,在Web日志分析中有相當重要的作用。數據預處理過程主要包括五個階段:數據清洗(DataCleaning)、用戶識別(UserIdentification)、會話識別(SessionIdentification)、路徑補充(PathSupplement)以及格式化(Format)。模式挖掘

模式挖掘是web日志挖掘技術的核心部分,通過模式挖掘技術可以從經過數據預處理的日志數據中找出有價值的信息來生成模式。

基于事務的Web日志挖掘中常用的方法是聚類、序列模式分析和關聯規則。Web日志上的聚類有兩種[],用戶聚類和頁面聚類。用戶聚類是對用戶的會話進行分析。根據用戶的訪問路徑,發現行為模式相近的用戶,并將這些用戶分為一組。頁面聚類是對被用戶訪問的頁面情況進行分析,根據用戶訪問內容,發現被相同用戶訪問的頁面,并將其歸為一組。組內的頁面具有相同的特征,它們都被同一群用戶所訪問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論