十個海量數據處理方法總結

上傳人：d*** IP屬地：天津上傳時間：2021-05-15 格式：DOCX 頁數：7 大?。?9.60KB 積分：15 舉報 版權申訴

已閱讀5頁，還剩2頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、如有幫助，歡迎下載支持十個海量數據處理方法大總結ok，看了上面這么多的面試題，是否有點頭暈。是的，需要一個總結。接下來，本文將簡單總結下一些處理海量數據問題的常見方法，而日后，本BLOG內會具體闡述這些方法。下面的方法全部來自博客，對海量數據的處理方法進行了一個一般性的總結，當然這些方法可能并不能完全覆蓋所有的問題，但是這樣的一些方法也基本可以處理絕大多數遇到的問題。下面的一些問題基本直接來源于公司的面試筆試題目，方法不一定最優，如果你有更好的處理方法，歡迎討論。、Bloom filter適用范圍：可以用來實現數據字典，進行數據的判重，或者集合求交集基本原理及要點：對于原理來說很簡單，位

2、數組+k個獨立hash函數。將hash函數對應的值的位數組置 1，查找時如果發現所有hash函數對應位都是1說明存在，很明顯這個過程并不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字，因為該關鍵字對應的位會牽動到其他的關鍵字。所以一個簡單的改進就是 counting Bloom filter ，用一個counter數組代替位數組，就可以支持刪除了。還有一個比較重要的問題，如何根據輸入元素個數n,確定位數組 m的大小及hash函數個數。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大于 E的情況下，m至少要等于n*lg(1/E) 才能表示任意n個元素

3、的集合。但 m還應該更大些，因為還要保證 bit數組里至少一半為 0,則m應該=門1 g(1/E)*lge 大概就是nlg(1/E)1.44 倍(lg表示以2為底的對數)。舉個例子我們假設錯誤率為0.01，則此時m應大概是n的13倍。這樣k大概是8個。注意這里m與n的單位不同，m是bit為單位，而n則是以元素個數為單位(準確的說是不同元素的個數)。通常單個元素的長度都是有很多bit的。所以使用bloom filter內存上通常都是節省的。擴展：Bloom filter將集合中的元素映射到位數組中，用k (k為哈希函數個數)個映射位是否全1表示元素在不在這個集合中。Counting bloo

4、m filter( CBF )將位數組中的每一位擴展為一個counter，從而支持了元素的刪除操作。Spectral Bloom Filter (SBF )將其與集合元素的出現次數關聯。SBF采用counter中的最小值來近似表示元素的出現頻率。問題實例：給你 A,B兩個文件，各存放 50億條URL，每條URL占用64字節，內存限制是 4G, 讓你找出A,B文件共同的URL。如果是三個乃至 n個文件呢？根據這個問題我們來計算下內存的占用，4G=232大概是40億*8大概是340億，n=50億，如果按出錯率0.01算需要的大概是650億個bit?，F在可用的是340億，相差并不多，這樣可能會使出

5、錯率上升些。另外如果這些 urlip是一一對應的，就可以轉換成ip，則大大簡單了。二、Hashing適用范圍：快速查找，刪除的基本數據結構，通常需要總數據量可以放入內存基本原理及要點：hash函數選擇，針對字符串，整數，排列，具體相應的hash方法。碰撞處理，一種是 open hashing，也稱為拉鏈法；另一種就是closed hashing ，也稱開地址法，ope ned address ing 。擴展：d-left hashing 中的d是多個的意思，我們先簡化這個問題，看一看 2-left hashing 。2-left hashing 指的是將一個哈希表分成長度相等的兩半，分別叫做T

6、1和T2，給T1和T2分別配備一個哈希函數，h1和h2。在存儲一個新的key時，同時用兩個哈希函數進行計算，得出兩個地址h1key和h2key。這時需要檢查 T1中的h1key位置和T2中的h2key位置，哪一個位置已經存儲的（有碰撞的）key比較多，然后將新 key存儲在負載少的位置。如果兩邊一樣多，比如兩個位置都為空或者都存儲了一個key，就把新key存儲在左邊的T1子表中，2-left也由此而來。在查找一個key時，必須進行兩次hash，同時查找兩個位置。問題實例：1）.海量日志數據，提取出某日訪問百度次數最多的那個IP。IP的數目還是有限的，最多2A32個，所以可以考慮使用hash將

7、ip直接存入內存，然后進行統計。三、bit-map適用范圍：可進行數據的快速查找，判重，刪除，一般來說數據范圍是int的10倍以下基本原理及要點：使用bit數組來表示某些元素是否存在，比如8位電話號碼擴展：bloom filter可以看做是對 bit-map的擴展問題實例：1) 已知某個文件內包含一些電話號碼，每個號碼為8位數字，統計不同號碼的個數。8位最多99 999 999，大概需要99m個bit，大概10幾m字節的內存即可。2) 2.5億個整數中找出不重復的整數的個數，內存空間不足以容納這2.5億個整數。將bit-map擴展一下，用2bit表示一個數即可，0表示未出現，1表示出現一次，2

8、表示出現2次及以上?；蛘呶覀儾挥?2bit來進行表示，我們用兩個bit-map即可模擬實現這個 2bit-map。四、堆適用范圍：海量數據前n大，并且n比較小，堆可以放入內存基本原理及要點：最大堆求前n小，最小堆求前n大。方法，比如求前 n小，我們比較當前元素與最大堆里的最大元素，如果它小于最大元素，則應該替換那個最大元素。這樣最后得到的n個元素就是最小的n個。適合大數據量，求前n小，n的大小比較小的情況，這樣可以掃描一遍即可得到所有的前n元素，效率很高。擴展：雙堆，一個最大堆與一個最小堆結合，可以用來維護中位數。問題實例：1)100w個數中找最大的前100個數。用一個100個元素大小的最小

9、堆即可。五、雙層桶劃分-其實本質上就是【分而治之】的思想，重在分”的技巧上！適用范圍：第k大，中位數，不重復或重復的數字基本原理及要點：因為元素范圍很大，不能利用直接尋址表，所以通過多次劃分，逐步確定范圍，然后最后在一個可以接受的范圍內進行?？梢酝ㄟ^多次縮小，雙層只是一個例子。擴展：問題實例：1) 25億個整數中找出不重復的整數的個數，內存空間不足以容納這2.5億個整數。有點像鴿巢原理，整數個數為 2A32,也就是，我們可以將這 2A32個數，劃分為2A8個區域(比如用單個文件代表一個區域)，然后將數據分離到不同的區域，然后不同的區域在利用bitmap就可以直接解決了。也就是說只要有足夠

10、的磁盤空間，就可以很方便的解決。2) .5億個int找它們的中位數。這個例子比上面那個更明顯。首先我們將int劃分為2A16個區域，然后讀取數據統計落到各個區域里的數的個數，之后我們根據統計結果就可以判斷中位數落到那個區域，同時知道這個區域中的第幾大數剛好是中位數。然后第二次掃描我們只統計落在這個區域中的那些數就可以了。實際上，如果不是int是int64 ,我們可以經過 3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2A24個區域，然后確定區域的第幾大數，在將該區域分成2人20個子區域，然后確定是子區域的第幾大數，然后子區域里的數的個數只有2A20，就可以直接利用 dir

11、ect addr table 進行統計了。六、數據庫索引適用范圍：大數據量的增刪改查基本原理及要點：利用數據的設計實現方法，對海量數據的增刪改查進行處理。七、倒排索引(Inverted index)適用范圍：搜索引擎，關鍵字查詢基本原理及要點：為何叫倒排索引？一種索引方法，被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。以英文為例，下面是要被索引的文本：TO = it is what it isT1 = what is itT2 = it is a banana我們就能得到下面的反向文件索引：a: 2ba nana: 2is: 0, 1,2it: 0, 1,2what

12、: 0, 1檢索的條件what,is和it將對應集合的交集。正向索引開發出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中，文檔占據了中心的位置，每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞，而反向索引則是單詞指向了包含它的文檔，很容易看到這個反向的關系。擴展：問題實例：文檔檢索系統，查詢那些文件包含了某單詞，比如常見的學術論文的關鍵字搜索。八、外排序適用范圍：大數據的排序，去重基本原理及要點：外排序的歸并方法，置換選擇敗者樹原理，最優歸并樹擴展：問題實例：1).有一個1G

13、大小的一個文件，里面每一行是一個詞，詞的大小不超過16個字節，內存限制大小是1M。返回頻數最高的100個詞。這個數據具有很明顯的特點，詞的大小為16個字節，但是內存只有 1m做hash有些不夠，所以可以用來排序。內存可以當輸入緩沖區使用。九、trie樹適用范圍：數據量大，重復多，但是數據種類小可以放入內存基本原理及要點：實現方式，節點孩子的表示方式擴展：壓縮實現。問題實例：1) .有10個文件，每個文件1G ,每個文件的每一行都存放的是用戶的query，每個文件的query都可能重復。要你按照 query的頻度排序。2) .1000萬字符串，其中有些是相同的(重復),需要把重復的全部去掉，保留

14、沒有重復的字符串。請問怎么設計和實現？3) .尋找熱門查詢：查詢串的重復度比較高，雖然總數是1千萬，但如果除去重復后，不超過3百萬個，每個不超過 255字節。十、分布式處理 mapreduce適用范圍：數據量大，但是數據種類小可以放入內存基本原理及要點：將數據交給不同的機器去處理，數據劃分，結果歸約。擴展：問題實例：1) .The canoni cal example applicati on of MapReduce is a process to count the appeara nces ofeach differe nt word in a set of docume nts:2)

15、.海量數據分布在100臺電腦中，想個辦法高效統計出這批數據的TOP10。3) . 一共有N個機器，每個機器上有N個數。每個機器最多存 O(N)個數并對它們操作。如何找到NA2個數的中數(median) ？經典問題分析上千萬or億數據(有重復)，統計其中出現次數最多的前N個數據，分兩種情況：可一次讀入內存，不可一次讀入。可用思路：trie樹+堆，數據庫索引，劃分子集分別統計，hash，分布式計算，近似統計，外排序所謂的是否能一次讀入內存，實際上應該指去除重復后的數據量。如果去重后數據可以放入內存，我們可以為數據建立字典，比如通過map， hashmap , trie，然后直接進行統計即可。當然在

16、更新每條數據的出現次數的時候，我們可以利用一個堆來維護出現次數最多的前N個數據，當然這樣導致維護次數增加，不如完全統計后在求前N大效率高。如果數據無法放入內存。一方面我們可以考慮上面的字典方法能否被改進以適應這種情形，可以做的改變就是將字典存放到硬盤上，而不是內存，這可以參考數據庫的存儲方法。當然還有更好的方法，就是可以采用分布式計算，基本上就是map-reduce過程，首先可以根據數據值或者把數據 hash(md5)后的值，將數據按照范圍劃分到不同的機子，最好可以讓數據劃分后可以一次讀入內存，這樣不同的機子負責處理各種的數值范圍，實際上就是map。得到結果后，各個機子只需拿出各自的出現次數

17、最多的前N個數據，然后匯總，選出所有的數據中出現次數最多的前N個數據，這實際上就是 reduce過程。實際上可能想直接將數據均分到不同的機子上進行處理，這樣是無法得到正確的解的。因為一個數據可能被均分到不同的機子上，而另一個則可能完全聚集到一個機子上，同時還可能存在具有相同數目的數據。比如我們要找出現次數最多的前100個，我們將1000萬的數據分布到10臺機器上，找到每臺出現次數最多的前100個，歸并之后這樣不能保證找到真正的第100個，因為比如出現次數最多的第100個可能有1萬個，但是它被分到了 10臺機子，這樣在每臺上只有1千個，假設這些機子排名在1000個之前的那些都是單獨分布在一臺機子上的，比如有 1001個，這樣本來具有 1萬個的這個就會被淘汰，即使我們讓每臺機子選出出現次數最多的1000個再歸并，仍然會出錯，因

人人文庫> 全部分類> 行業資料 > 信息產業

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

十個海量數據處理方法總結

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

十個海量數據處理方法總結

文檔簡介

溫馨提示

最新文檔

評論

相關文檔