




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
老男孩IT教育,只培養(yǎng)技術(shù)精英常用Python爬蟲庫匯總Python爬蟲,全稱Python網(wǎng)絡(luò)爬蟲,是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或腳本,主要用于抓取證券交易數(shù)據(jù)、天氣數(shù)據(jù)、網(wǎng)站用戶數(shù)據(jù)和圖片數(shù)據(jù)等,Python為支持網(wǎng)絡(luò)爬蟲正常功能實現(xiàn),內(nèi)置了大量的庫,主要有以下類型:一、Python爬蟲網(wǎng)絡(luò)庫Python爬蟲網(wǎng)絡(luò)庫主要包括:urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket、UnirestforPython、hyper、PySocks、treq以及aiohttp等。二、Python網(wǎng)絡(luò)爬蟲框架Python網(wǎng)絡(luò)爬蟲框架主要包括:grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。三、HTML/XML解析器lxml:C語言編寫高效HTML/XML處理庫,支持XPath;cssselect:解析DOM樹和CSS選擇器;pyquery:解析DOM樹和jQuery選擇器;BeautifulSoup:低效HTML/XML處理庫,純Python實現(xiàn);html5lib:根據(jù)WHATWG規(guī)范生成HTML/XML文檔的DOM,該規(guī)范被用在現(xiàn)在所有的瀏覽器上;feedparser:解析RSS/ATOMfeeds;MarkupSafe:為XML/HTML/XHTML提供了安全轉(zhuǎn)義的字符串;xmltodict:一個可以讓你在處理XML時感覺像在處理JSON一樣的Python模塊;xhtml2pdf:將HTML/CSS轉(zhuǎn)換為PDF;untangle:輕松實現(xiàn)將XML文件轉(zhuǎn)換為Python對象;Bleach:清理HTML(需要html5lib);四、文本處理difflib:幫助進行差異化比較;Levenshtein:快速計算Levenshtein距離和字符串相似度;fuzzywuzzy:模糊字符串匹配;esmre:正則表達式加速器;ftfy:自動整理Unicode文本,減少碎片化;unidecode:將Unicode文本轉(zhuǎn)為ASCII;uniout:打印可讀字符,而不是被轉(zhuǎn)義的字符串;chardet:兼容Python的2/3的字符編碼器;xpinyin:一個將中國漢字轉(zhuǎn)為拼音的庫;pangu.py:格式化文本中CJK和字母數(shù)字的間距。awesome-slugify:一個可以保留unicode的Pythonslugify庫;python-slugify:一個可以將Unicode轉(zhuǎn)為ASCII的Pythonslugify庫;unicode-slugify:一個可以將生成Unicodeslugs的工具;pytils:處理俄語字符串的簡單工具(包括pytils.translit.slugify);PLY:lex和yacc解析工具的Python實現(xiàn);pyparsing:一個通用框架的生成語法分析器;Python-Markdown:一個用Python實現(xiàn)的JohnGruber的Markdown;Mistune:速度最快,功能全面的Markdown純Python解析器;markdown2:一個完全用Python實現(xiàn)的快速的Markdown;PyYAML:一個Python的YAML解析器;cssutils:一個Python的CSS庫;feedparser:通用的feed解析器;sqlparse:一個非驗證的SQL語句分析器;http-parser:C語言實現(xiàn)的HTTP請求/響應(yīng)消息解析器;opengraph:一個用來解析OpenGraph協(xié)議標簽的Python模塊;pefile:一個多平臺的用于解析和處理可移植執(zhí)行體(即PE)文件的模塊;psd-tools:將AdobePhotoshopPSD(即PE)文件讀取到Python數(shù)據(jù)結(jié)構(gòu)。六、自然語言處理NLTK:編寫Python程序來處理人類語言數(shù)據(jù)的最好平臺;Pattern:Python的網(wǎng)絡(luò)挖掘模塊;TextBlob:為深入自然語言處理任務(wù)提供了一致的API。是基于NLTK以及Pattern的巨人之肩上發(fā)展的;jieba:中文分詞工具;SnowNLP:中文文本處理庫;loso:另一個中文分詞庫;genius:基于條件隨機域的中文分詞;langid.py:獨立的語言識別系統(tǒng);Korean:一個韓文形態(tài)庫;pymorphy2:俄語形態(tài)分析器(詞性標注+詞形變化引擎);PyPLN:用Python編寫的分布式自然語言處理通道。這個項目的目標是創(chuàng)建一種簡單的方法使用NLTK通過網(wǎng)絡(luò)接口處理大語言庫。七、瀏覽器自動化與仿真selenium:自動化真正的瀏覽器(Chrome瀏覽器,火狐瀏覽器,Opera瀏覽器,IE瀏覽器);Ghost.py:對PyQt的webkit的封裝(需要PyQT);Spynner:對PyQt的webkit的封裝(需要PyQT);Splinter:通用API瀏覽器模擬器(seleniumweb驅(qū)動,Django客戶端,Zope)。八、多重處理threading:Python標準庫的線程運行。對于I/O密集型任務(wù)很有效。對于CPU綁定的任務(wù)沒用,因為pythonGIL;multiprocessing:標準的Python庫運行多進程;celery:基于分布式消息傳遞的異步任務(wù)隊列/作業(yè)隊列;concurrent-futures:concurrent-futures模塊為調(diào)用異步執(zhí)行提供了一個高層次的接口。九、異步網(wǎng)絡(luò)編程庫asyncio:(在Python3.4+版本以上的Python標準庫)異步I/O,時間循環(huán),協(xié)同程序和任務(wù);Twisted:基于事件驅(qū)動的網(wǎng)絡(luò)引擎框架;Tornado:一個網(wǎng)絡(luò)框架和異步網(wǎng)絡(luò)庫;pulsar:Python事件驅(qū)動的并發(fā)框架;diesel:Python的基于綠色事件的I/O框架;gevent:一個使用greenlet的基于協(xié)程的Python網(wǎng)絡(luò)庫;eventlet:有WSGI支持的異步框架;Tomorrow:異步代碼的奇妙的修飾語法。十、隊列celery:基于分布式消息傳遞的異步任務(wù)隊列/作業(yè)隊列;huey:小型多線程任務(wù)隊列;RQ:基于Redis的輕量級任務(wù)隊列管理器;simpleq:一個簡單的,可無限擴展,基于AmazonSQS的隊列;python-gearman:Gearman的PythonAPI。十一、云計算picloud:云端執(zhí)行Python代碼;:云端執(zhí)行R,Python和matlab代碼。十二、電子郵件flanker:電子郵件地址和Mime解析庫;Talon:Mailgun庫用于提取消息的報價和簽名。十三、網(wǎng)址和網(wǎng)絡(luò)地址操作furl:一個小的Python庫,使得操縱URL簡單化;purl:一個簡單的不可改變的URL以及一個干凈的用于調(diào)試和操作的API;urllib.parse:用于打破統(tǒng)一資源定位器(URL)的字符串在組件之間的隔斷,為了結(jié)合組件到一個URL字符串,并將“相對URL”轉(zhuǎn)化為一個絕對URL,稱之為“基本URL”;tldextract:從URL的注冊域和子域中準確分離TLD,使用公共后綴列表;etaddr:用于顯示和操縱網(wǎng)絡(luò)地址的Python庫。十四、網(wǎng)頁內(nèi)容提取ewspaper:用Python進行新聞提取、文章提取和內(nèi)容策展;html2text:將HTML轉(zhuǎn)為Markdown格式文本;python-goose:HTML內(nèi)容、文章提取器;lassie:人性化的網(wǎng)頁內(nèi)容檢索工具;micawber:一個從網(wǎng)址中提取豐富內(nèi)容的小庫;sumy:一個自動匯總文本文件和HTML網(wǎng)頁的模塊;Haul:一個可擴展的圖像爬蟲;python-readability:arc90readability工具的快速Python接口;scrapely:從HTML網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù)的庫;youtube-dl:一個從YouTube下載視頻的小命令行程序;you-get:Python3的YouTube、優(yōu)酷/Niconico視頻下載器;WikiTeam:下載和保存wikis的工具。十五、WebSocketCrossbar:開源的應(yīng)用消息傳遞路由器;AutobahnPython:提供了WebSocket協(xié)議和WAMP協(xié)議的Python實現(xiàn)并且開源;WebSocket-for-Python:Python2和3以及PyPy的WebSocket客戶端和服務(wù)器庫。十六、DNS解析dnsyo:在全球超過1500個的DNS服務(wù)器上檢查你的DNS;pycares:c-ares的接口。十七、計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流與供應(yīng)鏈管理服務(wù)合同
- 2024-2025學(xué)年福建省福州市永泰縣三年級(下)期中數(shù)學(xué)試卷(含答案)
- 吉林省通化市梅河口五中2025屆高三上學(xué)期12月月考-生物試題(含答案)
- 特高壓變壓器租賃合同
- 銷售合同終止協(xié)議書
- 中醫(yī)五臟與六腑
- 2025年中考道法第一輪復(fù)習(xí)公開課一等獎創(chuàng)新教案七年級上冊第一單元《成長的節(jié)拍》
- 2025年度水利安全知識競賽試題及答案(共三套)
- 音樂一年級下冊第六單元 月兒彎彎欣賞 小白船教學(xué)設(shè)計
- 產(chǎn)后出血的病例討論
- 皮膚傷口用藥劑市場發(fā)展預(yù)測和趨勢分析
- 綠色食品 水稻生產(chǎn)操作規(guī)程
- xx小學(xué)校服價格評估方案
- S3000-CDS軟件操作手冊V2
- 社區(qū)教育數(shù)字化提升方案
- 體育協(xié)會賽事組織績效考核方案
- 年產(chǎn)10萬噸甲基叔丁基醚裝置生產(chǎn)工藝設(shè)計-學(xué)士學(xué)位畢業(yè)設(shè)計
- 地理課題的研究與演講模板
- DB11T 1888-2021 海綿城市雨水控制與利用工程施工及驗收標準
- 人教版2024-2025學(xué)年六年級數(shù)學(xué)上冊5.4 扇形的面積 同步練習(xí)(附答案解析)
- 【安踏體育跨國并購亞瑪芬體育的財務(wù)績效探究12000字(論文)】
評論
0/150
提交評論