




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
21技術(shù)方案建議書 51.1項目背景與需求理解 6 6 6省委省政府的戰(zhàn)略決策 6廣電總局的技術(shù)發(fā)展方向 6XX客戶對新媒體的發(fā)展規(guī)劃 7 8戰(zhàn)略目標 8項目目標 9 9承辦單位概況 現(xiàn)狀描述 合理化建議 標準化與模塊化 21 21可靠性與穩(wěn)定性 21先進性與兼容性 2安全性 221.2平臺設(shè)計方案 231.2.1總體技術(shù)架構(gòu) 24建設(shè)思路 24總體體系架構(gòu) 24 25系統(tǒng)技術(shù)架構(gòu) 28系統(tǒng)數(shù)據(jù)流轉(zhuǎn)和周邊關(guān)系 29 1.2.2大數(shù)據(jù)分析平臺和用戶數(shù)據(jù)中心 1.3項目進度計劃 1.3.1團隊組織保障與管理 項目組織概述 200團隊溝通管理 1.3.2質(zhì)量管控方案 質(zhì)量控制體系 質(zhì)量控制計劃 質(zhì)量控制措施 2121.3.3項目實施計劃 2171.4技術(shù)支持和售后服務(wù) 2211.4.1技術(shù)服務(wù)能力及承諾 技術(shù)咨詢和運維支持服務(wù) 22 系統(tǒng)升級服務(wù) 新增功能開發(fā)服務(wù) 故障救援服務(wù) 24 224建立維護檔案服務(wù) 0資料定期傳送及專題討論服務(wù) 25 售后服務(wù)具體措施 應(yīng)急措施 271技術(shù)方案建議書1.1項目背景與需求理解◆資源共享◆全面開放能部門7個,龜山廣播電視發(fā)射臺等所屬單位7個。臺(集團)內(nèi)容部門19個,擁有46家企事業(yè)單位(包括35家企業(yè)單位,7家轉(zhuǎn)企改制單位,4家事業(yè)單位)整合為16家。員工總數(shù)1.2萬人,總資產(chǎn)102.52億元?,F(xiàn)狀描述xxx年2月29日,我省委書記李鴻忠主持召開省委常委會會議,傳達學習2月19對外web服務(wù)器集群2基礎(chǔ)數(shù)2基礎(chǔ)數(shù)據(jù)存儲域防病毒服務(wù)82臺檢家服務(wù)82臺發(fā)布服務(wù)82臺引1草86臺編目工作站12日虛C化引1服務(wù)82甘臺目前現(xiàn)場有2個刀箱,每個刀箱內(nèi)有7個刀片,共14臺刀片服務(wù)器。每個刀片內(nèi)存為128G。若每臺服務(wù)器使用8G,每個刀片能虛擬16臺服務(wù)器。每個刀箱能虛擬112臺,兩個刀箱總共虛擬出224臺。目存儲總?cè)萘繛?89TB,已使用12TB,計劃擴容的服務(wù)器為26臺(包括8片刀服務(wù)器)。和實施方案。投標人須在2016年8月31日前,妥善完成原有平臺數(shù)據(jù)遷移、全部合理化建議互聯(lián)網(wǎng)域數(shù)據(jù)中心數(shù)據(jù)層數(shù)據(jù)中心交換層高可用對比表虛擬機在線遷移(無停機)有有有FC-SAN的外部自動負載均衡有有有需要第三方工具宕機后的自動轉(zhuǎn)移(有短暫停機)有有利用MSCSFC-SAN的外部宕機后的自動轉(zhuǎn)移(無停機)有有有無停機)有有有無兼容性對比表機支持64位的服務(wù)器是是是是支持有虛擬化指令的處理器(Intel-VT,AMD-V)是是是是支持所有Windows是是部分支持。不支持及更早的0S不支持2000/NT及更早的0S是是是支持其他OS,如SCO、是是否否1)在線擴容在集群中的兩臺服務(wù)器上部署Namenode實例(一主一備),而集群中的其它機器和NameNode使用相同的配置(可以直接從NameNode復制),修改2)負載均衡3)在線升級>應(yīng)用系統(tǒng)采用了什么開發(fā)模式,C/S還是B/S模式。建設(shè)思路構(gòu)建一個平臺和三級支撐,實現(xiàn)統(tǒng)一部署、統(tǒng)一維護、客戶端長江云政務(wù)新媒體融合平臺內(nèi)容、服務(wù)提供方省級提供方縣級提供方省級提供方縣級提供方省級業(yè)務(wù)運營平臺地市級業(yè)務(wù)運營平臺縣級業(yè)務(wù)運營平臺入融合管理平臺微一刪融合管理平臺微一縣級內(nèi)容、服務(wù)融總體體系架構(gòu)兩微一端兩微一端部期過AP一開發(fā)附試平臺丹基礎(chǔ)設(shè)施層(IaaS)統(tǒng)一運維監(jiān)控平臺大數(shù)據(jù)分析平臺務(wù)能內(nèi)容生大致調(diào)分折平臺基礎(chǔ)設(shè)施層是支撐整個平臺的硬件設(shè)備和網(wǎng)絡(luò)平臺,建立統(tǒng)、安全系統(tǒng)、存儲系統(tǒng)和系統(tǒng)基礎(chǔ)軟件等系統(tǒng),并通過虛擬化等技術(shù)手段合理組織、分配和管理基礎(chǔ)資源,為平臺支撐層和應(yīng)用運營層軟件平臺支撐層(PaaS)園運開發(fā)測試平臺來來建納容統(tǒng)一運維監(jiān)控平臺(安全、監(jiān)控、維護)互存視生產(chǎn)務(wù)2)建設(shè)統(tǒng)一的媒體內(nèi)容發(fā)布平臺3)建設(shè)統(tǒng)一的政務(wù)民生服務(wù)接入平臺5)建設(shè)統(tǒng)一的運營支撐平臺實現(xiàn)跨終端的用戶個性化內(nèi)容推薦,提升用7)建設(shè)云服務(wù)總線接口能力,提供標準接入及管理規(guī)范,支撐對內(nèi)8)建設(shè)統(tǒng)一運維監(jiān)控平臺9)建設(shè)移動客戶端匯聚全省兩微一端產(chǎn)品和第三方數(shù)據(jù)資源,針對地市縣的動客戶端,有效支持個性化需求,并部署開通。APP手機客戶端據(jù)運營推廣的要求,完成APP手機客戶端的各項功能的定制開發(fā)。未來建設(shè)內(nèi)容(藍色部分)3)建設(shè)能力開放API標準,具備對外服務(wù)銜接能力;建設(shè)統(tǒng)一的開發(fā)測試平臺,有效管控內(nèi)部信息資源的應(yīng)用開發(fā)流程,形成標準化作業(yè)和上下線各類應(yīng)用。系統(tǒng)技術(shù)架構(gòu)C服務(wù)籍堤營商、商業(yè)服務(wù)層應(yīng)用層流媒體平臺視級值曾須信源圖文橫源資源庫內(nèi)容生產(chǎn)資源采集層戶能力、數(shù)據(jù)匯總能力;批處理場景采取Hadoop的Map/R成;流式數(shù)據(jù)處理采用Sparkstreaming和Sparksql實現(xiàn),高效查詢服務(wù)基于Hbase及redis緩存技術(shù)實現(xiàn)。整體架構(gòu)可分為資源采集層、中央廚房層、應(yīng)用層、服務(wù)層。數(shù)據(jù)文件等提供高效的數(shù)據(jù)、文件采集技術(shù)。通過Flume計算框架,實現(xiàn)日志文件(如web日志、APP日志等)采集與解析;通過FTP方式實現(xiàn)對數(shù)據(jù)文件的采集;采用Kafka數(shù)據(jù)存儲與計算方面,基于分布式文件系統(tǒng)實現(xiàn)海量采用分布式文件系統(tǒng)提供統(tǒng)一的大數(shù)據(jù)數(shù)據(jù)存儲,滿足全Yarn提供跨平臺的資源管理,滿足資源的統(tǒng)一調(diào)度與管理;采用Hadoop和Spark實現(xiàn)統(tǒng)一認證和監(jiān)權(quán)統(tǒng)一認證和監(jiān)權(quán)新觀體應(yīng)用應(yīng)用咳入開發(fā)測試、服務(wù)管理、安全管理合們開渡生活務(wù)架圖文.營視揭件數(shù)據(jù)處理數(shù)演理本臺節(jié)直外地方編輯作日單、直增數(shù)據(jù)資源云服務(wù)總線:內(nèi)部共享開放經(jīng)視守臺業(yè)機構(gòu)教基中央廚房互聯(lián)號數(shù)據(jù)民生數(shù)據(jù)歡務(wù)數(shù)據(jù)作開發(fā)效務(wù)類服務(wù)應(yīng)用國情監(jiān)則生產(chǎn)>內(nèi)容生產(chǎn)平臺收錄本臺節(jié)目直播信號和地方臺流信號。3)新媒體云平臺內(nèi)部數(shù)據(jù)流轉(zhuǎn)的關(guān)系1.2.2大數(shù)據(jù)分析平臺和用戶數(shù)據(jù)中心數(shù)據(jù)加載處理數(shù)據(jù)處理系統(tǒng)針對新媒體云平臺用戶行為數(shù)據(jù)采用定時(一小時一次或者2小時一次)采集的方式,首先通過前端采集,采集新媒體云平臺用戶行為數(shù)據(jù),采集過來后通過Socket/Ftp把數(shù)據(jù)傳送給數(shù)據(jù)處理系統(tǒng),數(shù)據(jù)處理系統(tǒng)根據(jù)應(yīng)用要求對數(shù)據(jù)進行處理(過濾、去重、清洗等)直接傳送給相關(guān)應(yīng)用與數(shù)據(jù)庫。BDPEBDPE(預處理)采前端采集字段分拆記錄合并更多根據(jù)應(yīng)用要求對數(shù)據(jù)進行處理(過濾、去重、清洗等)直接傳送給相關(guān)應(yīng)用與數(shù)據(jù)庫。庫Kfska在進行集群擴展時(如增加節(jié)點),不應(yīng)對現(xiàn)有節(jié)點造成影響。數(shù)據(jù)解密.1.3公司數(shù)據(jù)抽取與轉(zhuǎn)換工具產(chǎn)品從技術(shù)層面來看系統(tǒng)將遵循S0A架構(gòu)思想進行構(gòu)建,按照軟件架構(gòu)設(shè)計分層理服務(wù)層作為產(chǎn)品的核心中樞主要承擔ETL作業(yè)組織、任務(wù)調(diào)度、作業(yè)狀態(tài)跟進、作業(yè)監(jiān)控管理、異常處理與服務(wù)質(zhì)量管理、集群資源管理等核心服執(zhí)行層作為產(chǎn)品的計算任務(wù)承擔點,產(chǎn)品中核心的數(shù)據(jù)處而應(yīng)用層則側(cè)重于從核心業(yè)務(wù)訴求基礎(chǔ)之上進行高度總結(jié)抽象后形成獨立的應(yīng)用控件,產(chǎn)品允許用戶可根據(jù)自身業(yè)務(wù)訴求采用參數(shù)化配置的方式起來形成一個完整的數(shù)據(jù)處理流程,在技術(shù)層面上主要運用指教慧指教慧任t注EQ\*jc3\*hps18\o\al(\s\up17(A),6)EQ\*jc3\*hps12\o\al(\s\up7(外),2)表工atbeat展現(xiàn)層服務(wù)層應(yīng)用層等5大功能模塊。公司BDPE軟件還根據(jù)業(yè)務(wù)應(yīng)用訴求特點將ETL數(shù)據(jù)處理流程中主要組件在系統(tǒng)中的動態(tài)注冊管理,依賴注冊手段實現(xiàn)組件與ETL服務(wù)層之間建立起聯(lián)動關(guān)系。在實際使用過程中允許ETL開發(fā)人員運用圖形化的界面配用執(zhí)行的狀態(tài)與數(shù)據(jù)流轉(zhuǎn)情況。另外在ETL應(yīng)用實現(xiàn)過程中還會開放相應(yīng)API訪問調(diào)用支持基于工作日歷的任務(wù)調(diào)度,如如:定義國慶節(jié)假能夠兼容IBMDataStage、Informatica、kettle等第三方工具,可產(chǎn)品采用Master-Slave模式、組件化開發(fā),能很好的實現(xiàn)容量、計算能力及應(yīng)用環(huán)節(jié)信息以日志文件的形式記錄相關(guān)操作過程,為后續(xù)數(shù)據(jù)稽..1功能說明1.默認情況下提供基礎(chǔ)通用的抽取功能,支持從不同2.選擇抽取方式進行配置,假設(shè)為批量抽取則需要指明相應(yīng)數(shù)據(jù)抽取數(shù)據(jù)源描述信息,如果設(shè)置為單次抽取則需要提供抽取數(shù)據(jù)特征前將獲取到相應(yīng)的配置規(guī)則再結(jié)合不同數(shù)據(jù)源特征開啟相應(yīng)的數(shù)據(jù)抽取作業(yè)。1支持手工和自動兩2與策略定義3支持對數(shù)據(jù)壓縮包能夠?qū)?shù)據(jù)壓縮包文件進行抽取,支持對數(shù)據(jù)壓縮包的4具備靈活的數(shù)據(jù)源定義管理能力支持對數(shù)據(jù)源的統(tǒng)一管理,對可支持的各種不同類型的數(shù)據(jù)源,允許以統(tǒng)一方式進行配置并獲取訪問5行數(shù)據(jù)抽取口,現(xiàn)階段主要支持的數(shù)據(jù)源包括:各種主流的關(guān)系型數(shù)據(jù)庫如Teradata、分布式數(shù)據(jù)庫、文本文件、任意格式XML文件、HDFS文件、網(wǎng)頁文件等6支持使用包括專用數(shù)據(jù)庫驅(qū)動接口、JDBC、ODBC接口等數(shù)據(jù)庫連接方式7支持基于日志的增量數(shù)據(jù)捕獲能力具備對日志進行增量數(shù)據(jù)捕獲抽取能力,能夠在變化數(shù)據(jù)捕捉和數(shù)據(jù)清洗過程進行無縫連接且提供圖形化界面設(shè)計和監(jiān)控變化數(shù)據(jù)的過程8提供豐富的數(shù)據(jù)抽取作業(yè)執(zhí)行狀態(tài)監(jiān)控管理能力提供豐富的圖形化界面設(shè)計和監(jiān)控數(shù)據(jù)抽取過程執(zhí)行狀態(tài)9具備數(shù)據(jù)抽取容錯處理機制提供對錯誤數(shù)據(jù)的進行檢測和處理能力,如進行記錄的過濾,能將發(fā)生錯誤的數(shù)據(jù)記錄到響應(yīng)的錯誤表中。例如對文件的輸入,可以過濾不符合規(guī)范的數(shù)據(jù)并且捕獲這些數(shù)據(jù)數(shù)據(jù)抽取過程日志支持在數(shù)據(jù)抽取過程中對數(shù)據(jù)記錄條數(shù)、開始時間、完成時間,錯誤信息等信息進行記錄保存支持文件批量采集,能夠按照指定周期進行采集,如分鐘、小時、日等實時采集支持實時采集,包括對文件中增量數(shù)據(jù)抽取、消息數(shù)據(jù)的實時采集等。壓縮文件不解壓讀取支持對于包括.rar,.zip,.gz等壓縮文件數(shù)據(jù)的不解壓(五)流式(實時)數(shù)據(jù)抽取(三)采集控件ETLETL平臺U2.抽取規(guī)則設(shè)置采集指令采集指令執(zhí)行結(jié)果執(zhí)行結(jié)果2.Agent管理端接收到Sever端采集指令后,會對指令進行分拆并進行相應(yīng)的資源消耗評估,并將指令轉(zhuǎn)換為可執(zhí)行程序命令,并將輸3.執(zhí)行程序不斷掃描存儲可執(zhí)行程序命令隊列,并逐一調(diào)起相應(yīng)的數(shù)據(jù)抽取作業(yè)任務(wù)進行數(shù)據(jù)抽取作業(yè),并將抽取到的數(shù)據(jù)通過管道提交給Agent管理進行匯公司BDPE產(chǎn)品在實現(xiàn)過程中通過批量數(shù)據(jù)抽取與流式(實時)數(shù)據(jù)抽取二種模式述文件FS實時據(jù)不填件統(tǒng)一作業(yè)調(diào)度管理中心(自動/手動作業(yè))-采集(“落地”)方式將無法較好地滿足應(yīng)用訴求,因此建議采用流式(實時)數(shù)據(jù)抽取來提升采集能力。流式(實時)數(shù)據(jù)抽取過程的技術(shù)實現(xiàn)思路如下圖所示:Franelork(基鏈技米組件,解決,流控,并發(fā),上下文數(shù)據(jù)處理通神分在流式(實時)數(shù)據(jù)抽取過程的主要工作步驟如下:完成數(shù)據(jù)處理等業(yè)務(wù)問題(分為Reader、Writer、Process三大類插件);(輸出)數(shù)據(jù)源.夠及時適應(yīng)接口的變更和異常處理;而數(shù)據(jù)校驗依附在數(shù)據(jù)抽取取過程可能產(chǎn)生的異常錯誤信息,總體來看數(shù)據(jù)校驗是ETL過程保障數(shù)據(jù)質(zhì)量的重要手1數(shù)據(jù)校驗記錄文件獲取與信息解析支持對數(shù)據(jù)抽取過程中記錄的日志文件進行獲取,并輸入數(shù)據(jù);2提供豐富的數(shù)據(jù)異常值校驗、按照用戶定義的邏輯規(guī)則校驗等3提供靈活的數(shù)據(jù)支持對數(shù)據(jù)校驗規(guī)則進行靈活定義,可以自定義數(shù)據(jù)校驗規(guī)則結(jié)構(gòu);提供圖形化數(shù)據(jù)校驗規(guī)則設(shè)置功能,允許對校驗規(guī)則進行維護、優(yōu)化等處理4依托數(shù)據(jù)校驗提供全面的數(shù)據(jù)質(zhì)能夠根據(jù)設(shè)置的數(shù)據(jù)校驗與監(jiān)控規(guī)則或算法,對接口級、字段級執(zhí)行相應(yīng)校驗檢查,并依據(jù)稽核和檢查過程中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量異常情況進行告警過程。記錄級校驗:主要包括提供字段類型、字段長度、數(shù)字精度、取值范圍、1數(shù)據(jù)清洗規(guī)則2數(shù)據(jù)處理過程支持對數(shù)據(jù)處理過程的日志記錄,記錄的信息主要包括:元數(shù)據(jù)記錄、轉(zhuǎn)換后數(shù)據(jù)記錄、運用的轉(zhuǎn)換規(guī)則、轉(zhuǎn)換的時間等內(nèi)3內(nèi)置豐富的數(shù)據(jù)處理組件的轉(zhuǎn)換、字符編碼轉(zhuǎn)換;支持實時流數(shù)據(jù)的合并與計算;支持批量小文件合并;支持任意合理的數(shù)據(jù)類型轉(zhuǎn)換;支持數(shù)據(jù)內(nèi)容轉(zhuǎn)換,如通過關(guān)聯(lián)關(guān)系,將A數(shù)據(jù)源中的數(shù)據(jù)清洗為數(shù)據(jù)源B中的數(shù)據(jù);支持多字段的混合運算,運算規(guī)則可靈活配置,包括但不限于:sum、max、min、avg等;支持各種字符操作,包括但不限于:字符替字符連接;支持記錄和字段的抽取,支持對抽取的數(shù)據(jù)進行聚合。保證轉(zhuǎn)換后的誤差在規(guī)定的范圍內(nèi);支持空值處理:捕獲空值,根據(jù)規(guī)則替換為對應(yīng)數(shù)據(jù);支持數(shù)據(jù)格式化:統(tǒng)一數(shù)據(jù)源中同類數(shù)據(jù)的格式,具體包括時間、數(shù)值、字符、計量單位等數(shù)據(jù);支持數(shù)據(jù)替換:根據(jù)規(guī)則用標準數(shù)據(jù)替換原來的數(shù)據(jù),支持各種碼表映射,例如用標準編碼替換業(yè)務(wù)系統(tǒng)自定的編支持復雜條件過濾,過濾條件可靈活配置;支持數(shù)據(jù)去重處理,產(chǎn)品可按照用戶定義的規(guī)則自動判斷重復數(shù)據(jù),并按照用戶定義的規(guī)則處理重復的數(shù)據(jù)。;支持記錄間合并、支持將一條記錄按照可配置的規(guī)則拆分為多條記錄;支持行、列變換;支持Flume等開源技術(shù)實現(xiàn)數(shù)據(jù)清洗;支持一個數(shù)據(jù)表中多個列的合并;支持數(shù)據(jù)脫敏,支持定制化的加密算法;支持跨異構(gòu)數(shù)據(jù)庫的關(guān)聯(lián);支持將多個異構(gòu)數(shù)據(jù)表合并為一個表;支持將一個數(shù)據(jù)表拆分為多個數(shù)據(jù)表;支持多種規(guī)則排序;支持多種統(tǒng)計方式;具備度量衡等常用的轉(zhuǎn)換函數(shù);在轉(zhuǎn)換過程中支持數(shù)據(jù)比較的功能;支持數(shù)據(jù)清洗及標準化;支持按行、按列的分組聚合;具備良好的參數(shù)處理機制等;ETL處理過程支持各種字符集的轉(zhuǎn)換;支持敏感數(shù)據(jù)使用定制化加密算法;支持海量數(shù)據(jù)處理引擎,如Hive、MPP、Spark等4數(shù)據(jù)清洗異常處理支持定義外部數(shù)據(jù)記錄的錯誤限制,如超過一定條數(shù)記錄就拋出異常,中斷處理流程;支持校驗點,當外部數(shù)據(jù)記錄特別龐大時,如果因為某種原因發(fā)生故障中斷后,可以從最近的校驗點開始恢復處理接口表元數(shù)據(jù):《..4打破以往ETL過度依賴庫內(nèi)計算能力的來實現(xiàn)數(shù)據(jù)清洗操作的狀況,依托并行計算硬編碼圖1.2-1公司BDPE產(chǎn)品基于硬編碼實現(xiàn)數(shù)據(jù)清洗實現(xiàn)思路示意圖碼表映射;>統(tǒng)一字符集轉(zhuǎn)換2.基于庫外計算進行數(shù)據(jù)清洗圍繞庫外計算+并行處理來實現(xiàn)對大數(shù)據(jù)量、轉(zhuǎn)換規(guī)模復雜類型轉(zhuǎn)換處理應(yīng)用場景字段分拆格式轉(zhuǎn)換字符轉(zhuǎn)換實時計算中心(流式計算引擎)接口機復雜類型轉(zhuǎn)換處理庫外計算+并行處理轉(zhuǎn)換M/R0新建;遇用命等新建;遇用命等添加自部銷據(jù)交支持主流關(guān)系型數(shù)據(jù)庫DB2、Oracle、Teradata等、支持主流的MPP數(shù)據(jù)庫Greenplum、Aster、Gbase、Vertica等、支持Hadoop生態(tài)的HDFS、HBase等2支持數(shù)據(jù)批量加載支持數(shù)據(jù)批量進行加載3支持多種加載模式與策略定義具備全量、實時、雙加載;允許靈活定義加載策略;4支持文件落地和不落地兩種存儲落地加載是將數(shù)據(jù)源保存在ETL物理服務(wù)器中,進行中,不在物理機上保存而實現(xiàn)的加載。5支持自動和手工時,應(yīng)提供操作界面以人工干預的方式來重新啟動數(shù)6支持多任務(wù)并行具備支持數(shù)據(jù)的并行加載,即支持多個數(shù)據(jù)庫連接同一加載任務(wù)的并發(fā)執(zhí)行。7支持加載對象的具備加載對象的參數(shù)配置功能,將數(shù)據(jù)加載過程中需要設(shè)置的命令、參數(shù)、規(guī)則進行配置,控件會自動生成相應(yīng)的可執(zhí)行代碼,來完成作業(yè)。8過濾具備基于數(shù)據(jù)屬性值的過濾加載。9支持腳本加載事在加載實現(xiàn)過程中支持提供SQL、HQL、SHELL等不同類別的行為定義腳本,數(shù)據(jù)加載執(zhí)行組件將根據(jù)定義行為腳本類型調(diào)起相應(yīng)的腳本執(zhí)行來加載到數(shù)據(jù)。支持數(shù)據(jù)加載對目標表的操作支持數(shù)據(jù)加載對目標表的追加、更新、刪除等支持異構(gòu)目標庫多加載支持數(shù)據(jù)加載的錯誤限制支持數(shù)據(jù)加載的錯誤限制,如發(fā)現(xiàn)最多1000條錯誤數(shù)據(jù)記錄時停止加載支持文件推送功能支持文件推送功能,具備將文件通過FTP/SFTP推送到外部系統(tǒng),例如CRM/BOSS等提供豐富的數(shù)據(jù)態(tài)監(jiān)控管理能力提供豐富的圖形化界面設(shè)計和監(jiān)控數(shù)據(jù)加載過程執(zhí)行狀態(tài)數(shù)據(jù)加載過程日志記錄支持在數(shù)據(jù)加載過程中對數(shù)據(jù)記錄條數(shù)、開始時間、(二)流式(實時)數(shù)據(jù)加載PO0.庫內(nèi)稻核巧和模功能說明1斷點續(xù)傳2一致性保證在數(shù)據(jù)加載過程中支持對信息集成器聯(lián)合體服務(wù)器,源源OO1)文件到數(shù)據(jù)庫當當方案時文件程FTP2)文件到HDFS當當新方案方案3)文件到HBase方案二:5)數(shù)據(jù)庫到數(shù)據(jù)庫可可案新方案三新方案四當前方案新方案6)數(shù)據(jù)庫到HDFS當前方案新方案新方案當前方案:通過Sqoop讀取數(shù)據(jù)寫入HDFS,并做數(shù)據(jù)清洗,借助DISTCP將HDFS拷貝到目標HDFS。新方案一:通過高性能導出組件并行調(diào)用數(shù)據(jù)庫底層接口抽取數(shù)據(jù),借助HDFS高新方案二:通過Sqoop讀取數(shù)據(jù)寫入HDFS,并借助Spark做數(shù)據(jù)清洗,再寫入目需要將數(shù)據(jù)庫中的數(shù)據(jù)抽取加載到HBase中。當前的云化ETL不支持對流處理平臺的數(shù)據(jù)加載,需要引入新技術(shù)支持此場景。案新方案一通過高性能抽取組件并行調(diào)用數(shù)據(jù)庫底層接口抽取數(shù)據(jù),在Spark中做數(shù)據(jù)清洗,新方案二通過Sqoop讀取數(shù)據(jù)寫入HDFS,借助HTLOAD做數(shù)據(jù)清洗并加載到HBase。1)流數(shù)據(jù)到數(shù)據(jù)庫流處理新方案新方案新方案一2)流數(shù)據(jù)寫入流流數(shù)據(jù)流數(shù)據(jù)KAFKA流數(shù)據(jù)3)流數(shù)據(jù)到HDFS需要引入新技術(shù)支持此場景。流處理案新方案新方案一流處理平臺直接將數(shù)據(jù)寫入HDFS。新方案二流數(shù)據(jù)處理平臺將數(shù)據(jù)推送到kafka,借助Flume將Kafka中的消息寫入4)流數(shù)據(jù)到HBase將流處理平臺的數(shù)據(jù)加載到HBase。當前的云化ETL不支持對流處理平臺的數(shù)據(jù)加新方案流處理平臺將數(shù)據(jù)發(fā)送到kafka,用Flume來將Kafka中的數(shù)據(jù)寫入HDFS,通過5)文件到流流轉(zhuǎn),支撐實時應(yīng)用需求。當前的云化ETL不支持對流處理平臺的數(shù)據(jù)加載,需要引入新方案:通過Flume實時監(jiān)控采集文件數(shù)據(jù),通過消息中間件Kafka將消息數(shù)據(jù)推6)流數(shù)據(jù)到文件統(tǒng)一調(diào)度通用調(diào)度YARN調(diào)度ETL調(diào)度1)流程配置基存ct0ctathtalmut/mC//m3m2C1.0Tspitisal//Drdulols-attpi//w..otahatat-tpe'atalstederalet*daralpet'd…suran"noui/Aaeaalato-1catsotdetaultbegroan0是>字典參數(shù):參數(shù)來源是字典表中的某個字段值,有sql語句表示,系統(tǒng)可以自己替換,并生成多條命令并列執(zhí)行。3)策略配置1)調(diào)度權(quán)限Job權(quán)限管理支持將多個相近job流程可以劃分為一Job組333>Jo調(diào)度1Jal組333(2)人李超群個Job1權(quán)限讀寫人李超人李超讀讀讀會工程組2)調(diào)度配置管理3)消息定制時),然后選擇通知方式(郵件或短信);當job流程發(fā)生錯誤時,后臺程序會自動的1)調(diào)度腳本置中和面孵物目膠新建:通用命令顯1到1共1記錄品顯示前數(shù)值參數(shù)順序參數(shù)類型是否顯示前綴參數(shù)格式參數(shù)值2)調(diào)度存儲過程3)調(diào)度外部程序系統(tǒng)公告展示區(qū)域JOBID[374]NAMECMD_遠程執(zhí)行OBID[374]NAMECMD_遠程執(zhí)行命令功能]02015-05-0510:41:27JOBID[469]NAMEFTP_采集_大批前臺請求停止運行序列號(20150505102810952015-05-0510:29:27JOBID[443]NAMEORACLE_裝載_3JOBID[443]NAMEORACLE_裝載_多JOBID[374]NAMECMD_遠程執(zhí)行0執(zhí)行一個程序開發(fā)管理平臺開發(fā)配置的函數(shù)系統(tǒng)封裝好的函數(shù)資源情況、心跳反饋資源反饋,心跳反饋到消息總線機制執(zhí)行一個操作系統(tǒng)的命令清晰轉(zhuǎn)換的功能文件記錄級清新轉(zhuǎn)換跨平臺(aster、spark、不同的平臺需要一些個性化的函數(shù)任務(wù)積壓,異常管理agent宕機,重啟等..10任務(wù)狀態(tài)更新當agent執(zhí)行完一個任務(wù)會給消息總線發(fā)送一個事件或外部系統(tǒng)給消息總線發(fā)送后續(xù)任務(wù)的狀態(tài)的更新算法如下:后續(xù)任務(wù)依賴的前置的任務(wù)的狀態(tài)全部為完..11任務(wù)運行報告00t所有入員日王曉段4個入*城#入,加入入度入入,入率#入率入4x46個,入城#入支持主Server和備用Server通過前臺頁面點擊添加節(jié)點,選擇節(jié)點類型(備用Server或者Agent),選擇及從Agent。執(zhí)行命令在執(zhí)行任務(wù)過程中,如果主ServerA異常,當備用ServerB啟動后,Magent根返回B想要知道的任務(wù)執(zhí)行情況,從而B可以接管A的所有工作,從而實現(xiàn)代理的異常..22Agent監(jiān)聽是指Server定時發(fā)送消息給Magent,Agent如果處于正?;顒訝顟B(tài),Magent會立刻返回消息作為應(yīng)答,告訴Server當前Agent運行正常;如果Agent運行Agent監(jiān)聽時序圖如下:程運行進度日志是實時的,需要用戶在設(shè)定執(zhí)行命令時,增加日從Agent分為進程執(zhí)行agent和日志獲取agent;從agent運行時存放在線程池中,線程池最大線程數(shù)可以在第一次安裝agent時設(shè)定;進程執(zhí)行=從agent是調(diào)用進程執(zhí)要查詢相應(yīng)日志時才啟動。線程池中的活躍線程會實時的被magent獲取并返回給開始開始返回日志包裝日志度點和12點執(zhí)行。1J重4J個4本件8器關(guān)田關(guān)田jobl生處時間2014年05月23日094923失處時間jpb1與條件觸發(fā)關(guān)系:2013年01月01日0949.23保關(guān)田提供臨時調(diào)度方式(用于測試、調(diào)優(yōu)、重新執(zhí)行),由用戶手工執(zhí)行。消息服務(wù)器<如果用戶選擇了Job流程類定制,還需要選擇定制級別(提示,告警,錯誤,延時),然后選擇通知方式(郵件或短信);當Job流程發(fā)生錯誤時,后臺程序會自動的根據(jù)用調(diào)度API。2.對外接口ETL系統(tǒng)需要對面提供調(diào)度和ETL處理過程能力,外部系統(tǒng)可以通過API,表接口等方式和ETL系統(tǒng)完成功能銜接。ETL系統(tǒng)需要通過API接口對外提供調(diào)度與ETL處理能力,輸入?yún)?shù):函數(shù)名稱功能說明執(zhí)行調(diào)度執(zhí)行一個存在的調(diào)度新建一個調(diào)度2)表配置接口ETL系統(tǒng)可以通過表接口方式對外提供功能調(diào)度字段名字段類型Soapurl:http://IP:port/etl/servce調(diào)用輸入?yún)?shù):名稱類型job編碼周期類型開始時間下次開始時間o經(jīng)分主庫工作C區(qū)jobC1jobD1事件前觸發(fā)是指某一個任務(wù)/作業(yè)流程依賴于外部數(shù)據(jù)插進行觸發(fā)。當外部數(shù)據(jù)插入事件觸發(fā)表后,同時系統(tǒng)對任務(wù)/作業(yè)事件后觸發(fā)是指外部系統(tǒng)程序的啟動依賴于任務(wù)/作業(yè)流完成,當任務(wù)/作業(yè)流程中該執(zhí)行任務(wù)節(jié)點執(zhí)行完成后,..30條件依賴是指某一個任務(wù)/作業(yè)流程依賴于一個或幾通過后,依賴的任務(wù)/作業(yè)流程根據(jù)調(diào)度系統(tǒng)中的流程id和數(shù)據(jù)日期立即執(zhí)行一次調(diào)度u度朵件發(fā)調(diào)務(wù),日可以執(zhí)行;月依賴日,即日完成每月最后一天的調(diào)循環(huán)調(diào)度指在生效時間內(nèi),任務(wù)/作業(yè)運行完畢后又重新運行,進行循環(huán)操作,直生效時間:2014年01月01日00:00:00失效時間:2014年01月01日00:00:002.為了滿足一個任務(wù)/作業(yè)的執(zhí)行可以依賴多種組合調(diào)度就是將幾種觸發(fā)方式按照與或兩種關(guān)與表示各個觸發(fā)條件都滿足,該任務(wù)/作業(yè)才能觸發(fā)執(zhí)行,或表示各個觸發(fā)條件只需要滿足其中一個,任務(wù)/作業(yè)就可以觸發(fā)執(zhí)行,同時與和或的關(guān)系也可以同時設(shè)定,與的關(guān)系,同時和事件觸發(fā)組成或的關(guān)系,事件觸發(fā)條件滿足時,該任務(wù)/作業(yè)流程可jpojpo-Weaanng加條件job-wendang-011J0Bjobwendang20制,如配置了最早運行時間是9:00,最遲運行時間是12:00,則如果當前時間BBPE大數(shù)據(jù)處理與交換平臺t□dQ921核1s6210os日10os目10os日2015-的n30002015-0-1s11.3002213-.000006213-01.0000098150501.0000062015-52015-0490400002013--2015-5.0410.2013-05-02013-050910442013--0JobJob監(jiān)控詳細信息停Be節(jié)點重2014-08-2615:43:31正在與服務(wù)器建立連接2014-08-2615:43:32與服務(wù)器連接建立成力,請等待回數(shù)據(jù)…)xyjob40所在位匱系統(tǒng)公告展示區(qū)域時標為已讀標為未讀信息生成時問JOBID[374]NAME[CMD_遠程執(zhí)JOBID[374]NAME[CMD_遠程執(zhí)JOBID[469]NAME[FTP_采集_大前臺請求停止運行序列號[2015050510281095JOBID[443]NAME[ORACLE_裝載_JOBID[443]NAME[ORACLE_裝載_JOBID[374]NAME[CMD_遠程執(zhí)4第1>正在運行:這種狀態(tài)是最正常的,表示流程正在調(diào)度中。>運行成功:任務(wù)正常運行成功。2013年09月25日12.56.09區(qū)行狀歷史信息環(huán)境/參具件上線上線.產(chǎn)品首頁集中展現(xiàn)了包括作業(yè)監(jiān)控、任務(wù)監(jiān)控、流程監(jiān)控控、主機運行狀況以及我所關(guān)注的JOB在內(nèi)的信息。用戶可通過首頁快速、直觀獲取相停停2示1邪共seO0開發(fā)前臺北京法量系練E機開發(fā)專用1)流程設(shè)計2)調(diào)度配置08m20+選:星否可以開行言可手工+選:星否可以開行言可手工3)流程管理通過流程管理模塊實現(xiàn)對流程的查詢、刪除、加鎖/解鎖操作,并實現(xiàn)對JOB執(zhí)行*s44)流程監(jiān)控通過流程監(jiān)控的可視化界面實現(xiàn)對JOB組及重點現(xiàn)JOB總數(shù)、運行數(shù)、完成數(shù)、掛起數(shù)、延時數(shù)等信息。通過可查詢JOB作業(yè)的狀態(tài)、進度、節(jié)點總數(shù)、成功數(shù)等信息。可通過手工田口92控系**5)集群監(jiān)控數(shù)據(jù)處理與交換平臺2015年06月9目10-21:6412013年09月25日12.56.09今m件運狀R歷史信息6)系統(tǒng)管理組管理、FTP管理、系統(tǒng)設(shè)置、應(yīng)用管理、JOB流程審批、日志查詢等管理功能。系統(tǒng)0理中率加用用國iT開x號8.nn試用H0具口m理7)模板管理BDPE產(chǎn)品通過構(gòu)建和利用模版高效建立job流程,提升系統(tǒng)job構(gòu)建流程。ETL模板是一個特殊的job流程,不可運行。新建模板新建模板×其摩相板其摩相板顯子0致0,#記錄旦旦Q1)事前數(shù)據(jù)質(zhì)量監(jiān)控2)事中任務(wù)執(zhí)行監(jiān)控尋找出指標處理路徑上的程序、接口節(jié)點,在根據(jù)每個處理過程節(jié)點的質(zhì)量監(jiān)控檢測,發(fā)現(xiàn)有問題的處理環(huán)節(jié),以幫助快速定位,能幫助運維人員快速處理。BDPE產(chǎn)品可以記錄告警信息,告警信息可以在日志文件中被查看到,或通過圖形化界面的方式展示。告警記錄具體信息應(yīng)包括:告警名稱、類別、嚴重性、告警具體內(nèi)容等。告警信息可通過短信、郵件等方式及時發(fā)送給監(jiān)控人員。同時,提供對數(shù)據(jù)處理流程中所有的任務(wù)總數(shù)、運行數(shù)、完成數(shù)、掛起數(shù)、延時數(shù)等信息進行監(jiān)控分析和對調(diào)度中心的集群監(jiān)控功能實現(xiàn)對Server、Agent服務(wù)器的監(jiān)控,如服務(wù)器的內(nèi)存使用率、I/0吞吐量、CPU使用率、物理機器資源占用等信息進行分析3)事后分析日志監(jiān)控提供對所有操作的日志記錄及查看功能,如應(yīng)支持審計日志、錯誤診斷日志、跟蹤日志(會話級)等日志類型,并提供針對整個數(shù)據(jù)處理過程的基于日志的數(shù)據(jù)統(tǒng)計與分析。…1一………1111!11…氣a在進行集群擴展時(如增加節(jié)點),不應(yīng)對現(xiàn)有節(jié)點造成影響。訪問控制區(qū)只可工作區(qū)jobB1jobB2jobC2作業(yè)調(diào)度關(guān)系,即可實現(xiàn)多系統(tǒng)、多用戶的協(xié)同調(diào)度。目前公司BDPE軟件提供時間觸時間觸發(fā)R循環(huán)觸發(fā)插環(huán)接作,直至obt到失效時間條件觸發(fā)幾個的置的job施程的完周進行校發(fā)盈事件觸發(fā)外配入性觸發(fā)表,后臺根組合觸發(fā)提供同時置多個腔發(fā)規(guī)則,觸發(fā)則間提供與成關(guān)系..4支持對于包括.rar,.zip,.gz等壓縮文件數(shù)據(jù)的不解壓讀取,減少壓縮與解壓帶布式處理,首先將依據(jù)事先設(shè)定的文件拆分策略(策略也可以人工調(diào)整),將大數(shù)據(jù)文件進行拆分,并給各個節(jié)點,然后對拆分后的所有小文件同時進行采集、轉(zhuǎn)換和加載,F(xiàn)TP采集FTP采集哦1.不落地加載PO0.處理深度分析云接口機ETL平臺庫內(nèi)相核庫內(nèi)稻核源源訂回aa499t調(diào)度調(diào)度監(jiān)控流程組件Hadoop組件計算組件功能組件√支持臟讀;√支持數(shù)據(jù)去重;√支持記錄拆分;√支持字段拆分;√支持行列變換;√支持多種規(guī)則排序;√支持多種統(tǒng)計運算;√支持數(shù)據(jù)預覽;√支持參數(shù)化配置;√支持各種字符集;√執(zhí)行性能統(tǒng)計;√顯示任務(wù)調(diào)度狀態(tài);√系統(tǒng)資源使用情況;√錯誤與異常信息;在進行集群擴展時(如增加節(jié)點),不會對現(xiàn)有節(jié)點造成影響;時間(MTTR)需小于2小時;可為用戶解決把內(nèi)容推薦給誰的問題,即使是僅基于用戶注冊信息(如:興趣愛好)的1.提升用戶需求的深度洞察能力2.提升視頻、新聞等內(nèi)容的精準推薦能力3.提升面向客戶的產(chǎn)品精細化運營和服務(wù)能力4.提升產(chǎn)品的用戶體驗、用戶粘性、用戶規(guī)模用戶面信管理慕統(tǒng)用戶斷查海內(nèi)容推醇累統(tǒng)應(yīng)用體系數(shù)據(jù)處理數(shù)據(jù)√挖掘信息:身份特征(家庭主婦、外籍人士等);人生階段(大學青年、);從事職業(yè)(教育專家、);個人愛好(黨史迷、電影達人等)。社會屬性指用戶近三個月使用公司產(chǎn)品時(例如觀看點播視頻):1)80%(含)以上的視頻均是該視頻上架后的24小時(含)內(nèi)被該用戶觀看,得滿分10分;2)80%(含)以上的視頻均是該視頻上架后超過96小時(含)被該用戶觀看,得0分;1)直接映射的方式2)規(guī)則判斷的方式平臺支持通過界面編輯標簽值提取規(guī)則(正則表達式),歷史視頻中只有1次的時間差(視頻上映時間與用戶實際觀看時間)為1周以內(nèi)(假設(shè)一般次數(shù)至少要3次以上(具體多少次要根據(jù)業(yè)務(wù)對準確性的要求決定)。2)集中度史視頻中有8次的時間差在1周以內(nèi),2次的時間差在1周以上,則可以把該用戶“追體系),但不知道每個標簽的具體統(tǒng)計口徑(規(guī)則)的情況。模型挖掘類標簽生成屬于的構(gòu)建和社會屬性類標簽的構(gòu)建。仍以“追新型”標簽的生成為例,假設(shè)開始并不知1)通過設(shè)定正負樣本數(shù)據(jù),利用決策樹算法找出正樣本數(shù)據(jù)的關(guān)鍵特征規(guī)則。為數(shù)據(jù)定義為負樣本,然后通過決策樹算法,找出正樣本(“追新型”用戶群)的關(guān)鍵特征規(guī)則,最后將這些關(guān)鍵特征規(guī)則自動轉(zhuǎn)換成“追2)通過關(guān)聯(lián)分析或協(xié)同過濾算法,預測用戶是否為某標簽的潛在用戶。主要用于利用用戶的歷史行為數(shù)據(jù)內(nèi)容無法直接用用用戶的歷史行為數(shù)據(jù)判斷某個用戶是否為“阿里旺旺的潛在用戶”,這時可以采用協(xié)有潛在需求為例。先統(tǒng)計購買Iphone6的人群接著又購買了什么(假設(shè)大部分人都會購買Iphone6手機殼、手機貼膜),然后建立Iphone6與這些物品(Iphone6手機殼、手機貼膜)之間的關(guān)聯(lián)度,最后將購買了Iphone6,但沒有購買與Iphone6關(guān)聯(lián)度高的其“Iphone6手機貼膜潛在用戶”。生成分析圖選一個或析一個或確定分析主屬性編碼屬性名稱屬性描述屬性類型備注唯一標示TOP02綿這道舌動,0元的機¥★近6個月ARIU:234,243,423,42食據(jù)過出用戶近6個月幾A平均使用時長(份鐘)12580營興百科15元半年也即將到期用戶頻繁升級投雨用戶好友計規(guī)錯在客戶期抉機過的月戶是換三流終端后使用時間在4-6個月★中異動客戶在同時長一午九個月以內(nèi)tt當前用戶為:VIP用戶標等分營數(shù)據(jù)層計算晨功能慧客戶分聽所 aEQ\*jc3\*hps19\o\al(\s\up3(感),元B)健(MoicoDB)用戶的類生成機器學習&法09寫地目分言,員工99+相·/·礎(chǔ)營銷導航標答市營銷導航標答市0產(chǎn)品訂的餐分責凌量訂購加訂購用戶日上月件訂購戶月查詢標簽分類新建標簽分類數(shù)據(jù)狀態(tài)為已生效(無子標簽)可以進行刪除操作。標簽檢索新建標簽標簽編輯①①標簽②部門滕導審批(③信息市核④款據(jù)處理⑤t5成標簽刪除新增標簽gg簽8戶經(jīng)■中思8戶經(jīng)■中思訴答停用標簽下線標簽修改標簽修改標簽修改標簽刪除標簽搜索O0度創(chuàng)建客戶群早已選4個創(chuàng)建客戶群u畫EQ\*jc3\*hps12\o\al(\s\up9(pn),a月)EQ\*jc3\*hps22\o\al(\s\up1(i),a)wEQ\*jc3\*hps12\o\al(\s\up9(0nd),uo)-EQ\*jc3\*hps12\o\al(\s\up9(mx),m)r的用戶群。創(chuàng)建為一個用戶群。可導入清單的附加屬性。靜入的建言廣麗靜入的建言廣麗客戶分向:@相似用戶群ynunL0413_001清章列康的建客戶懈-0413-條伴設(shè)置×已選條件[已選青單:101405]喜戶樣男性(翻譯)[已選青單:301405]l已選擇錄件抗州師范學院首樂美×學院物江教學院機州師范字院古湯校區(qū)用戶群剔除ynh_0413.000_清單列用戶群:2喀戶群已選青單:20145]且用戶群:富戶群勝()已選清單:211405]且所在學校已選條件:0X支付類型單個存支付類型記選擇條件:1,248,16,3.64,128,256,512]0X2選擇標基2個用戶群抽樣最置現(xiàn)則最置現(xiàn)則廠金能和r日期200年月戶姓明1>用戶群清單霉戶事力級人鍵1-11共輩省中心操作通財付通控卡0件Ct器卡查州二進制8組合保存客戶料力紅人:2015-0417170841管理員11-1組房1非共罩1作·大于小于0001女效u:戶e1分研服分析口w用戶可以將多個自助分析工作表保存為分析報告,分析報告可以被該用戶群套用以生成不同周期清單的分析結(jié)果,分析報告也可以被其他規(guī)則相似的用戶群套用。..20用戶畫像p數(shù)據(jù)庫中,Hbase本身能夠提供大數(shù)據(jù)量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的高速讀寫操作,為高了用戶畫像查詢的速度。在在1億用戶情況下,畫像結(jié)果查詢速度不超過2秒。全用戶全用戶EQ\*jc3\*hps12\o\al(\s\up3(事),傳)EQ\*jc3\*hps12\o\al(\s\up7(者),得)EQ\*jc3\*hps10\o\al(\s\up4(g),r)通設(shè)更多排行榜基強M門標答系統(tǒng)熟門客戶器最新發(fā)布標簽基強M門標答系統(tǒng)熟門客戶器最新發(fā)布標簽最新發(fā)布右廣器2結(jié)移動我據(jù)上F量(月)互研月-份應(yīng)用訪量(月)基本露的生效口#(月)MA-級內(nèi)音訪用戶(月)i靜#vLA6J購用戶日)顯示所有當前用戶設(shè)置收藏的標簽和用戶群。默認顯示按照收藏時間從近到遠排列。顯示信息和操作功能列表與標簽和用戶群搜索列表相同。并提供取消收藏的功能。6E客戶器收藏操消息管理產(chǎn)品提供系統(tǒng)消息及公告的管理功能。該功能模塊為登錄人提供個人的業(yè)務(wù)信息查看功能,包含系統(tǒng)公告、個人通知等。用戶登錄系統(tǒng)后可在消息管理頁面查看到所有發(fā)送給自己的個人通知和系統(tǒng)公告,系統(tǒng)公告的類型包括:標簽發(fā)布、新功能上線、標簽下線。系統(tǒng)還提供個人消息通知設(shè)定功能。用戶可自行選擇是否接收某類消息。內(nèi)西內(nèi)西個人通知em0mt系統(tǒng)幫助系統(tǒng)各頁面均提供幫助懸浮功能,提供進入“我的收藏”快速鏈接;提供“30s操作”,幫助用戶快速了解如何使用系統(tǒng);提供“返回頂部”功能。“30s會操作”功能,是采用下一步提示圖片結(jié)合備注文字,指導用戶如何使用系統(tǒng)快速創(chuàng)建用戶群,快速幫助用戶了解用戶群生成全流程。驗,外部如電信行業(yè)(典型企業(yè)如中國移動等運營商);內(nèi)部如傳媒業(yè)(典型企業(yè)如各(內(nèi)容管理系統(tǒng))剪切(視頻管理)文件屬性:內(nèi)在屬性b1內(nèi)在屬性a2關(guān)系屬性A2關(guān)系屬性文件屬性內(nèi)在屬性b2相同/相近關(guān)內(nèi)容所屬的又件標識及狀態(tài)標識從內(nèi)容制作、修改,到尼終審核發(fā)布的各節(jié)點時間內(nèi)容的制作入、編輯、責任人等相關(guān)干系人信息內(nèi)容出版單位、授權(quán)人等相關(guān)版權(quán)信息內(nèi)容碼率、播放時長等制作信息從內(nèi)容原文口提煉出的用于描述內(nèi)容的相關(guān)信息,包活:人物、時間、地點等基于內(nèi)容描述信息定義的內(nèi)容題材分類,包括政治、軍事、財經(jīng)等基于內(nèi)容描述信息定義的內(nèi)容情節(jié)分類,包括愛情、喜劇等基于內(nèi)容描述信息定義的內(nèi)容形態(tài)分類,包括新聞、賽事、紀錄片等內(nèi)容的從屬關(guān)系,如:舊屬欄目、歸屬頻道等內(nèi)容描述信息中存在相同值或相近值的內(nèi)容基于自定義規(guī)則從而存在相關(guān)性內(nèi)容;基于數(shù)據(jù)挖據(jù)發(fā)現(xiàn)的相關(guān)內(nèi)容標識信息時間信息干系人信息制作信息資料提供人(來源)簡介副標題短語引語地點人物數(shù)字語言政治環(huán)保外交教育工業(yè)環(huán)境農(nóng)業(yè)汽車能源藝術(shù)貿(mào)易動漫財經(jīng)親子人事公益讀書文史武保戰(zhàn)爭歷史家庭警匪神話懸疑穿越談話動畫EQ\*jc3\*hps13\o\al(\s\up6(綜),集)EQ\*jc3\*hps13\o\al(\s\up6(藝),錦)談話動畫電視劇真人秀從屬關(guān)系相同/相近關(guān)系相關(guān)關(guān)系歸屬頻道自定義相關(guān)規(guī)則(如:快樂大本營與何靈)歸屬欄目挖掘相關(guān)規(guī)則(如:啤酒和尿布)以上僅是從三個層面界定內(nèi)容標簽庫,部分標簽還可以根據(jù)實際情況進行逐級細化至原子化標簽。內(nèi)容標簽框架文作屬性內(nèi)在屬性標識信息時間信息于系入信息版權(quán)信息內(nèi)容操述村政內(nèi)容題材體育甲阿森的科教關(guān)系屬性內(nèi)容情節(jié)和同/相透關(guān)系相關(guān)關(guān)系分類標引人名標引地名標引短文本標引引語標引時間標引數(shù)字標引機構(gòu)標引1.單條數(shù)據(jù)標引新媒體云平臺CMS在發(fā)布新內(nèi)容頁(圖文內(nèi)容、音頻內(nèi)容、視頻內(nèi)容等)時,會2.歷史數(shù)據(jù)回溯首先,新聞網(wǎng)資源池推送給標引服務(wù)的所有內(nèi)容頁描述數(shù)據(jù),構(gòu)成了新媒體云平利用最新業(yè)務(wù)規(guī)則分析歷史數(shù)據(jù)庫中的所有數(shù)據(jù),所有符合ngsmf0ngsmf0大客戶應(yīng)用端大數(shù)據(jù)新聞可視化應(yīng)用系統(tǒng)大數(shù)據(jù)新聞可視化應(yīng)用系統(tǒng)結(jié)構(gòu)化標簽數(shù)據(jù)存儲數(shù)據(jù)結(jié)構(gòu)化服務(wù)系統(tǒng)知識庫互聯(lián)網(wǎng)數(shù)據(jù)監(jiān)拉采集外部數(shù)據(jù)API傳入知識管理特征庫運營系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)存儲大數(shù)據(jù)新聞素材庫標引系統(tǒng)數(shù)據(jù)傳入庫通用庫.■特征詞姓氏目收錄各類事件標引所需要的關(guān)鍵特征詞,先按事件的類型分為:社會事件庫事件庫一水災(zāi)流量特征詞水_件隨災(zāi)害水_災(zāi)后疫情防控水災(zāi)水災(zāi)類別自二水災(zāi)助汛物資作用■本體實例庫金融業(yè)目■體實例庫批發(fā)和零售業(yè)目標引識別引擎API接口上傳下傳3)推薦的用戶:新用戶(區(qū)分登錄用戶和未登錄用戶)、老用戶(區(qū)分登錄用戶和未登錄用戶);4)推薦的場景:具備登錄后、播放后、加載頁面后(底層頁)等不同場景下的5)推薦計算結(jié)果:可視化;7)推薦效果:可評估、可優(yōu)化;8)推薦計算實時性:熱點/個性化/關(guān)聯(lián)推薦結(jié)果按天.4.3.1(實時更新)推薦列表b濾偏好匹配關(guān)聯(lián)匹配個按比例權(quán)重過按熱度過濾dC/a薦列表;4.將存在關(guān)聯(lián)關(guān)系的內(nèi)容標簽與用戶偏好進行匹配,生成基于用戶偏好的個性化關(guān)聯(lián)內(nèi)容推薦列表。非首次陸/訪問權(quán)重內(nèi)容abCde品內(nèi)容列表進行組合推薦;組合推薦功能模塊支持對推薦場景的擴展需求,針對不同場景的特點,可在后臺進行組合推薦規(guī)則設(shè)置,同時可以配置在推薦結(jié)果中保存的字段信息(如:內(nèi)容ID、內(nèi)容關(guān)于推薦結(jié)果選取權(quán)重動態(tài)調(diào)整規(guī)則——以首次播放推薦的場景為例:說明初始比例設(shè)定:關(guān)聯(lián)內(nèi)容推薦列表(R)初始比例設(shè)定:新上架內(nèi)容清單(N)第1次推薦個數(shù):關(guān)聯(lián)內(nèi)容推薦列表(R)第1次推薦個數(shù):新上架內(nèi)容清單(N)3推薦N次后的內(nèi)容轉(zhuǎn)化率:關(guān)聯(lián)內(nèi)容推薦列表(R)分子:R中點擊的內(nèi)容個數(shù)(萬個)分母:R中推薦的內(nèi)容總數(shù)(萬個)推薦N次后的內(nèi)容轉(zhuǎn)化率:新上架內(nèi)容清單(N)分子:N中點擊的內(nèi)容個數(shù)(萬個)分母:N中推薦的內(nèi)容總數(shù)(萬個)計算公式:(Xo+Xn)/(Xo+Xn+Yo+Yn)計算公式:(Yo+Yn)/(Xo+Xn+Yo+Yn)第N+1次推薦個數(shù):關(guān)聯(lián)內(nèi)容推薦列表(R)四舍五入第N+1次推薦個數(shù):新上架內(nèi)容清單(N)5四舍五入(一)登錄推薦用戶無瀏覽記錄:新品推薦結(jié)果(不存在冷啟動)+熱門推薦結(jié)果(不存在冷啟動);>用戶有瀏覽記錄:新品推薦結(jié)果(同上)+熱門推薦結(jié)果(同上)+個性化推(二)播放后推薦>用戶無瀏覽記錄:關(guān)聯(lián)推薦結(jié)果(存在冷啟續(xù)產(chǎn)生結(jié)果);新品推薦結(jié)果(不存在冷啟動)+熱門推薦結(jié)果(不存在冷啟動),作為補充>用戶有瀏覽記錄:關(guān)聯(lián)推薦結(jié)果(存在冷啟動第一次不產(chǎn)生推薦結(jié)果,后續(xù)按算法產(chǎn)生結(jié)果);新品推薦(同上)+熱門推薦(同上),作為補充。.4.3.6推薦通過設(shè)定規(guī)則,包括:去重、關(guān)鍵詞過濾、敏感詞過濾、用戶瀏覽/播放記錄過濾(按場景)個(按場景)個推薦系統(tǒng)根據(jù)配置的過濾規(guī)則,對待推薦列表中的內(nèi)容進行過濾,輸出推薦結(jié)果;當生成的最終推薦效果小于一定數(shù)量時(如10個),支持重新讀取待推薦列表將.4.3.7推薦結(jié)果并發(fā)查詢?nèi)客扑]結(jié)果寫入Hbase活躍用戶推薦結(jié)果緩存在Redis中,與Hbase全量數(shù)據(jù)進行關(guān)聯(lián)同步。優(yōu)勢劣勢數(shù)據(jù))儲數(shù)據(jù))(推薦方案)(熱點數(shù)據(jù))復上片20327.8TAB頁顯示詳列明4.系統(tǒng)自身原因(I0、內(nèi)存溢出等)導致數(shù)據(jù)處理異常時,進行.4.4.1應(yīng)用層推薦計算數(shù)據(jù)源數(shù)據(jù)指標集通過數(shù)據(jù)預處理程序輸出的基于政務(wù)云用戶內(nèi)容標簽用戶標簽度建立用戶標簽體系,對用戶進行精準畫像,畫像結(jié)果支撐內(nèi)容推薦計算。個性化推薦基于用戶的內(nèi)容偏好,使用協(xié)同過濾算法生成熱門推薦>推薦結(jié)果查詢服務(wù)個性化推薦組合推薦景(登錄后、播放后等)生成待推薦列表推薦效果評估推薦結(jié)果優(yōu)化1.3項目進度計劃為有效地進行資源、進度和質(zhì)量等方面的控制,確顧問共同組成咨詢和實施小組,按照項目管理的原則進行實施,建立一套科學、系統(tǒng)、項目組具體分為項目經(jīng)理、技術(shù)總監(jiān)、項目管理雙方參與人員項目領(lǐng)導小組XX客戶高層與公司高層管理人員各一名項目開發(fā)和實施過程中重大事件的決策。項目管理組公司負責項目的進度跟蹤、質(zhì)量控制、層領(lǐng)導匯報項目進展。公司項目技術(shù)負責人術(shù)指導和整體把握。項目執(zhí)行機構(gòu)項目經(jīng)理與公司高級項目經(jīng)理各一名進行本項目的具體管理和實施工作。雙方參與人員公司全面負責整個項目的質(zhì)量管理、工等的制定。公司全面負責建立
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 營養(yǎng)不良兒童飲食護理
- 能源動力類專業(yè)人才培養(yǎng)路徑與實施方案探索
- 老舊小區(qū)煥新計劃初步設(shè)計方案
- 工業(yè)自動化行業(yè)未來發(fā)展與市場機會解析
- 2025年有色金屬鋸片項目可行性研究報告
- 25年公司級安全培訓考試試題及參考答案(完整版)
- 25年公司、項目部、各個班組安全培訓考試試題打印
- 單身女性凍卵法律問題研究
- 25年公司、項目部、各個班組三級安全培訓考試試題答案完美
- 2025年公共營養(yǎng)師考試分析結(jié)果試題與答案
- DZ∕T 0383-2021 固體礦產(chǎn)勘查三維地質(zhì)建模技術(shù)要求(正式版)
- 2024年全國初中數(shù)學競賽試題含答案
- 血管瘤的治療課件
- 2023-2024學年上海市楊浦區(qū)八年級(下)期中英語試卷
- (高清版)DZT 0222-2006 地質(zhì)災(zāi)害防治工程監(jiān)理規(guī)范
- 數(shù)學趣味講座:邀請數(shù)學領(lǐng)域?qū)<疫M行趣味講座激發(fā)學生對數(shù)學的興趣
- 心臟瓣膜疾病一病一品
- YS-T 3038-2020 黃金生產(chǎn)用顆粒活性炭
- 一張紙的勞動合同書范文
- 新生兒低蛋白血癥指南課件
- 四川省宜賓市2023-2024學年八年級上學期期末義務(wù)教育階段教學質(zhì)量監(jiān)測英語試題
評論
0/150
提交評論