




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
#文檔來源為:從網(wǎng)絡(luò)收集整理.word版本可編輯.歡迎下載支持.在中心的計(jì)算機(jī)系統(tǒng)中。中心除了配置有HP公司的網(wǎng)管軟件OpenView外,沒有再配備其它任何網(wǎng)絡(luò)維護(hù)工具。所以一旦網(wǎng)管系統(tǒng)不能正常工作,運(yùn)行維護(hù)人員也就無從下手。東城區(qū)和西城區(qū)的網(wǎng)絡(luò)主服務(wù)器分別在兩個(gè)不同的網(wǎng)段中,之間用交換器連接起來。全城結(jié)算主機(jī)與東城區(qū)主服務(wù)器在同一網(wǎng)段。用F683網(wǎng)絡(luò)測試儀接入東城區(qū)正常工作的網(wǎng)段觀察,發(fā)現(xiàn)Cisco5500交換機(jī)的Plot3Port4(第3插槽的第4端口)有異常流量,而該端口連接的正是西城區(qū)主服務(wù)器和網(wǎng)管系統(tǒng)所在的網(wǎng)段。為更仔細(xì)地觀察此網(wǎng)段的工作情況,將F683網(wǎng)絡(luò)測試儀和協(xié)議診斷器PI接入該網(wǎng)段,測得網(wǎng)絡(luò)持續(xù)流量為97%,其中錯(cuò)誤幀占98%。錯(cuò)誤類型為短幀40%,幀常50?60字節(jié)不等,長幀58%,幀長3000?5200字節(jié)不等,并報(bào)告了出錯(cuò)機(jī)器的Mac地址。依此地址查找對(duì)應(yīng)的機(jī)器,遺憾的是該電腦中心沒有Mac地址備份表(只有IP地址和符號(hào)名對(duì)應(yīng)表)。試著用ICMP的Ping查找網(wǎng)管機(jī)和服務(wù)器,顯示Mac地址對(duì)應(yīng)的是服務(wù)器的IP地址。重裝服務(wù)器網(wǎng)卡驅(qū)動(dòng)程序,無效,用F683測試服務(wù)器端口,協(xié)議顯示Unknown,更換服務(wù)器網(wǎng)卡,重裝驅(qū)動(dòng)程序并設(shè)置響應(yīng)參數(shù),重啟系統(tǒng)即恢復(fù)正常。[診斷評(píng)點(diǎn)]服務(wù)器網(wǎng)卡已經(jīng)損壞,發(fā)出的數(shù)據(jù)幀錯(cuò)誤率為98%,只有不足1%的數(shù)據(jù)正常。所以網(wǎng)絡(luò)偶爾還有交易可以達(dá)成。我們知道,超長幀有封閉網(wǎng)絡(luò)的作用,主要是引起網(wǎng)絡(luò)速度變慢或網(wǎng)絡(luò)癱瘓,而短幀達(dá)到一定流量則會(huì)對(duì)網(wǎng)絡(luò)設(shè)備的工作協(xié)議造成一定程度的破壞,引起設(shè)備死機(jī)(實(shí)際測試中發(fā)現(xiàn)工作站對(duì)此更敏感些)。網(wǎng)管機(jī)上網(wǎng)時(shí)在收到高錯(cuò)誤流量幀后約20秒鐘即被破壞死機(jī),無法觀測參數(shù)。許多設(shè)備在自檢時(shí)只檢查部分參數(shù)(有些參數(shù)尤其是某些物理參數(shù)無法僅靠自檢來測試),此案例中網(wǎng)管機(jī)和主服務(wù)器自檢表現(xiàn)正常,而實(shí)際上主服務(wù)器的網(wǎng)卡物理功能已經(jīng)失效,但在自檢時(shí)與操作系統(tǒng)的通信協(xié)議能正常工作,靠1%左右的正常幀可以維持極低的網(wǎng)絡(luò)活性。其它網(wǎng)站會(huì)在高流量錯(cuò)誤幀的“轟炸”中陸續(xù)喪生。[診斷建議]交換機(jī)用來隔離網(wǎng)段和網(wǎng)絡(luò)故障有較好的作用,主服務(wù)器、網(wǎng)管機(jī)等重要網(wǎng)絡(luò)設(shè)備應(yīng)以獨(dú)享交換機(jī)端口為佳,不宜再用共享式集線器連接上其它設(shè)備,這樣可以迅速孤立出故障設(shè)備,減少因網(wǎng)絡(luò)停運(yùn)造成的損失。如果恰好遇到交換器故障,那么根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖就可以迅速定位交換機(jī)的問題,提高維護(hù)工作的時(shí)效性。另外,Mac地址是文檔備案的最重要內(nèi)容之一,除了用于排除網(wǎng)絡(luò)設(shè)備故障有極大方便外,對(duì)于迅速查找我們稱之為“惡意用戶”的非合法上網(wǎng)成員也有很大幫助。[后記]您當(dāng)然不會(huì)想到,兩個(gè)小時(shí)后我們乘上了另一列開往黃山的列車,心情還不錯(cuò)。[故事之二]交換機(jī)軟故障:電路板接觸不良[癥狀]今天的“病人”是某大型證券公司,在全市有近11個(gè)營業(yè)網(wǎng)絡(luò)。以下是該公司信息中心工程師對(duì)故障現(xiàn)象的描述:一段時(shí)間以來,整個(gè)網(wǎng)絡(luò)交易時(shí)常中斷,有時(shí)一天內(nèi)會(huì)出現(xiàn)2?3次。起初每次持續(xù)的時(shí)間很短,沒有引起我們的足夠重視;我們做過簡單的測試,約幾秒鐘至十幾秒鐘不等,規(guī)律性不太明顯,一般開市時(shí)都正常。隨后一段時(shí)間“病情”不斷加重,發(fā)病頻率不斷增加。好幾個(gè)“資深”用戶曾向老總抱怨,近來碰到幾次原本估計(jì)十拿九穩(wěn)的網(wǎng)上交易不能及時(shí)成交:“當(dāng)我按下交易確認(rèn)鍵時(shí),計(jì)算機(jī)對(duì)此卻沒有任何響應(yīng),也不知道成交了沒有,只好再等上一會(huì)兒。我給伙伴們介紹的絕招是,過半分鐘再試,計(jì)算機(jī)就會(huì)顯示成交。不是每次都這樣靈光,但以前極少遇到這種事,而最近一周已經(jīng)遇到好幾次了,好象一天比一天厲害,搞得我們的神經(jīng)緊張兮兮的。”昨天15:26,臨近下午閉市時(shí),故障現(xiàn)象再次出現(xiàn):行情數(shù)據(jù)的顯示和更新都正常,就是普遍不響應(yīng)交易命令(但不是絕對(duì)不響應(yīng),其中仍有少數(shù)交易能成交),11個(gè)子交易網(wǎng)絡(luò)均反映受阻。網(wǎng)管人員初步判斷是中心網(wǎng)絡(luò)的問題,立即在電腦科計(jì)算中心檢查交易服務(wù)器,CPU利用率、協(xié)議交換及包交換等指示正常,試驗(yàn)重新登錄服務(wù)器和Ping測試也正常。時(shí)間到,轉(zhuǎn)為休市狀態(tài)。休市后保持交易網(wǎng)絡(luò)繼續(xù)運(yùn)行,啟動(dòng)模擬交易功能模塊,進(jìn)入故障診斷作業(yè)程序。在計(jì)算中心LAN內(nèi)連續(xù)作了40筆模擬交易均成功。同時(shí)在3個(gè)子交易網(wǎng)處作對(duì)內(nèi)和對(duì)外的模擬交易,對(duì)內(nèi)100%,對(duì)外成功率約15%左右。基本上可以肯定故障在網(wǎng)絡(luò)本身。保持模擬交易連續(xù)工作狀態(tài),啟用計(jì)算中心的網(wǎng)管系統(tǒng)查看網(wǎng)絡(luò),服務(wù)器工作狀況指示正常。檢查與其它11個(gè)營業(yè)網(wǎng)絡(luò)的聯(lián)系的交換器端口,有流量指示,但時(shí)有停頓。對(duì)其作Ping測試,偶爾會(huì)有中斷(約有3%Ping測試不響應(yīng))。用DSP-100電纜分析儀檢查與交換機(jī)連接的端口電纜鏈路(服務(wù)器、網(wǎng)管機(jī)均在此網(wǎng)段內(nèi)),沒有問題。這說明服務(wù)器所在網(wǎng)段是正常的,懷疑是交換機(jī)端口損壞。將與服務(wù)器網(wǎng)段的電纜改插在別的交換器端口并作相應(yīng)設(shè)置,網(wǎng)絡(luò)恢復(fù)正常工作,故障消失,確認(rèn)為交換機(jī)端口損壞,心想總算可以松一口氣了。不料,今日開市后不久故障依舊如期“光臨”。[診斷過程]晚上19:50我們趕到該證券公司所在地,立即啟動(dòng)系統(tǒng),自檢顯示正常。然后啟動(dòng)模擬交易系統(tǒng),觀察與子交易網(wǎng)絡(luò)的通信情況,表現(xiàn)正常。網(wǎng)絡(luò)拓?fù)鋱D上顯示各子交易網(wǎng)絡(luò)是用DDN專線通過路由器與計(jì)算中心本地網(wǎng)段的交換器聯(lián)系起來。打開各Router的工作表Mib檢查,無異常和錯(cuò)誤記錄。逐個(gè)檢查交換機(jī)各端口工作表Mib,亦無異常和錯(cuò)誤記錄。交易服務(wù)器和網(wǎng)管機(jī)同在一個(gè)網(wǎng)段,通過一個(gè)智能型集線器連接到交換機(jī)端口。打開集線器工作表,記錄數(shù)據(jù)正常。將F683網(wǎng)絡(luò)測試儀接入集線器端口進(jìn)行連續(xù)監(jiān)測。同時(shí)啟動(dòng)測試儀流量發(fā)送功能,抽查3個(gè)子網(wǎng)的通道性能,并做體能測試,持續(xù)流量承受能力為98%,說明網(wǎng)絡(luò)很正常且表現(xiàn)相當(dāng)優(yōu)秀。本故障屬于軟故障。可以由網(wǎng)絡(luò)設(shè)備、應(yīng)用軟件、供電設(shè)備、外來干擾等故障引起。由于故障時(shí)檢查過本地網(wǎng)絡(luò),登錄服務(wù)器和進(jìn)行Ping測試也是正常的,所以可基本判定集線器下掛網(wǎng)段是正常的。為了定位網(wǎng)絡(luò)故障,在某個(gè)選定的遠(yuǎn)端子交易網(wǎng)絡(luò)處和網(wǎng)管中心同時(shí)用F683網(wǎng)絡(luò)測試儀雙向發(fā)送流量作通道性能測試和故障監(jiān)測,并作ICMPPing連續(xù)測試和ICMP監(jiān)測。為便于觀察和比較,流量發(fā)送的幀長都設(shè)定為100字節(jié),流量總和約30%(各占15%約10K左右)。在21:30故障如期出現(xiàn)。ICMPPing測試出現(xiàn)斷層,立即打開交換機(jī)和路由器的工作表,記錄的流量等數(shù)據(jù)出現(xiàn)停頓或斷續(xù),并顯示出現(xiàn)FCS幀錯(cuò)誤。從遠(yuǎn)端打開相應(yīng)工作表的結(jié)果是:路由器接轉(zhuǎn)流量為17%,交換機(jī)接轉(zhuǎn)流量為2%,ICMPPing斷層損失90%。ICMP監(jiān)測顯示不可達(dá)97%左右。從中心打開路由器和交換機(jī)工作表Mibs,接轉(zhuǎn)流量均為0.5%~0.9%。這表明遠(yuǎn)端數(shù)據(jù)可以順利到達(dá)路由器但不能在交換機(jī)端口順利進(jìn)行交換。最后用F43電源諧波測試儀測試UPS電源參數(shù),驗(yàn)證UPS電源合格。可以判定確實(shí)是交換機(jī)的問題。由于網(wǎng)管中心沒有備用的交換機(jī),已知原交換機(jī)供應(yīng)商已經(jīng)停產(chǎn)該型號(hào)產(chǎn)品,所以只能考慮更換新型交換機(jī)。為了應(yīng)付明天開市,試著確定一個(gè)好的代用端口,這樣可以將服務(wù)器網(wǎng)段臨時(shí)連接入網(wǎng),防止明日開市遇到不測事件發(fā)生。查看交換機(jī)與路由器一側(cè)的連接端口,發(fā)現(xiàn)工作表是正常的。因此只需要代換與服務(wù)器連接的端口即可,詢問網(wǎng)管工程師上次故障時(shí)曾經(jīng)更換過的是那個(gè)端口,答曰第4插槽上的空閑端口都試過。改用第5插槽上僅剩下的一個(gè)端口試驗(yàn)連接,網(wǎng)絡(luò)恢復(fù)正常。由于故障時(shí)隱時(shí)現(xiàn),故懷疑第4插槽存在軟故障。重新將端口還原為第4插槽,故障已經(jīng)消失。為重復(fù)故障現(xiàn)象,試著用改錐木柄敲擊第4插槽,故障出現(xiàn),再次連續(xù)敲擊,則故障時(shí)隱時(shí)現(xiàn)。取下第4插槽的電路板觀察,發(fā)現(xiàn)插針有較厚的氧化層(黑色氧化物)。用0000#細(xì)砂紙打磨插針并用酒精清洗,重新安裝好電路板,故障徹底消除,并且不再隨著敲擊電路板而時(shí)隱時(shí)現(xiàn)。為保險(xiǎn)起見,順便檢查其它7個(gè)插槽的電路板,插針均沒有黑色氧化痕跡,證明只有4號(hào)插槽的插針在生產(chǎn)時(shí)使用了一組不合格的接插元件。交換機(jī)應(yīng)屬于不合格產(chǎn)品。暫時(shí)確定用第5號(hào)插槽的空余端口作代用端口,并要求網(wǎng)絡(luò)不停機(jī)持續(xù)運(yùn)行直到第二天休市為止,進(jìn)行連續(xù)觀察。[診斷評(píng)點(diǎn)]網(wǎng)絡(luò)故障分硬件故障和軟件故障,有時(shí)是軟硬件相結(jié)合的故障。某些情況下從網(wǎng)絡(luò)表現(xiàn)出的故障現(xiàn)象不能立即確定是那一類故障。本故障是由硬件設(shè)備接觸不良引起的故障,原因是計(jì)算中心用作分隔網(wǎng)段的交換機(jī)其第4插槽的插針接觸不良,使得與交換機(jī)第4插槽有關(guān)的接口工作都不太正常,出現(xiàn)斷續(xù)和停頓。設(shè)備在剛啟動(dòng)的一段時(shí)間內(nèi),機(jī)器的元器件溫度較低,工作正常,隨著元器件溫度的升高,器件受熱膨脹,出現(xiàn)接觸不良的故障,所以每天開市后的一段時(shí)間網(wǎng)絡(luò)一般都不出問題。多次重復(fù)這一過程故障現(xiàn)象就會(huì)由較低頻率的時(shí)隱時(shí)現(xiàn)轉(zhuǎn)為較高頻率的時(shí)隱時(shí)現(xiàn),故障每此持續(xù)時(shí)間也會(huì)延長,最終可能會(huì)演變?yōu)槌掷m(xù)的硬故障現(xiàn)象(硬故障在故障診斷時(shí)反而容易些!)。當(dāng)網(wǎng)絡(luò)維護(hù)人員作停機(jī)檢查并更換端口后由于元器件溫度降低的關(guān)系,網(wǎng)絡(luò)也會(huì)正常工作一段時(shí)間。這往往給人一種錯(cuò)覺,以為故障排除了,但第二天開市一段時(shí)間后故障又會(huì)重新出現(xiàn)。由于本故障的故障點(diǎn)在交換機(jī)向中心網(wǎng)絡(luò)的一側(cè),所以從計(jì)算中心不能準(zhǔn)確地觀察路由器和交換機(jī)的工作情況,這樣要從網(wǎng)管系統(tǒng)一側(cè)判斷故障是很有困難的。若改由從路由器的另一側(cè)對(duì)路由器和交換機(jī)的工作狀況進(jìn)行實(shí)時(shí)監(jiān)測,就會(huì)發(fā)現(xiàn)流量不均衡的故障現(xiàn)象,加上ICMPPing測試的損失率為90%以及ICMP監(jiān)測結(jié)果,定位故障就很容易了。由此確定是交換機(jī)的問題。時(shí)隱時(shí)現(xiàn)的故障我們稱作軟故障(注意,不是軟件故障的含義),可以由軟件故障引起,也可以是硬件故障引起,是難度比較高的一類故障。這除了需要網(wǎng)絡(luò)維護(hù)和管理人員具備一定的軟硬件故障診斷知識(shí)外,對(duì)診斷經(jīng)驗(yàn)的積累也有一定的要求。目前,多數(shù)的網(wǎng)絡(luò)維護(hù)和管理人員是由計(jì)算機(jī)專業(yè)的人員來擔(dān)任,對(duì)硬件設(shè)備的診斷還比較地不熟悉。[診斷建議]如何選擇合適的檢測工具對(duì)故障監(jiān)測點(diǎn)進(jìn)行測試是很有講究的。許多故障需要進(jìn)行多點(diǎn)測試才能定位,這時(shí)非常需要的是便攜式的測試工具。網(wǎng)絡(luò)故障的診斷發(fā)展方向是測試工具的網(wǎng)絡(luò)化和故障診斷的網(wǎng)絡(luò)化。一般的網(wǎng)絡(luò)設(shè)備和網(wǎng)上設(shè)備只支持有限的網(wǎng)管功能,所以監(jiān)測網(wǎng)絡(luò)性能和快速定位網(wǎng)絡(luò)故障需要一些必要的固定測試工具(如固定探頭、網(wǎng)管系統(tǒng)等)和移動(dòng)測試工具(如網(wǎng)絡(luò)測試儀、流量分析儀等)。對(duì)重要的網(wǎng)絡(luò)設(shè)備要準(zhǔn)備適當(dāng)?shù)膫溆迷O(shè)備,至少要留足備用通道。網(wǎng)絡(luò)關(guān)鍵設(shè)備不一定要選用最昂貴和功能最齊全的設(shè)備,但一定要選用應(yīng)用比較成熟,可靠性高、用戶數(shù)量大的設(shè)備,這樣技術(shù)支持的難度就會(huì)降低。如果將關(guān)鍵網(wǎng)絡(luò)設(shè)備的維護(hù)工作交給集成商或廠商來做,那用戶就得準(zhǔn)備將網(wǎng)絡(luò)的命運(yùn)完全交給集成商或廠商來控制,而這是非常危險(xiǎn)的。因此對(duì)人員進(jìn)行適當(dāng)?shù)呐嘤?xùn)并配備合適的、易懂易用的工具是做好網(wǎng)絡(luò)維護(hù)工作的必要條件之一。尤其對(duì)占維護(hù)隊(duì)伍總數(shù)90%以上的初級(jí)和中級(jí)網(wǎng)絡(luò)維護(hù)技術(shù)人員和工程人員,這一點(diǎn)更具有實(shí)際意義,因?yàn)椴僮鲝?fù)雜、參數(shù)難懂難記、培訓(xùn)時(shí)間長、價(jià)格昂貴的工具對(duì)他們來說是豪無實(shí)際意義的。[后記]以后連續(xù)幾天工作都正常,新購回的交換機(jī)上網(wǎng)試驗(yàn)調(diào)通后即投入了使用。原來的交換機(jī)被該計(jì)算中心作為了備份設(shè)備。[故事之三]防火墻設(shè)置錯(cuò)誤,合法用戶進(jìn)入受限[癥狀]今天的“病人”是某市社會(huì)保險(xiǎn)局,昨天下午全局工作人員加班,配合網(wǎng)絡(luò)管理部門于18:30安裝好了一套新的防火墻系統(tǒng),重新啟動(dòng)整個(gè)保險(xiǎn)網(wǎng)絡(luò)系統(tǒng),反應(yīng)良好,防火墻工作也很正常。但好景不長,今天上班時(shí),許多Intranet內(nèi)部有權(quán)用戶就打電話反映在查詢和操作保險(xiǎn)資料時(shí)出現(xiàn)無法進(jìn)行數(shù)據(jù)調(diào)用和修改的故障現(xiàn)象,此時(shí)屏幕提示登錄者為“非法用戶”;系統(tǒng)管理員同時(shí)還發(fā)現(xiàn)只有從防火墻處可以訪問網(wǎng)絡(luò)并修改數(shù)據(jù)。同時(shí),一個(gè)有趣的現(xiàn)象卻是,Internet外部普通用戶在查詢各種用戶資料時(shí)卻沒有問題,他們無論從何處都可以順利地訪問Web服務(wù)器。他們投訴的對(duì)象主要是“業(yè)務(wù)部門”:“為何都一天了,還在借口計(jì)算機(jī)網(wǎng)絡(luò)故障不受理業(yè)務(wù),到底能不能弄好,什么時(shí)候能弄好”。由于Intranet主要是供內(nèi)部系統(tǒng)業(yè)務(wù)機(jī)構(gòu)的各級(jí)有權(quán)網(wǎng)絡(luò)用戶使用,所以系統(tǒng)的許多正常功能無法正常啟用,致使員工和業(yè)務(wù)對(duì)象反響都很強(qiáng)烈。該社會(huì)保險(xiǎn)局的網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜,含業(yè)務(wù)專用網(wǎng),OA網(wǎng),Intranet網(wǎng)和Internet網(wǎng)等。其中,Intranet設(shè)計(jì)為內(nèi)部業(yè)務(wù)網(wǎng),主要進(jìn)行業(yè)務(wù)服務(wù)oInternet主要是為電話接入訪問的用戶提供服務(wù),OA網(wǎng)通過LAN內(nèi)的以太網(wǎng)交換機(jī)同Web服務(wù)器實(shí)現(xiàn)聯(lián)結(jié)。無論是Intranet用戶還是Internet用戶均可以在網(wǎng)上申報(bào)和查詢資料。業(yè)務(wù)數(shù)據(jù)的安全設(shè)計(jì)為雙Web服務(wù)器,Internet用戶和Intranet用戶各用一個(gè)。Intranet的Web服務(wù)器兼有備份數(shù)據(jù)的功能,兩個(gè)Web服務(wù)器互聯(lián),之間的業(yè)務(wù)數(shù)據(jù)同時(shí)更新。Internet用戶只能瀏覽、查詢數(shù)據(jù)并可以進(jìn)行網(wǎng)上申報(bào)等各種服務(wù),不能更改數(shù)據(jù)。對(duì)Intranet內(nèi)部用戶實(shí)行有權(quán)訪問和申報(bào)、數(shù)據(jù)修改特權(quán)限制等體制。局內(nèi)的OA網(wǎng)用戶可以象Internet用戶那樣隨時(shí)訪問和查詢Internet的Web數(shù)據(jù)服務(wù)器,其中設(shè)置了部分有權(quán)用戶,他們可以訪問Intranet業(yè)務(wù)網(wǎng)的Web服務(wù)器。安裝的防火墻對(duì)IP包進(jìn)行過濾,只允許合法IP用戶進(jìn)入。從“病人”傳真過來的網(wǎng)絡(luò)結(jié)構(gòu)圖看,Intranet的用戶用PSTN公用電話系統(tǒng)、DDN數(shù)據(jù)專線將各地、縣、區(qū)的業(yè)務(wù)網(wǎng)絡(luò)節(jié)點(diǎn)聯(lián)結(jié)起來,使用者都是地點(diǎn)固定的內(nèi)部用戶(員工)。[診斷過程]顯然,故障現(xiàn)象與昨天新安裝的防火墻系統(tǒng)有很大關(guān)系。將網(wǎng)絡(luò)測試儀F683接入服務(wù)器所在網(wǎng)段,啟動(dòng)網(wǎng)段搜索功能,可以發(fā)現(xiàn)Internet用戶的Web服務(wù)器,但不能發(fā)現(xiàn)Intranet的Web服務(wù)器。去掉防火墻,則可以搜索到該服務(wù)器。說明確實(shí)是防火墻的問題。但昨天安裝防火墻時(shí)整個(gè)系統(tǒng)是正常的,所以查找故障的焦點(diǎn)要放在安裝防火墻以后有無更改過防火墻參數(shù)。此即故障排除經(jīng)驗(yàn)中的所謂“動(dòng)則有過”故障查找原則。如果能弄清網(wǎng)管人員都動(dòng)過哪些參數(shù)和設(shè)置,查找故障的工作會(huì)便捷得多。經(jīng)常讓人感到遺憾且奇怪的是,多數(shù)維護(hù)管理人員都不會(huì)承認(rèn)更動(dòng)過網(wǎng)絡(luò)的任何設(shè)置,這次也同以往一樣。用網(wǎng)絡(luò)測試儀連續(xù)作ICMP類型PING測試發(fā)現(xiàn),Web服務(wù)器是存在的,且反應(yīng)率為百分之百。說明Web服務(wù)器在網(wǎng)絡(luò)上且可以正常工作。同時(shí)用網(wǎng)絡(luò)一點(diǎn)通OneTouch選擇Web服務(wù)器的IP地址為目標(biāo)地址發(fā)送流量,啟動(dòng)網(wǎng)絡(luò)測試儀的協(xié)議分析功能,發(fā)現(xiàn)數(shù)據(jù)幀指向防火墻以后就沒有任何反應(yīng)了:任何回應(yīng)數(shù)據(jù)幀都未出現(xiàn)。將網(wǎng)絡(luò)助理OneTouch的IP地址設(shè)置成任何一個(gè)已經(jīng)存在的有權(quán)用戶的IP地址,然后對(duì)Web服務(wù)器發(fā)送流量,這時(shí)網(wǎng)絡(luò)測試儀可以觀察到防火墻有回應(yīng)數(shù)據(jù)幀出現(xiàn)。這說明防火墻對(duì)合法IP地址的有權(quán)用戶是有反應(yīng)的,但一般返回的數(shù)據(jù)幀是非法用戶的提示信息。注意到前述現(xiàn)象中提到過只有防火墻能訪問Web服務(wù)器,我們就將網(wǎng)絡(luò)測試儀的MAC地址改為與防火墻相同的MAC地址,用網(wǎng)絡(luò)測試儀假冒防火墻進(jìn)入網(wǎng)絡(luò),啟動(dòng)網(wǎng)段搜索時(shí)則可以看到久別了的Web服務(wù)器。以上現(xiàn)象說明,該防火墻的功能比較強(qiáng),除了能過濾IP地址外,還能對(duì)各站點(diǎn)的MAC地址進(jìn)行過濾,以防止“擁有合法IP地址的非法用戶”進(jìn)入系統(tǒng),是一個(gè)比較好的“看門人”。但讓人疑惑的是昨天安裝防火墻時(shí),網(wǎng)絡(luò)管理人員只啟動(dòng)了IP包過濾功能,并未啟動(dòng)MAC地址鑒別功能,那么,MAC地址濾波功能是誰啟動(dòng)的呢?答案是:不得而知。查看防火墻幫助文件,按提示撳下format下拉式中的MAC地址過濾菜單,關(guān)閉MAC地址過濾功能,系統(tǒng)隨即恢復(fù)正常。[診斷評(píng)點(diǎn)]不少防火墻是靠對(duì)IP地址進(jìn)行過濾和用戶密碼識(shí)別等方法來鑒別有權(quán)用戶及其合法性等級(jí)的,一般不對(duì)網(wǎng)卡的MAC地址進(jìn)行識(shí)別。安全性要求高的用戶則需要對(duì)用戶的MAC地址進(jìn)行鑒別,以便阻止獲悉了密碼的非法用戶模仿IP地址(用戶可以在2分鐘內(nèi)隨意更改工作站的IP地址)訪問網(wǎng)絡(luò),部分防火墻和網(wǎng)管系統(tǒng)具有類似功能。我們知道,一般網(wǎng)卡的MAC地址是按制造商的編碼設(shè)置的,從原理上講世界上沒有兩塊具有完全相同MAC地址的網(wǎng)卡,而多數(shù)網(wǎng)卡地址在制造時(shí)就永久地固定在ROM中,用戶是不能更改的。對(duì)于具有固定用戶的Intranet網(wǎng)絡(luò),具有MAC地址過濾功能的防火墻是非常有效的,它可以阻止對(duì)網(wǎng)絡(luò)的各種試探性進(jìn)攻。對(duì)于Internet用戶,這一功能不能啟用,所以需要采用兩臺(tái)Web服務(wù)器,一個(gè)用于查詢和申報(bào),另一個(gè)作備份,并可以按有權(quán)體系修改相應(yīng)數(shù)據(jù)。可以肯定,系統(tǒng)管理人員昨天在防火墻安裝完成以后可能出于好奇或是其它原因擅自將防火墻的MAC識(shí)別功能按鈕有意無意地按下了,從而啟動(dòng)了MAC識(shí)別功能,致使今天整個(gè)系統(tǒng)工作不暢。[診斷建議]對(duì)Intranet網(wǎng)絡(luò)固定有權(quán)用戶和部分OA網(wǎng)絡(luò)固定有權(quán)用戶設(shè)置MAC地址鑒別功能對(duì)于系統(tǒng)安全和阻止非法用戶、惡意用戶的進(jìn)攻是有效的。這類用戶多數(shù)來自于網(wǎng)絡(luò)內(nèi)部的成員,對(duì)加權(quán)識(shí)別設(shè)置和安全口令有一定了解,容易鉆空子。設(shè)置MAC識(shí)別功能后,除非是在對(duì)應(yīng)的那臺(tái)唯一的機(jī)器上進(jìn)行操作,否則是無法進(jìn)入網(wǎng)絡(luò)的。我們向該社會(huì)保險(xiǎn)局建議將防火墻安裝分兩步走:先將系統(tǒng)內(nèi)的網(wǎng)絡(luò)成員的所有網(wǎng)卡的MAC地址備份,在備份工作完成以前,暫時(shí)不啟動(dòng)MAC地址鑒別功能;第二步,啟動(dòng)MAC地址識(shí)別功能,以提高系統(tǒng)的可靠性。稍微麻煩的是,有權(quán)用戶在更換網(wǎng)卡時(shí)必須向防火墻管理員申請(qǐng)重新設(shè)置合法的MAC地址檔案才能進(jìn)網(wǎng)工作。這樣,網(wǎng)絡(luò)固定有權(quán)用戶的任何成員在需要更改機(jī)器的IP地址以及更換網(wǎng)卡或新機(jī)器時(shí)都必須向系統(tǒng)管理原申報(bào)備案后才能進(jìn)行。[后記]一周后,社保局網(wǎng)絡(luò)防火墻的MAC識(shí)別功能啟動(dòng)。[故事之四]路由器工作不穩(wěn)定,自生垃圾太多,通道受阻[癥狀]今天的“病人”很特殊,是某電力信息部門的主管。稱其特殊是是因?yàn)樵摬块T主管曾多次打電話要求網(wǎng)絡(luò)醫(yī)院為期診斷廣域連接的問題,但每次都會(huì)在15分鐘內(nèi)來電通知“故障已排除”。詢問其排除方法,回答基本上都是“Reset”整個(gè)系統(tǒng)。由于該用戶只安裝了一套價(jià)格不菲的“網(wǎng)管系統(tǒng)”來管理整個(gè)網(wǎng)絡(luò),沒有配備其它用于網(wǎng)絡(luò)維護(hù)的工具,網(wǎng)絡(luò)醫(yī)院為此曾建議專門為其做一次全面的體檢,對(duì)該信息網(wǎng)絡(luò)的各個(gè)布線系統(tǒng)、網(wǎng)絡(luò)設(shè)備、工作協(xié)議、負(fù)荷均衡性、負(fù)荷能力、錯(cuò)誤幀耐受能力等做詳細(xì)檢測,但一直因各種原因未實(shí)施。今天的癥狀還是老毛病:某電廠的信息網(wǎng)絡(luò)與電力信息中心的網(wǎng)絡(luò)聯(lián)系不暢,數(shù)據(jù)傳輸速度不穩(wěn)定,連接時(shí)斷時(shí)續(xù),有所不同的是系統(tǒng)Reset后仍然不起作用。[診斷過程]該網(wǎng)絡(luò)下轄9個(gè)電廠子網(wǎng)絡(luò),一個(gè)子網(wǎng)絡(luò)用X.25連接,8子網(wǎng)絡(luò)個(gè)從去年起陸續(xù)更換為DDN鏈路。其中一條專線DDN線路(7#線路)偶爾會(huì)出現(xiàn)連接中斷的現(xiàn)象,恢復(fù)系統(tǒng)時(shí)必須將路由器Reset才能重新連接。今天按老經(jīng)驗(yàn),故障現(xiàn)象出現(xiàn)時(shí)重復(fù)以往的操作程序卻發(fā)現(xiàn)此辦法不管用了,系統(tǒng)仍然不能連接。直到我們趕到現(xiàn)場時(shí)系統(tǒng)還未能恢復(fù)正常。將網(wǎng)絡(luò)測試儀接入信息中心網(wǎng)絡(luò),可以看到與各電廠子網(wǎng)連接的路由器,查看7#路由器工作表,有少許傳輸延遲錯(cuò)誤記錄,通道流量30秒記錄為7幀,其它線路的30秒記錄則從170幀?2700幀不等,明顯高于7#線路;對(duì)7#子網(wǎng)絡(luò)做通道測試,最高為2kbps,遠(yuǎn)低于64kbps的線路最高速率,說明DDN鏈路傳輸正常數(shù)據(jù)的能力很弱。由于該路由器支持的錯(cuò)誤識(shí)別和統(tǒng)計(jì)功能有限,用網(wǎng)管系統(tǒng)不能查看更詳細(xì)的統(tǒng)計(jì)信息,故改用F69x流量分析儀串入WAN通道進(jìn)行測試,發(fā)現(xiàn)少量未定義幀類型,其記錄標(biāo)識(shí)不穩(wěn)定。也就是說,通道上有一些是網(wǎng)絡(luò)不需要的且不穩(wěn)定的比特流。這些比特流不便于分類,流量不穩(wěn)定,時(shí)高時(shí)低,表明網(wǎng)絡(luò)可能存在“垃圾”,且比較象竄入系統(tǒng)的干擾信號(hào)。這些垃圾嚴(yán)重影響正常數(shù)據(jù)的交換和傳輸。為了驗(yàn)證其影響程度,我們用F683網(wǎng)絡(luò)測試儀向遠(yuǎn)端子網(wǎng)絡(luò)作ICMPPing測試,損失率為10%,不算高,作ICMPMonitor測試,目標(biāo)不可達(dá)50%,重定向20%,擁塞85%,這說明路由通道存在很嚴(yán)重的問題。從中心網(wǎng)絡(luò)的主網(wǎng)段檢測沒有發(fā)現(xiàn)網(wǎng)絡(luò)上有干擾比特流,測試為7#路由器供電的UPS輸入輸出電源諧波含量,顯示正常,由此基本上可以排除垃圾比特來自于網(wǎng)外竄入干擾比特的可能性。將其它路由器與7#路由器掉換,重新設(shè)置后啟動(dòng)系統(tǒng),故障依舊。由于垃圾比特?cái)?shù)量少,不可能引發(fā)網(wǎng)絡(luò)通道傳輸速率性能大幅度降低,因此推斷“垃圾比特”極有可能是來自于專線DDN鏈路或遠(yuǎn)端子網(wǎng)絡(luò)的路由器。本地信息中心沒有配備測試DDN鏈路的工具,在沒有足夠證據(jù)懷疑就是DDN鏈路的問題(DDN鏈路系租用的電信線路)的時(shí)候,我們只能先從遠(yuǎn)端子網(wǎng)絡(luò)查起。遠(yuǎn)端子網(wǎng)絡(luò)沒有任何網(wǎng)絡(luò)維護(hù)工具,從中心網(wǎng)絡(luò)的網(wǎng)管系統(tǒng)又看不到遠(yuǎn)端路由器存在異常數(shù)據(jù),我們只能立即啟程趕往7#電廠所在地。4小時(shí)后,我們抵達(dá)目的地并開始測試。先檢測7#子網(wǎng)的工作狀態(tài),LAN內(nèi)部數(shù)據(jù)交換正常,沒有垃圾比特流存在。打開路由器工作表,其中的錯(cuò)誤數(shù)據(jù)記錄有少量幀延遲數(shù)據(jù)包,WAN連接數(shù)據(jù)交換故障現(xiàn)象依舊,網(wǎng)絡(luò)測試儀測試的通道測試數(shù)據(jù)基本與中心網(wǎng)絡(luò)相同。用F69x流量測試儀測試通道流量,發(fā)現(xiàn)大量“垃圾比特”,數(shù)量為55kbps,其中35%指示數(shù)據(jù)來自遠(yuǎn)端路由器。由此可以斷定故障是由遠(yuǎn)端路由器或靠近路由器一段的DDN鏈路(可能性很小)造成。更換從信息中心帶來的備用路由器后,故障消失。[診斷評(píng)點(diǎn)]WAN通道故障可由多種原因造成。一般來講,通道測試不合格就表明含路由器在內(nèi)的WAN鏈路有問題。由于WAN鏈路可以由多種傳輸介質(zhì)及傳輸協(xié)議組成,比如ATM、DDN、ISDN、FrameRelay、SDH等等,所以針對(duì)不同鏈路類型嚴(yán)格地講要用專門的測試工具進(jìn)行測試。但因?yàn)橐话阌脩舳疾慌鋫鋀AN測試工具(部分集成商有相應(yīng)配置),所以用戶或系統(tǒng)集成商只能先用排除法首先確定是否是路由器(含路由器)以內(nèi)的網(wǎng)絡(luò)問題,然后,才能向WAN鏈路運(yùn)營商提出檢查服務(wù)通道的要求。本故障是由遠(yuǎn)端路由器故障造成,路由器除了傳送正常數(shù)據(jù)外還向WAN鏈路方向發(fā)送大量垃圾比特,從而占用通道流量,嚴(yán)重影響正常數(shù)據(jù)傳輸。早期路由器工作雖然不穩(wěn)定,但每次故障時(shí)間不長,所以在“15分鐘”內(nèi)故障能自愈(此類故障我們稱其為軟故障)。本次故障由軟故障轉(zhuǎn)變?yōu)椴荒茏杂摹坝补收稀保炊鵀榕懦收咸峁┝擞欣麠l件。由于多數(shù)數(shù)據(jù)被DDN專線鏈路給“過濾”掉了,且遠(yuǎn)端路由器對(duì)錯(cuò)誤數(shù)據(jù)的統(tǒng)計(jì)識(shí)別功能有限,所以從信息中心觀測到的垃圾比特比較少,觀察遠(yuǎn)端路由器也不能發(fā)現(xiàn)詳細(xì)的錯(cuò)誤統(tǒng)計(jì)。但I(xiàn)CMPPing測試、ICMPMonitor等測試錯(cuò)誤數(shù)據(jù)較大,與遠(yuǎn)端測試數(shù)據(jù)基本相等,同時(shí)從遠(yuǎn)端測試到的垃圾比特流很大(“F69x流量分析儀+F68x網(wǎng)絡(luò)測試儀組合”具有極強(qiáng)的檢測功能,支持完整的錯(cuò)誤識(shí)別和統(tǒng)計(jì)功能,這也是為什么我們認(rèn)為DDN鏈路出故障的可能性小的原因),所以斷定故障出在遠(yuǎn)端路由器。其實(shí),如果遠(yuǎn)端子網(wǎng)絡(luò)配備有合適的測試工具的話,本故障在很短的時(shí)間內(nèi)就可以排除。[診斷建議]工欲善其事,必先利其器。大型網(wǎng)絡(luò)配置一些備用網(wǎng)絡(luò)設(shè)備是必要的,還需要按網(wǎng)絡(luò)規(guī)模和使用級(jí)別、維護(hù)人員的技術(shù)等級(jí)配備相應(yīng)的維護(hù)工具,并建立一整套測試維護(hù)的方案和規(guī)定,這樣才能保證網(wǎng)絡(luò)的可靠性,并保證能及時(shí)處理各種網(wǎng)絡(luò)故障。因?yàn)橐话愕木W(wǎng)絡(luò)設(shè)備都具備部分網(wǎng)管功能,能統(tǒng)計(jì)并識(shí)別30%?40%左右的網(wǎng)絡(luò)錯(cuò)誤和故障信息,所以,有時(shí)這給人一種錯(cuò)覺:認(rèn)為只要具備網(wǎng)管功能,就能發(fā)現(xiàn)網(wǎng)絡(luò)的一切故障。其實(shí),進(jìn)一步的性能測試需要專用工具,要求這類工具不光能能識(shí)別各種正常的工作協(xié)議,還要能識(shí)別形形色色的“網(wǎng)上垃圾”。一般來講,除了配備相應(yīng)的LAN測試工具外,由于WAN鏈路的測試維護(hù)由WAN鏈路運(yùn)營商(比如電信公司)負(fù)責(zé),但網(wǎng)絡(luò)用戶和系統(tǒng)集成商也需要配備一定數(shù)量的WAN測試工具以備性能評(píng)測、故障救急以及定期測試的需要。[后記]兩天后“病人”來電告知,經(jīng)過對(duì)電路板的測試,發(fā)現(xiàn)路由器供電直流電壓不穩(wěn),進(jìn)一步測試發(fā)現(xiàn)穩(wěn)壓電源IC工作電壓不穩(wěn)定,溫度很高,更換IC后路由器恢復(fù)正常。[故事之五]PC機(jī)開關(guān)電源故障,導(dǎo)致網(wǎng)卡工作不正常,干擾系統(tǒng)運(yùn)行[癥狀]今天的病人很有趣,是某電信局網(wǎng)管中心,十萬火急地要求網(wǎng)絡(luò)醫(yī)院幫助立即解決燃眉之急。放下電話我們立即啟程奔往“目標(biāo)”所在地。為提高效率,途中繼續(xù)與該中心主任進(jìn)行通訊聯(lián)絡(luò)了解“病情”。網(wǎng)管中心所在地為一地區(qū)中心,下轄兩個(gè)縣級(jí)市和7個(gè)縣,安裝在地區(qū)網(wǎng)管中心的網(wǎng)管系統(tǒng)在兩個(gè)月前發(fā)出了報(bào)警信號(hào),提示某縣級(jí)市的網(wǎng)絡(luò)有異常情況。一個(gè)月前省局工作組在檢查工作時(shí)發(fā)現(xiàn)該縣級(jí)市不在網(wǎng)管中心的網(wǎng)絡(luò)拓?fù)滹@示圖上,詢問原因,當(dāng)時(shí)答曰:今天正好趕上該縣級(jí)市進(jìn)行工程施工,所以將網(wǎng)絡(luò)管理功能暫時(shí)關(guān)閉,故在網(wǎng)管機(jī)顯示器上的拓?fù)鋱D中無該縣級(jí)市的網(wǎng)絡(luò)圖標(biāo)。現(xiàn)在所謂“十萬火急”的問題即是:明天工作組將要進(jìn)行第二次驗(yàn)收檢查,而網(wǎng)管系統(tǒng)是此次的重點(diǎn)檢查項(xiàng)目之一,不可能再用網(wǎng)絡(luò)工程在施工為由回避檢查該子網(wǎng)的狀況。因?yàn)榫W(wǎng)絡(luò)拓?fù)鋱D上的報(bào)警信息仍在,該縣級(jí)市的問題也一直沒有徹底解決(縣級(jí)市子網(wǎng)卻一直報(bào)告網(wǎng)絡(luò)正常,速度很快!對(duì)定位故障一直不太主動(dòng)),明日檢查恐怕無法“過關(guān)”,所以才想到引入“緊急外援”。另外需說明的一點(diǎn)是,該故障在初期時(shí)隱時(shí)現(xiàn),最近才由飄忽不定演變?yōu)楦哳l發(fā)作甚至是持續(xù)存在的故障現(xiàn)象。針對(duì)這一情況,我們決定先不去地區(qū)中心,而是直接轉(zhuǎn)道前往該縣級(jí)市網(wǎng)管中心,因?yàn)閺木W(wǎng)管指示的范圍看問題很可能出在此處。另外,該中心距我們現(xiàn)在的位置比地區(qū)中心也更近一些。—\o[診斷過程]半小時(shí)后即抵達(dá)目的地,立即投入“體檢”工作。根據(jù)地區(qū)網(wǎng)管中心提供的線索,該子網(wǎng)的路由器報(bào)告錯(cuò)誤數(shù)據(jù)流量較高,因此直接對(duì)該子網(wǎng)進(jìn)行測試。該子網(wǎng)為用交換機(jī)連接的多網(wǎng)段結(jié)構(gòu),含8個(gè)lOBaseT和18個(gè)lOOBaseT以太網(wǎng)。用網(wǎng)絡(luò)測試儀接入網(wǎng)絡(luò)作自動(dòng)監(jiān)測,測試路由器平均錯(cuò)誤流量記錄為3%,有效流量為7%(廣域連接用的是E1鏈路)。觀察交換機(jī)自身提示的錯(cuò)誤流量系指向第一插槽的3#端口所連接的子網(wǎng)段,其它子網(wǎng)段測試正常。3#子網(wǎng)段為擁有97個(gè)工作站的lOOBaseT以太網(wǎng)網(wǎng)段,DNS服務(wù)器、IP服務(wù)器和其它主要的業(yè)務(wù)服務(wù)器也掛在該子網(wǎng)段內(nèi)。測試3#端口的錯(cuò)誤計(jì)數(shù)統(tǒng)計(jì)值為25%,隨即將F683“網(wǎng)絡(luò)萬用表”(即網(wǎng)絡(luò)測試儀)移動(dòng)到3#網(wǎng)段進(jìn)行監(jiān)測。結(jié)果指示:錯(cuò)誤類型為幀校驗(yàn)錯(cuò)誤和其它未分類錯(cuò)誤(這可以是為無幀頭結(jié)構(gòu)的、且非碰撞類型的自由幀、離散幀等),比例分別為27%和11%,其中正常數(shù)據(jù)包流量為3%。27%的錯(cuò)誤統(tǒng)計(jì)值與交換機(jī)提示的錯(cuò)誤統(tǒng)計(jì)值基本一致,但還有11%的錯(cuò)誤交換機(jī)和路由器等不能識(shí)別,需要進(jìn)行定位。斷開路由器,錯(cuò)誤指標(biāo)略有降低。這表明故障確實(shí)是在該子網(wǎng),與WAN鏈路基本無關(guān)。由于子網(wǎng)段全部由集線器堆疊而成(8x16Port),故進(jìn)一步觀察網(wǎng)絡(luò)測試儀F683指示的全部錯(cuò)誤定位數(shù)據(jù)。儀器提示97個(gè)工作站和5個(gè)服務(wù)器均發(fā)出類型為FCS幀校驗(yàn)錯(cuò)誤的數(shù)據(jù)包,數(shù)量不等。由于全部工作站均發(fā)出FCS幀校驗(yàn)錯(cuò)誤幀,所以不認(rèn)為是所有的工作站網(wǎng)卡都有問題(這種可能性微乎其微),而故障原因很可能是電纜故障(全部電纜打線有誤或采用了假冒偽劣電纜)和干擾竄入,如信號(hào)干擾、接地干擾、電源干擾、輻射干擾等等(包含在未分類錯(cuò)誤類型中)。網(wǎng)管人員認(rèn)為,由于電纜系統(tǒng)在竣工驗(yàn)收時(shí)全部都采用ISO118O1標(biāo)準(zhǔn)進(jìn)行過認(rèn)證測試,測試工作是網(wǎng)管中心自己承擔(dān)的,所以應(yīng)該沒有問題。為快速定位故障,采用通常的“二分法”隔離網(wǎng)段:先將一半的集線器斷電,故障依舊,再次將其中一半集線器(即總量的四分之一)斷電,故障消失。恢復(fù)供電,逐個(gè)拔掉該四分之一集線器(兩個(gè)集線器)上的工作站電纜插頭,當(dāng)拔下6號(hào)集線器的7#端口連接的工作站電纜插頭時(shí),網(wǎng)絡(luò)萬用表上的錯(cuò)誤指示全部消失!網(wǎng)管人員斷定,故障為該工作站之網(wǎng)卡的可能性不大,因?yàn)樗械木W(wǎng)卡昨天為了迎接檢查驗(yàn)收都進(jìn)行過相鄰三組網(wǎng)卡的兩兩互換試驗(yàn)和三臺(tái)相鄰整機(jī)的兩兩換位試驗(yàn)(該中心沒有配備其它的網(wǎng)絡(luò)測試工具,只好采用這種常用的但經(jīng)常是有效的所謂“笨辦法”)。用網(wǎng)絡(luò)測試儀對(duì)此故障工作站的網(wǎng)卡進(jìn)行測試,結(jié)果其端口的物理參數(shù)和工作協(xié)議都正常。由此可以大體斷定故障出在工作站的其它部位,且基本是干擾類型的錯(cuò)誤(屬于未分類幀錯(cuò)誤類型),不排除線纜引入過量噪聲的可能。拔下網(wǎng)卡一側(cè)的電纜插頭,故障消失,說明故障不是由電纜噪聲引起。靠近該工作站可以聞到一股雖不是十分明顯,但卻比其它工作站都強(qiáng)烈的電器“燒焦”味(不過,還遠(yuǎn)未到令機(jī)器冒煙的地步)。貼近機(jī)器可以聽到開關(guān)電源中發(fā)出的明顯的“咝咝”響聲。測試工作站與服務(wù)器的聯(lián)絡(luò)情況,可以看到大量的重發(fā)幀和無效幀。更換備用的開關(guān)電源,故障排除。[診斷評(píng)點(diǎn)]故障原因比較簡單,是由單臺(tái)工作站開關(guān)電源故障產(chǎn)生的放電干擾信號(hào)竄到網(wǎng)卡輸出端口后進(jìn)入網(wǎng)絡(luò)所造成。該干擾信號(hào)進(jìn)入網(wǎng)絡(luò)后占用大量的網(wǎng)絡(luò)帶寬,破壞其它工作站的數(shù)據(jù)包(即表現(xiàn)為“患者”眾多的FCS幀校驗(yàn)錯(cuò)誤類型的數(shù)據(jù)包,其比例隨各個(gè)工作站實(shí)際的正常流量而定);同時(shí)該干擾信號(hào)還干擾服務(wù)器、路由器的工作(重發(fā)幀、無效幀等),使得地區(qū)中心的網(wǎng)管機(jī)屏幕上經(jīng)常有報(bào)警狀態(tài)提示。由于網(wǎng)絡(luò)總流量為41%左右(低于40%的平均流量時(shí)用戶基本不會(huì)感到網(wǎng)絡(luò)變慢),有效流量只有3%,所以縣級(jí)市子網(wǎng)上的用戶雖然自己發(fā)出的數(shù)據(jù)包有很多被破壞而需要重發(fā),同時(shí)接收到的數(shù)據(jù)包有很多已被破壞而需要重收,但是基本上不會(huì)感到網(wǎng)絡(luò)速度有明顯的變慢![診斷建議]網(wǎng)管系統(tǒng)通常只能發(fā)現(xiàn)約30%?40%的網(wǎng)絡(luò)故障(這取決與被管理設(shè)備支持網(wǎng)管的能力和分析、記錄網(wǎng)絡(luò)異常流量的能力)。當(dāng)有故障報(bào)警后,多數(shù)情況下需要進(jìn)一步迅速確定具體的故障位置和故障屬性。本次故障不能精確定位并立即排除的原因是多方面的,其一,縣級(jí)網(wǎng)由于沒有網(wǎng)絡(luò)維護(hù)工具,僅靠網(wǎng)絡(luò)維護(hù)人員的經(jīng)驗(yàn)和從互聯(lián)網(wǎng)上下載的某些軟件來監(jiān)測自己的網(wǎng)絡(luò),這是直接導(dǎo)致了此次故障長時(shí)間無法解決的原因。現(xiàn)階段,按不同的網(wǎng)絡(luò)維護(hù)規(guī)模和級(jí)別為相應(yīng)技術(shù)水平的網(wǎng)管人員及運(yùn)行維護(hù)人員配置合適的工具到目前為止一直是讓網(wǎng)絡(luò)規(guī)劃人員、計(jì)劃單位和網(wǎng)絡(luò)維護(hù)人員自己都搞不清的事情。其二,本次故障本來原因比較簡單,但因維護(hù)體制方面存在的問題從而導(dǎo)致在故障查找過程中不能密切配合和協(xié)作,使得問題長期未能解決。其實(shí),如何比較全面、有效、快速和低成本地實(shí)施網(wǎng)絡(luò)的管理和維護(hù)已經(jīng)有許多成熟的方案和做法。建議網(wǎng)管人員和運(yùn)行維護(hù)人員在忙于快速建網(wǎng)、不斷跟蹤網(wǎng)絡(luò)新技術(shù)和接觸新設(shè)備的同時(shí)也要抽出部分精力來研究有關(guān)網(wǎng)絡(luò)維護(hù)的理論、方法和成熟的方案,力爭達(dá)到事半功倍的效果。比如,進(jìn)行完整的網(wǎng)絡(luò)文檔備案工作、定期測試、網(wǎng)絡(luò)基準(zhǔn)測試、性能監(jiān)測、體能測試、通道測試、協(xié)議監(jiān)測、流量分析等工作就一直是一些大型網(wǎng)絡(luò)成功地防止嚴(yán)重事故發(fā)生的有效而簡便的手段。你知道嗎,與你見到的和想象的都不一樣,消防隊(duì)平時(shí)更重要的工作并不是救火,而是防火!!網(wǎng)絡(luò)維護(hù)工作亦莫不如是!可以完全相比擬。[后記]該地區(qū)網(wǎng)對(duì)下轄子網(wǎng)后來作了一遍比較全面的認(rèn)證測試,發(fā)現(xiàn)了許多平時(shí)無法察覺的故障隱患,現(xiàn)在的網(wǎng)絡(luò)健康水平應(yīng)該是最高的。我們最近將應(yīng)邀對(duì)其所屬的網(wǎng)絡(luò)進(jìn)行一次總體評(píng)分,希望能有所突破(10分制,目前最高得分記錄為5分)。[故事之六]私自運(yùn)行Proxy發(fā)生沖突,服務(wù)器響應(yīng)速度“變慢”,網(wǎng)蟲太“勤快”[癥狀]某市工商局信息中心今日向網(wǎng)絡(luò)醫(yī)院“報(bào)案”,報(bào)告其關(guān)鍵的企業(yè)數(shù)據(jù)服務(wù)器經(jīng)常出現(xiàn)“阻塞”,起因是分布在各地的各個(gè)業(yè)務(wù)受理局、所等的工作人員時(shí)常向信息中心抱怨在進(jìn)行企業(yè)數(shù)據(jù)調(diào)用、核查和進(jìn)行新企業(yè)登記操作時(shí)經(jīng)常遇到“梗阻”,速度變慢或業(yè)務(wù)出現(xiàn)暫時(shí)性的停頓的現(xiàn)象。由于故障現(xiàn)象不是持續(xù)存在,雖然檢查過多次,也殺過多次“毒”,更換速度更快的服務(wù)器后情況好轉(zhuǎn),但未從根本上能解決問題,始終沒有找到真正的“病根”所在。要求幫助查找“元兇”走進(jìn)該工商信息中心嶄新明亮的機(jī)房,可以看到正面的墻上有一幅巨大的網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)涫疽鈭D,上面非常清楚的標(biāo)明了各種網(wǎng)上設(shè)備和網(wǎng)絡(luò)設(shè)備的型號(hào)、名稱、位置、速度、鏈路類型和連接關(guān)系等等。初步感覺這樣的網(wǎng)絡(luò)器管理水平應(yīng)該是不錯(cuò)的。但,經(jīng)過了解獲知,目前實(shí)際的網(wǎng)絡(luò)的結(jié)構(gòu)比較特殊,與拓?fù)鋱D上的結(jié)構(gòu)有較大區(qū)別:用于業(yè)務(wù)網(wǎng)的大部分機(jī)器還設(shè)在舊的信息中心機(jī)房中,只有企業(yè)數(shù)據(jù)服務(wù)器等關(guān)鍵設(shè)備安裝在新工商大廈的信息中心機(jī)房中,且同辦公網(wǎng)連通。新大廈和舊信息中心相距約2000米,中間通過光纜和路由器連接起來,并在辦公網(wǎng)側(cè)設(shè)置了防火墻。辦公網(wǎng)的多數(shù)用戶都可以通過WAN鏈路訪問internet國際互聯(lián)網(wǎng)。信息中心主任對(duì)此的解釋是:按工程規(guī)劃的要求,需要把原信息中心機(jī)房的全部設(shè)備和人員搬遷到新大廈的信息中心機(jī)房,但因發(fā)現(xiàn)新大廈存在建筑質(zhì)量問題,兩個(gè)月前只搬遷了少部分設(shè)備和絕大部分的人員。為了不影響業(yè)務(wù),在對(duì)設(shè)備采取臨時(shí)性的重新布局后即投入了運(yùn)行。工作狀況一直正常。多數(shù)業(yè)務(wù)設(shè)備還留在了舊機(jī)房中,由2名留守人員負(fù)責(zé)管理。大約一個(gè)月前開始出現(xiàn)故障征兆。該信息中心負(fù)責(zé)下轄8個(gè)工商分局,76個(gè)工商所的網(wǎng)絡(luò)連接和業(yè)務(wù)保障工作。局和分局之間用幀中繼鏈路連接,工商所和分局之間用DDN、ISDN連接,少數(shù)用撥號(hào)方式連接。業(yè)務(wù)網(wǎng)與辦公網(wǎng)之間用防火墻隔離。業(yè)務(wù)網(wǎng)中的用戶除分局的少數(shù)用戶外按設(shè)計(jì)要求均不能上互聯(lián)網(wǎng)。[診斷過程]從安裝在辦公網(wǎng)中的網(wǎng)管系統(tǒng)上觀察,企業(yè)數(shù)據(jù)服務(wù)器流量為28%,屬正常。就近從辦公網(wǎng)用網(wǎng)絡(luò)測試儀F683對(duì)服務(wù)器進(jìn)行連通性測試,損失率為0%。這說明至少在此時(shí)此刻服務(wù)器是工作狀態(tài)是不錯(cuò)的。用網(wǎng)絡(luò)助理(網(wǎng)絡(luò)一點(diǎn)通)對(duì)服務(wù)器發(fā)送10%的流量,觀察服務(wù)器的使用情況。從數(shù)據(jù)包交換對(duì)話矩陣中發(fā)現(xiàn),服務(wù)器對(duì)辦公網(wǎng)中的用戶均有響應(yīng),而對(duì)原業(yè)務(wù)網(wǎng)中的用戶則有少數(shù)幾個(gè)“不響應(yīng)”的記錄。由此可以推斷故障原因絕大多數(shù)可能還在原業(yè)務(wù)網(wǎng)中。將網(wǎng)絡(luò)測試儀移動(dòng)到信息中心舊樓中進(jìn)行測試,結(jié)果如下:網(wǎng)絡(luò)流量為45%(略高),碰撞率為3%,錯(cuò)誤率0%,廣播7%(略高)。總體基本正常。進(jìn)而觀察網(wǎng)絡(luò)協(xié)議的分布狀態(tài),基本正常。查看數(shù)據(jù)包對(duì)話矩陣,則發(fā)現(xiàn)凡是對(duì)企業(yè)數(shù)據(jù)服務(wù)器的訪問數(shù)據(jù)包均有部分“不響應(yīng)”記錄。該記錄涉及面很廣,幾乎40%的工作站均有牽連。為了驗(yàn)證是否是數(shù)據(jù)鏈路的問題,進(jìn)行了ICMPPing和ICMPMonitor測試,前者報(bào)告有兩個(gè)MAC地址響應(yīng),后者則報(bào)告記錄到大量的目標(biāo)不可達(dá)、重定向、擁塞告警等數(shù)據(jù)幀。這說明網(wǎng)絡(luò)的數(shù)據(jù)鏈路中有重復(fù)的IP地址,而且網(wǎng)絡(luò)對(duì)數(shù)據(jù)幀的路由運(yùn)算也存在問題。啟動(dòng)網(wǎng)絡(luò)測試儀的網(wǎng)段自動(dòng)搜尋功能,自動(dòng)查詢網(wǎng)絡(luò)連接結(jié)構(gòu),結(jié)果發(fā)現(xiàn)有多余路由解析操作(Proxy),但沒有發(fā)現(xiàn)重復(fù)的IP地址(這說明重復(fù)的IP地址不在該網(wǎng)段,而存在于數(shù)據(jù)訪問通道中)。因網(wǎng)管人員沒有MAC地址備份文檔,故建議將舊樓中的所有本地工作站關(guān)機(jī),此時(shí)網(wǎng)絡(luò)立即恢復(fù)正常。為確定與服務(wù)器重名的工作站,再分批打開所有工作站,結(jié)果發(fā)現(xiàn)留守人員的2臺(tái)機(jī)器中有1臺(tái)IP地址與企業(yè)數(shù)據(jù)服務(wù)器重名。進(jìn)一步檢查該工作站,還發(fā)現(xiàn)其私自安裝并運(yùn)行了Proxy代理,與網(wǎng)段搜索的結(jié)構(gòu)一致。[診斷評(píng)點(diǎn)]故障原因有三。一是IP地址重復(fù),二是運(yùn)行非法路由代理。當(dāng)業(yè)務(wù)網(wǎng)用戶要求進(jìn)一步的地址解析分析時(shí),留守機(jī)與數(shù)據(jù)服務(wù)器發(fā)生沖突,多數(shù)的數(shù)據(jù)流向發(fā)生混亂(注意,此時(shí)的數(shù)據(jù)幀結(jié)構(gòu)仍正常),使用戶的訪問發(fā)生“梗阻”。應(yīng)用軟件則經(jīng)常要求重新聯(lián)絡(luò)和重傳數(shù)據(jù),導(dǎo)致流量偏高、業(yè)務(wù)流程速度變慢。由于沖突基本限制在原信息中心網(wǎng)絡(luò)中,所以企業(yè)數(shù)據(jù)服務(wù)器的流量顯示正常!網(wǎng)管系統(tǒng)也無錯(cuò)誤數(shù)據(jù)包報(bào)告!原因之三:對(duì)留守人員的管理出現(xiàn)真空。留守人員因“無聊”(員工自述)而渴望“越權(quán)”連接互聯(lián)網(wǎng),并由此開始迅速成為一名“白日網(wǎng)蟲”,進(jìn)而干擾正常業(yè)務(wù)流程。由于其操作并不一定持續(xù)存在,從而導(dǎo)致問題出現(xiàn)一個(gè)多月不能解決。其實(shí),辦公網(wǎng)中的互聯(lián)網(wǎng)用戶也會(huì)或多或少地受到影響,只不過因白天用戶的使用頻率低未曾察覺而已。[診斷建議]網(wǎng)絡(luò)管理的漏洞大多數(shù)來自于內(nèi)部管理人員,建立嚴(yán)格的內(nèi)部管理機(jī)制是非常必要的。同時(shí),建議將MAC地址的備份列入必備文檔。另外,每日對(duì)網(wǎng)絡(luò)進(jìn)行狀態(tài)自動(dòng)搜尋會(huì)有助于很快發(fā)現(xiàn)并清除非法用戶。健康的網(wǎng)絡(luò)維護(hù)方案中其實(shí)早就有關(guān)于定期測試(包括每日測試和每日循環(huán)測試)的項(xiàng)目,只要堅(jiān)持每日必要的測試和檢查,就可以保證99.9%的網(wǎng)絡(luò)不會(huì)有超過2天而解決不了的嚴(yán)重網(wǎng)絡(luò)問題存在。[后記]一個(gè)月后用戶來電告知全部設(shè)備已經(jīng)遷入新居,現(xiàn)在每日?qǐng)?jiān)持定期項(xiàng)目的測試和記錄,網(wǎng)絡(luò)工作狀態(tài)良好。提心吊膽的日子終于結(jié)束,可以松口氣了。[故事之七]供電質(zhì)量差,路由器工作不穩(wěn)定,造成路由漂移和備份路由器擁塞[癥狀]今天的“病人”是位居某中心城市的一家大區(qū)銀行,報(bào)告的故障現(xiàn)象是:故障時(shí)斷時(shí)續(xù),呈周期性“發(fā)作”,每隔10分鐘左右在其轄區(qū)內(nèi)就有部分支行或分行打來電話報(bào)告業(yè)務(wù)流程出現(xiàn)問題。具體表現(xiàn)都很一致:先出現(xiàn)業(yè)務(wù)中斷,1分鐘后連接恢復(fù),但速度非常慢。此故障已經(jīng)持續(xù)了2天,網(wǎng)管人員懷疑是路由器故障,曾試著分別更換了備用的同城結(jié)算路由器和主路由器,無效。[診斷過程]我們驅(qū)車來到“病人”的計(jì)算中心,首先向網(wǎng)絡(luò)管理人員了解故障情況。基本上與網(wǎng)絡(luò)醫(yī)院“接診”記錄報(bào)告的內(nèi)容相同。從表現(xiàn)的故障現(xiàn)象來看,根據(jù)以往的經(jīng)驗(yàn),基本上可以初步推斷是路由鏈路的問題。網(wǎng)管人員確認(rèn),業(yè)務(wù)中斷時(shí),普通Ping測試不通,此現(xiàn)象以前也出現(xiàn)過幾次,很快就恢復(fù)了。因此也沒有引起注意。從記錄的故障報(bào)告(電話登記)看,無論是本城轄區(qū)還是大區(qū)內(nèi)的遠(yuǎn)程網(wǎng)絡(luò)都報(bào)告過路由中斷現(xiàn)象。由于故障每隔10分鐘左右就會(huì)周期性地出現(xiàn),雖然比較頻繁,卻為故障診斷提供了很大方便。可以考慮選擇任意路由進(jìn)行連續(xù)的Ping測試,監(jiān)測其連接狀況與故障發(fā)生時(shí)刻的關(guān)系。為此我們將F683網(wǎng)絡(luò)測試儀接入計(jì)算中心網(wǎng)絡(luò)進(jìn)行監(jiān)測。選擇曾報(bào)告過故障的其下轄的某郊縣路由器作連續(xù)的ICMPPing測試,響應(yīng)時(shí)間為9ms,質(zhì)量尚可。3分鐘后,有用戶報(bào)告故障出現(xiàn),不過網(wǎng)絡(luò)測試儀顯示正常,說明我們監(jiān)測的路由鏈路可能是正常的。立即改變監(jiān)測方向,向報(bào)告遇到故障的用戶的路由器做ICMPMonitor,結(jié)果大量的目標(biāo)不可達(dá)記錄出現(xiàn),并出現(xiàn)源限制、回應(yīng)請(qǐng)求和回應(yīng)響應(yīng)幀。20秒鐘后,出現(xiàn)大量重定向幀記錄,目標(biāo)不可達(dá)幀記錄速度減緩,源限制、回應(yīng)請(qǐng)求和回應(yīng)響應(yīng)則開始大量出現(xiàn)。以上記錄表明,路由器的動(dòng)態(tài)路由表在故障出現(xiàn)時(shí)發(fā)生了很大變化。網(wǎng)絡(luò)原來的路由中斷后,繼之被重定向路由取代。打開靜態(tài)路由表,為了與動(dòng)態(tài)路由作比較,我們啟動(dòng)F683分段路由追蹤功能,追蹤從測試儀到先前報(bào)告故障的遠(yuǎn)程路由器。可以看到,路由在本城出口的下一站,即大區(qū)鏈接的第一個(gè)路由就發(fā)生了中斷。動(dòng)態(tài)路由已經(jīng)由備份路由取代。狀態(tài):擁塞。原路由為主路由,通道速率為E1,為ATM鏈路,備份路由為DDN基本速率鏈接,速度僅為64Kbps。打開主路由器的Mib庫,觀測到主路由器的流量為0.02%,錯(cuò)誤為2%;表明它處于輕負(fù)荷狀態(tài),并有少量錯(cuò)誤流量。觀察備份路由器的Mib庫,流量為100%,說明它處于超負(fù)荷運(yùn)行狀態(tài)。由于故障為周期故障,為了觀測它的發(fā)生規(guī)律,我們?cè)谡鞯谩安∪恕蓖獾那疤嵯拢瑳Q定不急于尋找主路由器中斷和擁塞的原因,而是先觀測在一個(gè)周期里故障變化的全過程并記錄之。我們用第二臺(tái)網(wǎng)絡(luò)測試儀和網(wǎng)絡(luò)故障一點(diǎn)通接入網(wǎng)絡(luò),分別觀察主路由器、備份路由器、主服務(wù)器的工作流量和錯(cuò)誤,并對(duì)主路由器作連續(xù)的ICMP監(jiān)測。約8分鐘后,主路由器流量開始迅速上升,備份路由器出現(xiàn)重定向指示,約15秒后報(bào)告?zhèn)浞萋酚善魍瞥鰞?yōu)化路由,動(dòng)態(tài)路由表恢復(fù)到與靜態(tài)路由相同的設(shè)置。網(wǎng)絡(luò)完全恢復(fù)正常。分析故障關(guān)系,可以斷定故障的最大關(guān)聯(lián)設(shè)備是主路由器。由于用戶在機(jī)架上已經(jīng)安裝了冷備份的主路由器,我們先將冷備份路由器替換到主路由器的位置。5分鐘后路由器更換完畢,開機(jī)接入網(wǎng)絡(luò),3分鐘后網(wǎng)絡(luò)恢復(fù)正常。但只持續(xù)了2分鐘,故障現(xiàn)象又重新出現(xiàn)。看來,必須對(duì)主路由器做詳細(xì)監(jiān)測才能發(fā)現(xiàn)真正的故障所在。網(wǎng)絡(luò)建構(gòu)拓?fù)涫牵髀酚善髋c三個(gè)外區(qū)遠(yuǎn)程路由器和一個(gè)本地路由器相連,我們可以同時(shí)監(jiān)測這幾個(gè)路由器的工作狀況。監(jiān)測結(jié)果如下:故障出現(xiàn)時(shí),外區(qū)主路由器和本城路由器的路由表隨著故障的出現(xiàn)也發(fā)生變化,而此時(shí)同城結(jié)算業(yè)務(wù)不受影響。受影響的業(yè)務(wù)方向是外地與本城、本城與外地、外地經(jīng)本地跨區(qū)等。用Fluke的ATM測試儀測試遠(yuǎn)程ATM路由通道,將遠(yuǎn)端ATM交換機(jī)Loopback(環(huán)回)以后監(jiān)測三個(gè)方向的通道情況,顯示完全正常。再對(duì)與主路由器相關(guān)的連接電纜進(jìn)行測試,全部合格。這表明主路由器的工作環(huán)境是基本正常的。此時(shí)我們需要了解主路由器鏈路中的“垃圾流量”的分布。但由于網(wǎng)絡(luò)醫(yī)院的流量分析儀出借給了別的“病人”,所以我們暫時(shí)不能觀察主路由器的詳細(xì)流量狀況。實(shí)際上,我們這時(shí)也只需要檢查主路由器的接地質(zhì)量和供電環(huán)境即可(因?yàn)橐呀?jīng)試驗(yàn)更換過主路由器),這兩個(gè)因素當(dāng)中的任何一個(gè)不屬合要求,都有可能引發(fā)主路由器中斷的故障。首先觀測為主路由器供電的UPS電源。當(dāng)故障發(fā)生時(shí)UPS顯示過載,而輸出回路卻顯示輕負(fù)荷。用F43電力質(zhì)量分析儀觀察也顯示故障時(shí)輸入諧波超差6倍。輸出回路超差400倍,故障恢復(fù)后,過載指示也隨之消失,但輸出回路仍超差80倍。證明UPS電源低效。將主路由器的供電電源接到另一臺(tái)UPS電源上,故障徹底消失。故障原因?yàn)楣╇娰|(zhì)量不合格。我們注意到,該計(jì)算中心所在的大樓正在裝修,網(wǎng)管人員說等大樓裝修完畢后還要將網(wǎng)絡(luò)設(shè)備擴(kuò)容。初步干擾源很可能就來自與裝修有關(guān)的部分。由于故障的周期性,經(jīng)過仔細(xì)觀察發(fā)現(xiàn),故障出現(xiàn)的周期與樓旁塔吊的上下周期一致!為準(zhǔn)確判定諧波干擾的源地點(diǎn),我們將F43電力質(zhì)量分析儀接入供電網(wǎng)絡(luò)進(jìn)行核實(shí),結(jié)果發(fā)現(xiàn),每當(dāng)塔吊上升時(shí),故障現(xiàn)象就出現(xiàn)(下降時(shí)諧波為上升時(shí)的三分之一,網(wǎng)絡(luò)有少許變慢)。[診斷評(píng)點(diǎn)]為主路由器供電的UPS電源由于失效,對(duì)外界電力干擾諧波的過濾能力下降,當(dāng)為重負(fù)載的用電設(shè)備供電時(shí),此諧波會(huì)引發(fā)許多設(shè)備出錯(cuò)。如果此時(shí)恰逢UPS電源濾波失效,則相關(guān)設(shè)備會(huì)受到干擾。本故障中,主路由器由于大量干擾進(jìn)入,使得鏈路阻塞,路由器連接中斷,路由變更指令使得各業(yè)務(wù)流量流向備份路由器,備份路由器的路由通道能力又不能滿足,致使網(wǎng)絡(luò)出現(xiàn)擁塞。這就是本次故障先中斷后恢復(fù)然后阻賽的原因。同城結(jié)算數(shù)據(jù)由于多數(shù)不經(jīng)過主路由器,所以未受到影響。塔吊下降時(shí),雖然引入的干擾也不少,不過因?yàn)槠涓蓴_的絕對(duì)值未超過主路由器的承受范圍,所以主路由器還能應(yīng)付。大樓裝修以前也出現(xiàn)過類似的故障,因干擾源很快消失并不再持續(xù)存在,因此不可能引起維護(hù)人員的注意。[診斷建議]與電纜和光纜系統(tǒng)一樣,電力諧波和UPS電源也是列入定期檢查的內(nèi)容,一般建議作半年定期檢查,關(guān)鍵的網(wǎng)絡(luò)建議作為周定期檢查的項(xiàng)目。諧波干擾是經(jīng)常存在的環(huán)境因素,如果此時(shí)UPS電源不出問題,一般不會(huì)影響網(wǎng)絡(luò)的正常運(yùn)行,但諧波干擾是嚴(yán)重影響網(wǎng)絡(luò)性能的原因之一,一旦竄入網(wǎng)絡(luò)則引起的故障多數(shù)都是“致癱性”或致命性的。還由于多數(shù)用戶對(duì)干擾類型的故障“相當(dāng)?shù)亍辈皇煜ぃ侍嵴?qǐng)大家引起較多關(guān)注。[后記]更換UPS后,該網(wǎng)絡(luò)“從此”表現(xiàn)優(yōu)異。讓我們感到欣慰的是,“定期維護(hù)”的概念已為“病人”所接受。在網(wǎng)絡(luò)醫(yī)院的幫助下,他們制定了詳細(xì)的網(wǎng)絡(luò)健康維護(hù)方案,確定了定期維護(hù)、視情維護(hù)的詳細(xì)規(guī)章。其實(shí),這才是網(wǎng)絡(luò)醫(yī)院的工作最有價(jià)值的一部分。那就是:未雨綢繆,防患于未然。[故事之八]中心DNS服務(wù)器主板“失常”,占用帶寬資源并攻擊其它子網(wǎng)的服務(wù)器[癥狀]有“病人”來電報(bào)告網(wǎng)絡(luò)的一個(gè)子網(wǎng)突然變慢,中心主網(wǎng)絡(luò)則基本正常。以下是“病人”的主述“癥狀”:“病人”是某市電信多媒體網(wǎng)絡(luò)服務(wù)公司(163、169),該市為地級(jí)市,為本市及市轄縣的普通用戶提供本地?zé)峋€網(wǎng)站服務(wù)和Internet接入服務(wù)。昨天,其服務(wù)的用戶反映網(wǎng)絡(luò)速度很慢,Email經(jīng)常需要等待超過60秒以上的時(shí)間才能聯(lián)通,隨即其市營業(yè)廳(即子網(wǎng)所在地)報(bào)告速度突然變慢,影響業(yè)務(wù)。“病人”在主機(jī)房安裝有網(wǎng)管系統(tǒng),從網(wǎng)管上觀察發(fā)現(xiàn)除了營業(yè)廳子網(wǎng)路由器流量很高以外(測試為97%),中心網(wǎng)絡(luò)的路由器與其它子網(wǎng)的交互流量均為40%以下。沒有其它特別現(xiàn)象,應(yīng)該說網(wǎng)絡(luò)速度不會(huì)受影響。由于維護(hù)人員沒有配備其它網(wǎng)絡(luò)測試工具,又不能在白天斷開網(wǎng)絡(luò)停止用戶服務(wù)來進(jìn)行檢查。經(jīng)人介紹遂請(qǐng)網(wǎng)絡(luò)醫(yī)院派員幫助檢查。[診斷過程]這個(gè)故障表現(xiàn)比較簡單,檢查的時(shí)候只要查出子網(wǎng)的路由流量來源就可以很快確定故障方向,進(jìn)一步則立即可以查出流量源。由于用戶沒有配備分析網(wǎng)絡(luò)流量的工具,我們估計(jì)故障在子網(wǎng)的可能性比較大,所以我們直接驅(qū)車駛向子網(wǎng)所在地,即電信營業(yè)廳。從網(wǎng)絡(luò)拓?fù)鋱D上看,營業(yè)廳子網(wǎng)與中心網(wǎng)絡(luò)的鏈路為E1,平時(shí)作為業(yè)務(wù)營業(yè)廳網(wǎng)絡(luò)的業(yè)務(wù)通道。由于營業(yè)廳網(wǎng)絡(luò)一般只用于傳輸一些業(yè)務(wù)數(shù)據(jù),其子網(wǎng)的網(wǎng)站數(shù)量為45臺(tái),網(wǎng)管報(bào)告97%的流量肯定是過高的。有一種情況可以比較多地占用E1通道的有效流量,那就是營業(yè)廳子網(wǎng)有網(wǎng)站與中心網(wǎng)絡(luò)的網(wǎng)站或服務(wù)器之間有多媒體動(dòng)態(tài)圖象傳輸,比如VOD等。這種情況在不少地方發(fā)生過,但它要求必須有動(dòng)態(tài)圖象源才可以實(shí)施“點(diǎn)播”,中心網(wǎng)絡(luò)目前不可能提供這種服務(wù)(但不排除私自安裝的可能性)。營業(yè)廳網(wǎng)絡(luò)由于規(guī)模小,中心網(wǎng)絡(luò)的網(wǎng)管系統(tǒng)只支持到路由器一級(jí)的管理。交換機(jī)和服務(wù)器等采用的是廉價(jià)的桌面交換機(jī),所以無法支持網(wǎng)絡(luò)管理。我們將網(wǎng)絡(luò)測試儀F683接入交換機(jī)進(jìn)行測試,啟動(dòng)便攜網(wǎng)管功能,可以看到路由器的流量和網(wǎng)管系統(tǒng)觀測的到的流量是相同的,均為97%左右。查看中心網(wǎng)絡(luò)處與此相連的路由器流量,也是97%左右。這說明路由器通道鏈路性能基本正常,不過這樣高的通道流量必然導(dǎo)致路由器擁塞和丟包,所以從流量的角度看又是不正常的。現(xiàn)在需要了解的是,如此高的路由流量是從哪里來的?數(shù)據(jù)包到達(dá)路由器以后的去向等。這樣就可以很快定位導(dǎo)致如此之高的通道流量的數(shù)據(jù)源和擁塞源。將Fluke的F695網(wǎng)絡(luò)流量分析儀接入網(wǎng)絡(luò)的路由器通道進(jìn)行監(jiān)測和分析,結(jié)果顯示95%流量流向了業(yè)務(wù)數(shù)據(jù)服務(wù)器,且多數(shù)為HTTP和Email方面應(yīng)用(流量分析儀專門分析包括應(yīng)用層在內(nèi)的網(wǎng)絡(luò)上層的協(xié)議的應(yīng)用流量)。其中,Internet訪問流量占88%,本地流量占7%。查看流量分析儀指示的流量來源分布圖,沒有發(fā)現(xiàn)集中的流量應(yīng)用,IP地址分布比較均衡,最高的流量只占0.5%。這些數(shù)據(jù)表明,用戶的應(yīng)用比例均衡,故障原因應(yīng)該在應(yīng)用過程中而不是某個(gè)集中的用戶“轟擊”,比如黑客等。也就是說,應(yīng)用的過程和通道出了問題。這是因?yàn)椋@些流量按通道設(shè)計(jì)不應(yīng)該到達(dá)營業(yè)廳網(wǎng)絡(luò)的業(yè)務(wù)服務(wù)器。而是應(yīng)該直接從中心網(wǎng)絡(luò)的Internet主路由器進(jìn)入互聯(lián)網(wǎng)。那么,這些流量是如何被引導(dǎo)到營業(yè)廳服務(wù)器方向上來的呢?我們知道,IP數(shù)據(jù)包在傳輸過程中會(huì)在路由器中作地址解析(ARP),或是在本地DNS中進(jìn)行域名分析。如果這些分析路徑出問題,則IP數(shù)據(jù)包的傳輸和交換就會(huì)出問題。根據(jù)流量分析儀的指示,我們?nèi)我膺x擇了10個(gè)IP地址做路由追蹤測試,用Fluke的F683網(wǎng)絡(luò)測試儀追蹤的結(jié)果是,他們都要經(jīng)過一個(gè)DNS服務(wù)器。而模仿營業(yè)廳網(wǎng)絡(luò)成員分別對(duì)已知的本地和外地用戶做ICMP監(jiān)測和路由追蹤測試,結(jié)果發(fā)現(xiàn),ICMP監(jiān)測中重定向數(shù)據(jù)包占82%,目標(biāo)不可達(dá)數(shù)據(jù)包數(shù)量占13%。這表明,只有約2%的用戶能一次性出入正常路由到達(dá)目標(biāo)站點(diǎn),其余95%的IP數(shù)據(jù)包都要經(jīng)過路由競爭或重新發(fā)送才能有部分機(jī)會(huì)到達(dá)目的地。由此,可以重點(diǎn)檢查主路由器的路由表和DNS的轉(zhuǎn)換表。由于多數(shù)Internet訪問流量被引導(dǎo)到了營業(yè)廳業(yè)務(wù)服務(wù)器,所以可以重點(diǎn)檢查DNS服務(wù)器。用F683網(wǎng)絡(luò)測試儀對(duì)DNS服務(wù)器做查詢,觀察查詢結(jié)果,發(fā)現(xiàn)DNS轉(zhuǎn)換表有相當(dāng)大的比例指向了營業(yè)廳子網(wǎng)中的業(yè)務(wù)服務(wù)器。懷疑是DNS服務(wù)器出了問題。我們隨機(jī)通知中心網(wǎng)絡(luò)的網(wǎng)管人員將DNS服務(wù)器重新啟動(dòng)并快速設(shè)置一次,稍后網(wǎng)絡(luò)管理人員報(bào)告網(wǎng)絡(luò)業(yè)務(wù)恢復(fù)正常。用F683網(wǎng)絡(luò)測試儀的Internet工具包查詢DNS服務(wù)器,可以看到指向營業(yè)廳業(yè)務(wù)服務(wù)器的數(shù)據(jù)已經(jīng)全部消失。這表明網(wǎng)絡(luò)已經(jīng)完全恢復(fù)了正常工作。但好景不長,約3分鐘后,故障重新出現(xiàn),仍有97%的通道流量被指向了子網(wǎng)。由于DNS服務(wù)器只設(shè)置了一臺(tái),沒有備份或備用服務(wù)器。我們不得不立即來到中心網(wǎng)絡(luò)機(jī)房,對(duì)DNS服務(wù)器及其周圍設(shè)備進(jìn)行檢查。測試服務(wù)器網(wǎng)卡和與路由器的電纜,正常。為了不中斷服務(wù),我們請(qǐng)網(wǎng)管人員在另一臺(tái)備用服務(wù)器上臨時(shí)安裝設(shè)置了DNS服務(wù)器。經(jīng)過短暫的業(yè)務(wù)中斷后,更換上的新DNS服務(wù)器開始投入適用。只見子網(wǎng)路由器的流量立刻降低到了1.5%。經(jīng)過30分鐘的穩(wěn)定工作后,所有用戶均恢復(fù)到正常工作狀態(tài)。[診斷評(píng)點(diǎn)]DNS服務(wù)器用于將用戶域名轉(zhuǎn)換為IP地址,一般來說不會(huì)出現(xiàn)什么問題。但由于某些原因,轉(zhuǎn)換地址通通指向了營業(yè)廳子網(wǎng)的業(yè)務(wù)服務(wù)器。業(yè)務(wù)服務(wù)器不具備路由處理功能,對(duì)發(fā)送來的IP數(shù)據(jù)包要么拒收并置之不理,要么返回目標(biāo)不可達(dá)或需要重定向的報(bào)告數(shù)據(jù)包。這就是我們?cè)贗CMP監(jiān)測時(shí)經(jīng)常觀察到的現(xiàn)象。該地區(qū)城市中心網(wǎng)絡(luò)的用戶數(shù)量不多,與省中心網(wǎng)絡(luò)的鏈路帶寬為155M的ATM鏈路,大有富余。所以上Internet的用戶其上網(wǎng)速度主要受子網(wǎng)帶寬的影響。因?yàn)樵S多的用戶要經(jīng)過擁擠的無效E1鏈路,造成路由重定向和嚴(yán)重的時(shí)延。大量的IP數(shù)據(jù)包擁向只有2M帶寬的子網(wǎng)路由器,流量達(dá)到了97%,造成子網(wǎng)工作速度突然變慢,路由器出現(xiàn)嚴(yán)重?fù)砣痊F(xiàn)象。為了確定地址指向的錯(cuò)誤原因,我們建議用戶抽時(shí)間按下列步驟定位故障:首先,將原來的故障DNS服務(wù)器的工作平臺(tái)和應(yīng)用軟件以及網(wǎng)卡驅(qū)動(dòng)程序全部重新安裝一遍,然后選擇深夜用戶數(shù)量最少的時(shí)候接入網(wǎng)絡(luò)使用,查看轉(zhuǎn)換表是否正常;其次,如果仍然不正常,則更換網(wǎng)卡,主板等硬件,逐步縮小故障范圍。[診斷建議]基為了防止DNS服務(wù)不穩(wěn)定造成業(yè)務(wù)中斷或出錯(cuò),不少網(wǎng)管人員在設(shè)置DNS服務(wù)器時(shí)都安裝了備用DNS服務(wù)器,亦即安裝不只一臺(tái)DNS服務(wù)器。但這樣做也會(huì)帶來一個(gè)潛在的危險(xiǎn):即主DNS服務(wù)器出問題,備用自動(dòng)服務(wù)器投入運(yùn)行,這樣會(huì)犧牲一定的網(wǎng)絡(luò)帶寬,使得系統(tǒng)總體性能有所下降。危險(xiǎn)在于,性能的下降常常是在不知不覺中來到的。所以,為了保證網(wǎng)絡(luò)經(jīng)常處于良好的工作狀態(tài),網(wǎng)絡(luò)管理人員需要定期檢查DNS服務(wù)器的轉(zhuǎn)換表。這也是“周維護(hù)”(即每周定期維護(hù)項(xiàng)目)中建議的內(nèi)容之一(當(dāng)然,要保持網(wǎng)絡(luò)的優(yōu)良性能不只是檢查路由優(yōu)化性能,還有其它許許多多工作需要做。比如:性能評(píng)測、基準(zhǔn)測試、通道測試、應(yīng)用監(jiān)測、拓?fù)浣Y(jié)果管理、定期維護(hù)等等,有關(guān)這方面內(nèi)容讀者如感興趣可參閱《網(wǎng)絡(luò)測試技術(shù)簡介》)。本故障中的DNS指向錯(cuò)誤導(dǎo)致用戶的IP數(shù)據(jù)包對(duì)準(zhǔn)了子網(wǎng)服務(wù)器,但如果對(duì)準(zhǔn)的不是服務(wù)器而是中心網(wǎng)絡(luò)本地網(wǎng)段中的某臺(tái)機(jī)器,則故障強(qiáng)度會(huì)減弱,用戶不會(huì)感到非常明顯的速度變慢。這樣“病人”可能不會(huì)感到明顯的“身體不適”從而使得網(wǎng)絡(luò)長期帶病運(yùn)行。就象人一樣,定期的體檢對(duì)及時(shí)發(fā)現(xiàn)疾病及其隱患是非常必要的。而如何及時(shí)發(fā)現(xiàn)路由優(yōu)化方面的問題,也是網(wǎng)絡(luò)定期項(xiàng)目測試中的內(nèi)容之一,對(duì)大型網(wǎng)絡(luò)則更有必要,必須堅(jiān)持定期維護(hù)和測試。許多網(wǎng)絡(luò)設(shè)備如路由器、交換機(jī)、只能集線器等都支持SNMP網(wǎng)管功能,但為了全面監(jiān)測網(wǎng)絡(luò)通道功能,還需要網(wǎng)絡(luò)設(shè)備支持全面的RMON和RM0N2。用這樣的設(shè)備組建起來的網(wǎng)絡(luò)其管理和故障診斷功能是很不錯(cuò)的。但現(xiàn)實(shí)的問題是,這樣的網(wǎng)絡(luò)設(shè)備價(jià)格是普通網(wǎng)絡(luò)設(shè)備的6?10倍左右,用戶難以接受。因此,為了隨時(shí)監(jiān)測網(wǎng)絡(luò)的服務(wù)應(yīng)用流量及其比例、來源,工作記錄以及必要時(shí)進(jìn)行解包分析,建議用戶在重要的服務(wù)器通道或路由通道上安裝監(jiān)測接口。以便必要時(shí)可以隨時(shí)將流量分析儀、網(wǎng)絡(luò)測試儀接入通道進(jìn)行監(jiān)測和分析。這樣,本故障的查找時(shí)間可以縮短到20分鐘左右。當(dāng)然,如果資金允許,也可以將流量分析儀長期接入通道對(duì)多個(gè)重要的網(wǎng)絡(luò)設(shè)備進(jìn)行全速率透明流量監(jiān)測,這樣可以把故障定位時(shí)間縮短到1分鐘以內(nèi)。[后記]第三天,電話回訪“病人”,網(wǎng)絡(luò)表現(xiàn)一切正常。用戶自己已經(jīng)查明故障設(shè)備是原來的DNS服務(wù)器的主板。該主板工作不穩(wěn)定,我們推斷該服務(wù)器在應(yīng)用層的數(shù)據(jù)交換和計(jì)算時(shí)或與網(wǎng)卡交換數(shù)據(jù)時(shí)出現(xiàn)程序錯(cuò)誤。更換另一臺(tái)DNS服務(wù)器的主板后功能恢復(fù)正常。“病人”已將修復(fù)的DNS服務(wù)器設(shè)置為在線工作的備用DNS服務(wù)器,以提高網(wǎng)絡(luò)可靠性。[故事之九]網(wǎng)卡故障,用戶變“狂人”,網(wǎng)絡(luò)運(yùn)行速度變慢[癥狀]今天的病人是某大型尋呼公司,剛更新了高速尋呼設(shè)備,增加了信息服務(wù)的業(yè)務(wù)內(nèi)容,并對(duì)計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行了比較大的擴(kuò)容和調(diào)整。調(diào)試工程一直比較順利,但好景不長,剛正式開通工作一天就出現(xiàn)嚴(yán)重問題。技術(shù)中心嚴(yán)經(jīng)理報(bào)告的故障現(xiàn)象如下:最初是在工作臺(tái)上偶爾觀察到在鍵入尋呼的用戶數(shù)據(jù)時(shí)鍵盤更新出現(xiàn)等待現(xiàn)象,后來愈來愈嚴(yán)重,從剛開始的一秒鐘左右到現(xiàn)在的10秒鐘以上。網(wǎng)絡(luò)服務(wù)速度很快就變得非常緩慢,尋呼業(yè)務(wù)員在操作臺(tái)上鍵入數(shù)據(jù)時(shí),屏幕顯示有時(shí)甚至要等待1分鐘以上才會(huì)更新。基本上在10秒鐘和1分鐘之間波動(dòng)。在業(yè)務(wù)高峰時(shí)處理尋呼的速度趕不上要求,用戶排隊(duì)現(xiàn)象嚴(yán)重。設(shè)備管理人員查看過集線器、交換機(jī),發(fā)現(xiàn)他們的指示燈一直閃爍不停,好象比以前印象中的快了不少,懷疑網(wǎng)絡(luò)流量可能很高。用軟件查看主服務(wù)器的CPU資源利用率,達(dá)到93%。查看了5個(gè)工作臺(tái)上的計(jì)算機(jī)CPU,顯示資源利用率85%以上。時(shí)逢4月26日,懷疑是不是有病毒在做崇。用了三種殺毒軟件先后進(jìn)行掃毒,之后發(fā)現(xiàn)故障現(xiàn)象依舊。由于尋呼中心機(jī)房沒有配備網(wǎng)絡(luò)維護(hù)的硬件工具,工程承包商對(duì)此現(xiàn)象更是手足無措,故向網(wǎng)絡(luò)醫(yī)院掛急診求治。[診斷過程]30分鐘后我們來到現(xiàn)場。正如嚴(yán)經(jīng)理所言,從持續(xù)閃爍的指示燈上就可以觀察到網(wǎng)絡(luò)流量肯定很高。該網(wǎng)絡(luò)采用NT作平臺(tái),工作協(xié)議為IP,用網(wǎng)絡(luò)測試儀F683接入網(wǎng)絡(luò)的任意一個(gè)接口進(jìn)行測試,結(jié)果如下:網(wǎng)絡(luò)流量平均為57%?83%,偏高較多。碰撞率4.9%?5.3%,廣播42%?74%,錯(cuò)誤2%?3%。網(wǎng)絡(luò)的正常流量波動(dòng)為8.1%?0.7%。很明顯,網(wǎng)絡(luò)的非法數(shù)據(jù)幀占據(jù)了大量的網(wǎng)絡(luò)帶寬。主要的非法幀為高流量的廣播幀,其次是錯(cuò)誤幀。為了查明廣播幀和錯(cuò)誤幀的來源,我們先啟動(dòng)網(wǎng)絡(luò)測試儀的錯(cuò)誤查找統(tǒng)計(jì)測試功能,2秒鐘后顯示錯(cuò)誤類型為超長幀、幀不全、FCS錯(cuò)誤幀以及少量短幀。按下網(wǎng)絡(luò)測試儀的錯(cuò)誤統(tǒng)計(jì)“ErrorStatistic”軟鍵,查看上述各項(xiàng)錯(cuò)誤的來源,均顯示錯(cuò)誤來自為一臺(tái)取名為“Cindy”的主服務(wù)器;為查找超量廣播的來源,按下網(wǎng)絡(luò)測試儀的“TopSender”測試軟鍵,顯示廣播幀超量發(fā)送者同樣也是“Cindy”這臺(tái)服務(wù)器。另外,“Cindy,還發(fā)送約0.8%左右的正常IP幀。將“Cindy”從網(wǎng)上卸下,各單機(jī)故障立即消失。為了確認(rèn)是網(wǎng)卡本身的問題還是網(wǎng)卡驅(qū)動(dòng)程序的問題,將“Cindy”的網(wǎng)卡驅(qū)動(dòng)程序重新安裝了一遍,之后啟動(dòng)機(jī)器運(yùn)行,故障現(xiàn)象出現(xiàn)。說明網(wǎng)卡本身故障的可能性最大。更換網(wǎng)卡后網(wǎng)絡(luò)恢復(fù)正常。[診斷評(píng)點(diǎn)]網(wǎng)絡(luò)平均流量是決定網(wǎng)絡(luò)運(yùn)行速度的一個(gè)重要條件。在以太網(wǎng)中,瞬間流量可以超過90%,很適合突發(fā)流量的傳輸。當(dāng)網(wǎng)絡(luò)的平均流量在40%以下時(shí),網(wǎng)絡(luò)運(yùn)行速度一般不會(huì)主觀感覺變慢。本故障中,服務(wù)器“Cindy”由于網(wǎng)卡故障,除了發(fā)送一些正常IP包外(約0.8%),還發(fā)送約2%?3%的錯(cuò)誤幀和主要影響網(wǎng)絡(luò)帶寬的超量廣播幀(42%?74%,造成用戶鍵盤更新在10秒?1分鐘之間波動(dòng)),這里對(duì)網(wǎng)絡(luò)影響最大的是超量廣播幀。廣播幀是網(wǎng)絡(luò)設(shè)備定期不定期進(jìn)行網(wǎng)絡(luò)聯(lián)絡(luò)的一種手段,但過量的廣播會(huì)占用不必要的帶寬。一般來講,網(wǎng)卡損壞以后,有多種表現(xiàn)類型,常見的一種表現(xiàn)是“安靜型”,此時(shí)網(wǎng)卡不向網(wǎng)絡(luò)發(fā)送任何數(shù)據(jù),機(jī)器無法上網(wǎng)。另一種常見的類型是“狂躁型”,其表現(xiàn)頗象一個(gè)喝醉酒鬧事的醉漢,嘴里喋喋不休。該網(wǎng)卡除了發(fā)送正常數(shù)據(jù)以外,還發(fā)送大量非法幀、錯(cuò)誤幀。本故障發(fā)送的是大量的廣播幀。廣播幀可以穿過網(wǎng)段中的橋和交換機(jī),所以整個(gè)網(wǎng)段上的設(shè)備通道都會(huì)被廣播幀占用帶寬,即便是不向網(wǎng)絡(luò)發(fā)送或接收數(shù)據(jù)的站點(diǎn)也會(huì)因?yàn)榻邮沾罅康膹V播幀而導(dǎo)致站點(diǎn)的網(wǎng)卡向宿主機(jī)的CPU頻繁地申請(qǐng)中斷,CPU資源利用率達(dá)到了85%。這樣,網(wǎng)絡(luò)上的站點(diǎn)處理本機(jī)應(yīng)用程序的速度會(huì)受較大影響。有趣的是,很多用戶也是在把機(jī)器從網(wǎng)絡(luò)上退出時(shí)才發(fā)現(xiàn)站點(diǎn)的故障與網(wǎng)絡(luò)有關(guān)。而之前卻一直以為是工作站的問題,且最容易被誤判為病毒發(fā)作。許多網(wǎng)管和網(wǎng)絡(luò)維護(hù)人員通常的做法和遭遇都會(huì)象下面所描述的“故事”:首先,啟用多種殺毒軟件進(jìn)行查殺毒操作,無效。然后,把所有工作站格式化,重新安裝其操作系統(tǒng)和應(yīng)用軟件。但由于問題出在服務(wù)器,所以仍然不見效。最后,不得不將所有機(jī)器(當(dāng)然也包括服務(wù)器)格式化以后重新安裝系統(tǒng)平臺(tái)及應(yīng)用軟件。如果是服務(wù)器網(wǎng)卡驅(qū)動(dòng)程序安裝錯(cuò)誤(比如安裝的驅(qū)動(dòng)程序版本不符合,雖然能工作但不順暢),則故事可能因重新安裝了正確的驅(qū)動(dòng)程序而到此結(jié)束。如果是網(wǎng)卡“狂躁型”故障,則故事還會(huì)延續(xù)很長時(shí)間。因?yàn)椤翱裨晷汀辈∪瞬焕頃?huì)網(wǎng)絡(luò)的游戲規(guī)則而向網(wǎng)絡(luò)發(fā)送大量非法幀流量,占用帶寬,影響所有網(wǎng)絡(luò)成員。不幸的是,狂躁型病人在網(wǎng)絡(luò)故障統(tǒng)計(jì)中所占的比例不是很低![診斷建議]“網(wǎng)絡(luò)健康測試”和“網(wǎng)絡(luò)基準(zhǔn)測試”都是為了實(shí)時(shí)和長時(shí)間監(jiān)測網(wǎng)絡(luò)流量的變化規(guī)律,幫助維護(hù)人員掌握網(wǎng)絡(luò)應(yīng)用和流量變化的規(guī)律,即時(shí)發(fā)現(xiàn)和處理網(wǎng)絡(luò)故障。“網(wǎng)絡(luò)維護(hù)方案”中建議健康測試是每日必須測試的內(nèi)容,要求實(shí)時(shí)監(jiān)測網(wǎng)絡(luò)的流量/利用率、碰撞、廣播、錯(cuò)誤等基本健康參數(shù),也可以簡化監(jiān)測程序,選擇在每天網(wǎng)絡(luò)最繁忙的一段時(shí)間進(jìn)行測試。這樣網(wǎng)絡(luò)的異常可以被立即發(fā)現(xiàn)(因?yàn)樵S多網(wǎng)絡(luò)故障在網(wǎng)絡(luò)流量低、比較清閑時(shí)并不表現(xiàn)或明顯地表現(xiàn)出來)。當(dāng)然,比較穩(wěn)妥的方法是對(duì)網(wǎng)絡(luò)進(jìn)行認(rèn)證測試。除了布線系統(tǒng)外還對(duì)工作的網(wǎng)絡(luò)進(jìn)行認(rèn)證測試。以便在網(wǎng)絡(luò)投入正常運(yùn)行前就發(fā)現(xiàn)并根除網(wǎng)絡(luò)存在的故障和潛在的性能問題,最大程度地優(yōu)化網(wǎng)絡(luò)的性能。[后記]第二天,我們應(yīng)邀對(duì)該尋呼網(wǎng)作了一次簡化程序的網(wǎng)絡(luò)認(rèn)證測試,其中流量沖擊測試服務(wù)器耐受度為100%,如果不是上述故障,該網(wǎng)絡(luò)性能總評(píng)應(yīng)當(dāng)是比較優(yōu)秀的。[故事之十]PC機(jī)網(wǎng)卡故障,攻擊服務(wù)器,速度下降[癥狀]今天是五一節(jié)假期的最后一天,某大型鐵路樞紐站來電,報(bào)告其售票系統(tǒng)出現(xiàn)很大問題,最先是樞紐所在局本地的售票系統(tǒng)報(bào)告售票速度比平時(shí)慢幾倍,車站售票廳前已經(jīng)排起了長隊(duì),乘客意見很大。其它市內(nèi)預(yù)售處也受到影響,出票速度也很慢。隨后,是各聯(lián)網(wǎng)局均有報(bào)告網(wǎng)絡(luò)的票務(wù)查詢速度慢,鄰近局報(bào)告更頻繁一些。維護(hù)人員認(rèn)為是中心票務(wù)服務(wù)器有問題,隨即決定系統(tǒng)暫停業(yè)務(wù)并將備份服務(wù)器很快啟動(dòng)投入系統(tǒng)運(yùn)行,非但未能見效,反而速度更加緩慢。急招該系統(tǒng)的工程集成商立刻處理系統(tǒng)問題,觀察中心票務(wù)服務(wù)器CPU資源利用率達(dá)到了97%,基本上是滿負(fù)荷運(yùn)行,其它服務(wù)器和工作站等網(wǎng)上設(shè)備均為發(fā)現(xiàn)問題。短時(shí)間斷開預(yù)售點(diǎn)和其它路局的連接路由,故障現(xiàn)象依舊。系統(tǒng)集成商隨即將票務(wù)中心機(jī)房內(nèi)的其它網(wǎng)絡(luò)設(shè)備如交換機(jī)、集線器、網(wǎng)關(guān)等全部更換,啟動(dòng)系統(tǒng)故障依舊。故障累計(jì)已經(jīng)近7小時(shí),路局承受的壓力越來越大,已經(jīng)開始準(zhǔn)備緊急啟動(dòng)本地人工售票預(yù)案。[診斷過程]網(wǎng)絡(luò)醫(yī)院接報(bào)后立即趕往票務(wù)中心計(jì)算機(jī)網(wǎng)絡(luò)的機(jī)房,網(wǎng)管人員告知在節(jié)日期間已經(jīng)出現(xiàn)過類似的現(xiàn)象,只是持續(xù)的時(shí)間不很長(有時(shí)會(huì)持續(xù)2小時(shí)左右),速度雖有變慢,但基本上不影響出票速度。經(jīng)過與網(wǎng)關(guān)人員和系統(tǒng)集成商的工程技術(shù)人員簡單交流后,分析故障原因可能有五,一是票務(wù)結(jié)算軟件問題;二是病毒或內(nèi)部人員尤其是網(wǎng)絡(luò)管理人員誤操作或更改設(shè)置,比如刪除不應(yīng)該刪除的文件,私自在系統(tǒng)上運(yùn)行了沖突軟件或破壞性軟件;三是系統(tǒng)平臺(tái)故障,比如NT平臺(tái)受到干擾后出現(xiàn)硬損傷(指不能恢復(fù)的改變,必須重新安裝系統(tǒng)才能正常運(yùn)行);四是網(wǎng)絡(luò)設(shè)備問題,五是其它網(wǎng)絡(luò)問題。由于已經(jīng)更換過票務(wù)服務(wù)器和交換機(jī)等網(wǎng)絡(luò)設(shè)備,所以先暫不考慮第一、四種可能性;為了節(jié)省故障診斷時(shí)間,暫不考慮第二、三種可能性(如對(duì)系統(tǒng)進(jìn)行一次詳細(xì)檢查和協(xié)議測試或重新安裝一次NT平臺(tái)并做好相應(yīng)的設(shè)置、數(shù)據(jù)恢復(fù)等需要較長時(shí)間),而首先就第五種可能性對(duì)網(wǎng)絡(luò)進(jìn)行測試。查看其它服務(wù)器CPU資源利用率,都在25%以下。查看網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖,將網(wǎng)絡(luò)測試儀F683隨即接入網(wǎng)絡(luò)中的一臺(tái)工作組交換機(jī),觀察整個(gè)網(wǎng)絡(luò)的工作情況。先查看網(wǎng)絡(luò)設(shè)備的工作情況,顯示交換機(jī)、路由器等本身均正常。核心交換機(jī)與票務(wù)服務(wù)器的連接端口為第二插曹第7端口,設(shè)置為100Mbps,流量實(shí)測為84%,偏高。查看整個(gè)網(wǎng)段的MAC對(duì)話矩陣,也顯示票務(wù)服務(wù)器的訪問流量很高,進(jìn)一步查看IP對(duì)話矩陣,與MAC矩陣基本一致,比其它對(duì)話矩陣中的成員高出500倍以上。追查訪問的數(shù)據(jù)來源,發(fā)現(xiàn)一臺(tái)內(nèi)部賬務(wù)處理PC機(jī)與票務(wù)服務(wù)器之間的對(duì)話流量很高。從MAC矩陣上觀察其流量很高,從IP矩陣上觀察流量稍低于MAC流量。為了提高處理速度,票務(wù)服務(wù)器按設(shè)計(jì)是直接與核心交換機(jī)相連的,而賬務(wù)處理用的PC機(jī)通過桌面交換機(jī)一工作組交換機(jī)一核心交換機(jī)后與票務(wù)服務(wù)器相連。詢問票務(wù)處理PC機(jī)的操作人員,答曰節(jié)前該機(jī)工作就不正常,速度慢。曾向網(wǎng)絡(luò)維護(hù)人員報(bào)告過故障,但因鄰近節(jié)日,維護(hù)工作量大,維護(hù)人員計(jì)劃待節(jié)日以后再處理賬務(wù)PC機(jī)的問題。將賬務(wù)PC關(guān)機(jī),系統(tǒng)故障立即消失,整個(gè)系統(tǒng)恢復(fù)正常,一片歡呼。為了確認(rèn)該P(yáng)C機(jī)具體的故障位置,將其移動(dòng)到局辦公網(wǎng)上接入網(wǎng)絡(luò),重新設(shè)置后工作正常!!為了慎重起見,網(wǎng)管人員還是決定啟用一臺(tái)新機(jī)器代替賬務(wù)PC接入網(wǎng)絡(luò),同時(shí)觀察網(wǎng)絡(luò)的工作狀態(tài)。發(fā)現(xiàn)網(wǎng)絡(luò)完全恢復(fù)正常,故障排除。用網(wǎng)絡(luò)測試儀測試辦公網(wǎng),流量為2%,很低,無錯(cuò)誤數(shù)據(jù)包。將集線器串入賬務(wù)PC與交換機(jī)的連接通道,用網(wǎng)絡(luò)測試儀和協(xié)議分析儀接入觀察。從F683網(wǎng)絡(luò)測試儀上觀察,顯示網(wǎng)絡(luò)流量為79%!!錯(cuò)誤37%(其中90%為長幀,其余為短幀),網(wǎng)絡(luò)測試儀指示流量來源于賬務(wù)PC,數(shù)據(jù)包中有約36%左右指向了一個(gè)未知的IP地址,其它數(shù)據(jù)包雖然指向該地址但來源地址比較混亂且無規(guī)律可循,協(xié)議分析儀上解析的地址經(jīng)網(wǎng)管人員確認(rèn)后證實(shí)36%的指向地址是票務(wù)服務(wù)器的IP地址,其它來源地址也是原票務(wù)網(wǎng)中地址范圍內(nèi)的地址。如果該P(yáng)C機(jī)攜帶能模仿IP地址的病毒程序,則原系統(tǒng)有可能還會(huì)發(fā)生類似故障,所以我們先將賬務(wù)工作站PC的網(wǎng)卡更換,更換后該機(jī)表現(xiàn)正常(說明病毒在搗亂的可能性很小),不再發(fā)送非法幀。將故障網(wǎng)卡重新安裝驅(qū)動(dòng)程序,故障現(xiàn)象依舊,集線器上測試的錯(cuò)誤仍是長幀和短幀,再次表明網(wǎng)卡本身故障的可能性最大,病毒感染的可能性很小。[診斷評(píng)點(diǎn)]現(xiàn)在可以讓我們來事后模擬敘述一下整個(gè)網(wǎng)絡(luò)故障的進(jìn)程。以便讀者了解故障的進(jìn)程和原因。票務(wù)網(wǎng)絡(luò)中的一臺(tái)不起眼的工作站的網(wǎng)卡發(fā)生了故障。最初的故障發(fā)生于節(jié)日前,故障現(xiàn)象是發(fā)送錯(cuò)誤幀。由于工作站與桌面交換機(jī)相連,而該桌面交換機(jī)是存儲(chǔ)轉(zhuǎn)發(fā)型性交換機(jī),所以發(fā)送的錯(cuò)誤幀被交換機(jī)過濾掉了。所以這些錯(cuò)誤幀只能對(duì)本工作站造成影響,對(duì)網(wǎng)絡(luò)不構(gòu)成威脅。隨著網(wǎng)卡的進(jìn)一步物理性損壞,網(wǎng)卡變得不能清除發(fā)送過的IP地址,并將目標(biāo)地址“定格”在訪問聯(lián)系最多的票務(wù)服務(wù)器,開始發(fā)送不受限制的數(shù)據(jù)包。這些數(shù)據(jù)包不斷請(qǐng)求票務(wù)服務(wù)器處理重復(fù)查詢計(jì)算同一張票的出票業(yè)務(wù)。由于其不受發(fā)送速度的限制(即該網(wǎng)卡不管網(wǎng)絡(luò)流量是否超高,都會(huì)不加理會(huì)地向網(wǎng)絡(luò)發(fā)送流量),網(wǎng)絡(luò)中的交換機(jī)隨即將大量的垃圾包送往票務(wù)服務(wù)器,占用大量網(wǎng)絡(luò)帶寬資源,同時(shí)迫使票務(wù)服務(wù)器消耗大量資源處理這些垃圾包,使得其它正常的網(wǎng)絡(luò)訪問受阻。還由于這些數(shù)據(jù)包的可操作性很差,服務(wù)器會(huì)進(jìn)一步耗用額外的資源來處理這些數(shù)據(jù)。在上一篇故事中我們?cè)岬竭^,網(wǎng)卡故障后有兩類基本的表現(xiàn),一類是安靜型,即不再進(jìn)行正常的網(wǎng)絡(luò)通信并且不再向網(wǎng)絡(luò)發(fā)送任何數(shù)據(jù),這是比較友好的“醉漢”。對(duì)網(wǎng)絡(luò)基本上沒有破壞性。另一類是“狂躁型”,發(fā)生故障后向網(wǎng)絡(luò)發(fā)送不受限制的數(shù)據(jù)包。這些數(shù)據(jù)包可能是正常格式的,也可能是非正常格式的(即錯(cuò)誤數(shù)據(jù)包)。兩種格式的數(shù)據(jù)包都可能對(duì)網(wǎng)絡(luò)性能造成嚴(yán)重影響甚至破壞。錯(cuò)誤格式的數(shù)據(jù)包一般不能通過存儲(chǔ)轉(zhuǎn)發(fā)型的交換機(jī),所以本故障的網(wǎng)絡(luò)監(jiān)測看不到錯(cuò)誤數(shù)據(jù)包,只能看到正常格式的故障數(shù)據(jù)包。當(dāng)接入集線器后才可以觀察到錯(cuò)誤數(shù)據(jù)包。[診斷建議]該網(wǎng)絡(luò)由于系統(tǒng)成員數(shù)量少,在建網(wǎng)規(guī)劃時(shí)沒有配備網(wǎng)管系統(tǒng)和測試工具。所以故障早期沒有任何超流量報(bào)警信號(hào)提示,這對(duì)于網(wǎng)絡(luò)故障的迅速定位和排除是不利的。現(xiàn)存的許多網(wǎng)絡(luò)在維護(hù)工作中都基本上采取事后維護(hù)的方法,即出了問題才去查找和處理,這對(duì)于可靠性要求高的網(wǎng)絡(luò)是非常危險(xiǎn)的。因?yàn)槲覀儾荒軆e幸地“期盼”不管是網(wǎng)絡(luò)設(shè)備,還是網(wǎng)上設(shè)備,他們出了問題以后都表現(xiàn)為“安靜型”。只有堅(jiān)持定期地對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)測才是避免重大網(wǎng)絡(luò)事故的有力措施。其實(shí)在本例中,如果每日?qǐng)?jiān)持用3分鐘時(shí)間監(jiān)測一下網(wǎng)絡(luò),就完全可以在故障的早期排除之,避免后期重大事故的發(fā)生。[后記]我們擔(dān)心的“病毒”至今沒有出現(xiàn)。[故事之十一]多協(xié)議使用,設(shè)置不良,服務(wù)器超流量工作[癥狀]今天的故事發(fā)生在某機(jī)電進(jìn)出口公司,網(wǎng)絡(luò)部主任林先生來電告知他們的網(wǎng)絡(luò)昨天剛剛進(jìn)行了升級(jí),從10M以太網(wǎng)桌面應(yīng)用全部升級(jí)為100M以太網(wǎng)交換到桌面,結(jié)果出現(xiàn)局域網(wǎng)內(nèi)網(wǎng)絡(luò)訪問速度反而比升級(jí)前慢的現(xiàn)象。有的訪問很長時(shí)間沒有結(jié)果,有的則出錯(cuò)。他手里有幾款偵測網(wǎng)絡(luò)流量的軟件,啟動(dòng)運(yùn)行后也沒有發(fā)現(xiàn)任何問題。對(duì)服務(wù)器的Ping測試平均小于1ms,應(yīng)該不會(huì)慢,但不知何故會(huì)如此表現(xiàn)。[診斷過程]這個(gè)故障看起來比較簡單,實(shí)際診斷卻頗費(fèi)周折。該網(wǎng)絡(luò)由4個(gè)路由器經(jīng)幀中繼線路與國內(nèi)總部和國際分部鏈接,占據(jù)4層樓面,由2臺(tái)千兆核心交換機(jī)和二級(jí)5臺(tái)工作組交換機(jī)(每層一臺(tái))以及20臺(tái)桌面交換機(jī)(每層4臺(tái))組成,100M交換到桌面,結(jié)構(gòu)比較典型。從故障現(xiàn)象看,網(wǎng)絡(luò)聯(lián)通性尚可,但速度受影響。一般來說,速度慢的原因有很多,比如網(wǎng)上設(shè)備速度跟不上要求,網(wǎng)絡(luò)設(shè)備出現(xiàn)阻塞或瓶頸效應(yīng),電纜光纜系統(tǒng)問題使得網(wǎng)絡(luò)數(shù)據(jù)出錯(cuò)或產(chǎn)生高額碰撞,網(wǎng)絡(luò)協(xié)議設(shè)置錯(cuò)誤造成無效的重復(fù)訪問,應(yīng)用軟件或協(xié)議設(shè)置錯(cuò)誤訪問受阻等等。由于剛更新了網(wǎng)絡(luò),原來的電纜系統(tǒng)又沒有經(jīng)過認(rèn)證測試,根據(jù)以往的經(jīng)驗(yàn),電纜系統(tǒng)存在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 水庫進(jìn)口段施工方案模板
- 礦產(chǎn)資源開發(fā)與區(qū)域經(jīng)濟(jì)發(fā)展-石墨滑石考核試卷
- 木結(jié)構(gòu)防火施工方案
- 糧食批發(fā)商市場規(guī)范化管理與監(jiān)管策略研究考核試卷
- 解答證券從業(yè)資格證考試疑難試題及答案
- 2023年中國鐵路上海局集團(tuán)有限公司招聘高等職業(yè)院校畢業(yè)生3163人(二)筆試參考題庫附帶答案詳解
- 2024項(xiàng)目管理考試復(fù)習(xí)要點(diǎn)試題及答案
- 硫酸銅在金屬腐蝕中的應(yīng)用考核試卷
- 2023年中國能建陜西院智能配網(wǎng)公司招聘變電電氣設(shè)計(jì)崗位工作人員筆試參考題庫附帶答案詳解
- 2023年中國聯(lián)合網(wǎng)絡(luò)通信有限公司會(huì)昌分公司公開招聘工作人員筆試參考題庫附帶答案詳解
- 沂蒙紅色文化與沂蒙精神智慧樹知到期末考試答案章節(jié)答案2024年臨沂大學(xué)
- 酸棗仁湯的臨床應(yīng)用研究
- 河北省廊坊市安次區(qū)2023-2024學(xué)年八年級(jí)下學(xué)期4月期中物理試題
- 服裝供貨服務(wù)方案
- 2015年高考真題新課標(biāo)-英語II卷真題及答案
- 小學(xué)實(shí)踐活動(dòng)教學(xué)設(shè)計(jì)案例
- 主動(dòng)邀請(qǐng)患者參與醫(yī)療安全
- 2024年醫(yī)院重癥專科護(hù)士培訓(xùn)考試題庫(含答案)
- 2024年天津市武清區(qū)國有資產(chǎn)經(jīng)營投資有限公司招聘筆試參考題庫附帶答案詳解
- 《動(dòng)物生理學(xué)》課程教學(xué)大綱
- 社會(huì)穩(wěn)定風(fēng)險(xiǎn)評(píng)估 投標(biāo)方案(技術(shù)方案)
評(píng)論
0/150
提交評(píng)論