編者按:隨著我省無線電管理廣域網(wǎng)建設(shè)的逐步推進和深入,網(wǎng)絡(luò)中會出現(xiàn)各種各樣的故障。為了使網(wǎng)絡(luò)管理人員能夠更好的識別和了解常見的網(wǎng)絡(luò)故障,并能較快的加以排查和解決,我們收集了有關(guān)資料,并結(jié)合實際管理中的一些經(jīng)驗和體會,撰寫此文僅供大家參閱。
在現(xiàn)行的網(wǎng)絡(luò)管理體制中,由于網(wǎng)絡(luò)故障的多樣性和復(fù)雜性,網(wǎng)絡(luò)故障分類方法也不盡相同。根據(jù)網(wǎng)絡(luò)故障的性質(zhì)可以分為物理故障與邏輯故障,也可以根據(jù)網(wǎng)絡(luò)故障的對象分為線路故障、路由器故障和主機故障。
一、按網(wǎng)絡(luò)故障的性質(zhì)劃分
1.物理故障
物理故障,是指設(shè)備或線路損壞、插頭松動、線路受到嚴重電磁干擾等情況。比如說,網(wǎng)絡(luò)中某條線路突然中斷,如已安裝網(wǎng)絡(luò)監(jiān)控軟件就能夠從監(jiān)控界面上發(fā)現(xiàn)該線路流量突然掉下來或系統(tǒng)彈出報警界面,更直接的反映就是處于該線路端口上的無線電管理信息系統(tǒng)無法使用。
解決方法:首先用DOS命令集中的ping命令檢查線路與網(wǎng)絡(luò)管理中心服務(wù)器端口是否連通,如果不連通,則檢查端口插頭是否松動,如果松動則插緊,再用ping命令檢查,如果已連通則故障解決。也有可能是線路遠離網(wǎng)絡(luò)管理中心的那端插頭松動,則需要檢查終端設(shè)備的連接狀況。如果插口沒有問題,則可利用網(wǎng)線測試設(shè)備進行通路測試,發(fā)現(xiàn)問題應(yīng)重新更換一條網(wǎng)線。
另一種常見的物理故障就是網(wǎng)絡(luò)插頭誤接。這種情況經(jīng)常是沒有搞清網(wǎng)絡(luò)插頭規(guī)范或沒有弄清網(wǎng)絡(luò)拓撲結(jié)構(gòu)的情況下導(dǎo)致的。
解決方法:熟悉掌握網(wǎng)絡(luò)插頭規(guī)范,如T568A和T568B,搞清網(wǎng)線中每根線的顏色和意義,做出符合規(guī)范的插頭。
還有一種情況,比如兩個路由器直接連接,這時應(yīng)該讓一臺路由器的出口連接另一路由器的入口,而這臺路由器的入口連接另一路由器的出口才行,這時制作的網(wǎng)線就應(yīng)該滿足這一特性,否則也會導(dǎo)致網(wǎng)絡(luò)誤解。不過像這種網(wǎng)絡(luò)連接故障顯得很隱蔽,要診斷這種故障沒有什么特別好的工具,只有依靠網(wǎng)絡(luò)管理的經(jīng)驗進行解決。
2. 邏輯故障
邏輯故障中的一種常見情況就是配置錯誤,就是指因為網(wǎng)絡(luò)設(shè)備的配置原因而導(dǎo)致的網(wǎng)絡(luò)異常或故障。配置錯誤可能是路由器端口參數(shù)設(shè)定有誤,或路由器路由配置錯誤以致于路由循環(huán)或找不到遠端地址,或者是網(wǎng)絡(luò)掩碼設(shè)置錯誤等。比如,同樣是網(wǎng)絡(luò)中某條線路故障,發(fā)現(xiàn)該線路沒有流量,但又可以Ping通線路兩端的端口,這時很可能就是路由配置錯誤導(dǎo)致循環(huán)了。
解決方法:診斷該故障可以用traceroute工具,可以發(fā)現(xiàn)在traceroute的結(jié)果中某一段之后,兩個IP地址循環(huán)出現(xiàn)。這時,一般就是線路遠端把端口路由又指向了線路的近端,導(dǎo)致IP包在該線路上來回反復(fù)傳遞。這時需要更改遠端路由器端口配置,把路由設(shè)置為正確配置,就能恢復(fù)線路了。當(dāng)然處理該故障的所有動作都要記錄在日志中,防止再次出現(xiàn)。
邏輯故障中另一類故障就是一些重要進程或端口關(guān)閉,以及系統(tǒng)的負載過高。比如,路由器的SNMP進程意外關(guān)閉或死掉,這時網(wǎng)絡(luò)管理系統(tǒng)將不能從路由器中采集到任何數(shù)據(jù),因此網(wǎng)絡(luò)管理系統(tǒng)失去了對該路由器的控制。還有,也是線路中斷,沒有流量,這時用ping發(fā)現(xiàn)線路近端的端口ping不通。
解決方法:檢查發(fā)現(xiàn)該端口處于down的狀態(tài),就是說該端口已經(jīng)給關(guān)閉了,因此導(dǎo)致故障。這時只需重新啟動該端口,就可以恢復(fù)線路的連通了。
此外,還有一種常見情況是路由器的負載過高,表現(xiàn)為路由器CPU溫度太高、CPU利用率太高,以及內(nèi)存余量太小等,雖然這種故障不能直接影響網(wǎng)絡(luò)的連通,但卻影響到網(wǎng)絡(luò)提供服務(wù)的質(zhì)量,而且也容易導(dǎo)致硬件設(shè)備的損害。
二、按網(wǎng)絡(luò)故障的對象劃分
1.線路故障
線路故障最常見的情況就是線路不通,診斷這種故障可用ping檢查線路遠端的路由器端口是否還能響應(yīng),或檢測該線路上的流量是否還存在。一旦發(fā)現(xiàn)遠端路由器端口不通,或該線路沒有流量,則該線路可能出現(xiàn)了故障。這時有幾種處理方法。首先是ping線路兩端路由器端口,檢查兩端的端口是否關(guān)閉了。如果其中一端端口沒有響應(yīng)則可能是路由器端口故障。如果是近端端口關(guān)閉,則可檢查端口插頭是否松動,路由器端口是否處于down的狀態(tài);如果是遠端端口關(guān)閉,則要通知線路對方進行檢查。進行這些故障處理之后,線路往往就通暢了。如果線路仍然不通,一種可能就得線路本身的問題,看是否線路中間被切斷;另一種可能就是路由器配置出錯,比如路由循環(huán)了。就是遠端端口路由又指向了線路的近端,這樣線路遠端連接的網(wǎng)絡(luò)用戶就不通了,這種故障可以用traceroute來診斷。解決路由循環(huán)的方法就是重新配置路由器端口的靜態(tài)路由或動態(tài)路由。
2.路由器故障
事實上,線路故障中很多情況都涉及到路由器,因此也可以把一些線路故障歸結(jié)為路由器故障。但線路涉及到兩端的路由器,因此在考慮線路故障是要涉及到多個路由器。有些路由器故障僅僅涉及到它本身,這些故障比較典型的就是路由器CPU溫度過高、CPU利用率過高和路由器內(nèi)存余量太小。其中最危險的是路由器CPU溫度過高,因為這可能導(dǎo)致路由器燒毀。而路由器CPU利用率過高和路由器內(nèi)存余量太小都將直接影響到網(wǎng)絡(luò)服務(wù)的質(zhì)量,比如路由器上丟包率就會隨內(nèi)存余量的下降而上升。檢測這種類型的故障,需要利用MIB變量瀏覽器這種工具,從路由器MIB變量中讀出有關(guān)的數(shù)據(jù),通常情況下網(wǎng)絡(luò)管理系統(tǒng)有專門的管理進程不斷地檢測路由器的關(guān)鍵數(shù)據(jù),并及時給出報警。而解決這種故障,只有對路由器進行升級、擴內(nèi)存等,或者重新規(guī)劃網(wǎng)絡(luò)的拓撲結(jié)構(gòu)。
另一種路由器故障就是自身的配置錯誤。比如配置的協(xié)議類型不對,配置的端口不對等。這種故障比較少見,在使用初期配置好路由器基本上就不會出現(xiàn)了。
3.主機故障
主機故障常見的現(xiàn)象就是主機的配置不當(dāng)。比如,主機配置的IP地址與其他主機沖突,或IP地址根本就不在子網(wǎng)范圍內(nèi),這將導(dǎo)致該主機不能連通。如泰州無線電管理處的網(wǎng)段范圍是172.17.14.1—172.17.14.253,所以主機地址只有設(shè)置在此段區(qū)間內(nèi)才有效。還有一些服務(wù)設(shè)置的故障。比如E-Mail服務(wù)器設(shè)置不當(dāng)導(dǎo)致不能收發(fā)E-Mail,或者域名服務(wù)器設(shè)置不當(dāng)將導(dǎo)致不能解析域名。主機故障的另一種可能是主機安全故障。比如,主機沒有控制其上的finger,rpc,rlogin等多余服務(wù)。而惡意攻擊者可以通過這些多余進程的正常服務(wù)或bug攻擊該主機,甚至得到該主機的超級用戶權(quán)限等。
另外,還有一些主機的其他故障,比如不當(dāng)共享本機硬盤等,將導(dǎo)致惡意攻擊者非法利用該主機的資源。發(fā)現(xiàn)主機故障是一件困難的事情,特別是別人惡意的攻擊。一般可以通過監(jiān)視主機的流量、或掃描主機端口和服務(wù)來防止可能的漏洞。當(dāng)發(fā)現(xiàn)主機受到攻擊之后,應(yīng)立即分析可能的漏洞,并加以預(yù)防,同時通知網(wǎng)絡(luò)管理人員注意?,F(xiàn)在,各市都安裝了防火墻,如果防火墻地址權(quán)限設(shè)置不當(dāng),也會造成網(wǎng)絡(luò)的連接故障,只要在設(shè)置使用防火墻時加以注意,這種故障就能解決。