在網(wǎng)絡(luò)中,嚴(yán)重的故障狀態(tài)可以通過(guò)告警機(jī)制來(lái)檢測(cè),但是在多個(gè)設(shè)備單元之間的非常低速率或者間歇性錯(cuò)誤狀態(tài),會(huì)導(dǎo)致業(yè)務(wù)質(zhì)量降低,卻是無(wú)法通過(guò)告警機(jī)制來(lái)檢測(cè)到,這種情況下,就需要性能監(jiān)控了。性能監(jiān)控一般使用連續(xù)性的收集與網(wǎng)元性能相關(guān)的數(shù)據(jù),一般情況下,設(shè)備提供原始的統(tǒng)計(jì)數(shù)據(jù),網(wǎng)管或者專門的性能管理服務(wù)器進(jìn)行處理,生成各種報(bào)表,進(jìn)行相關(guān)性分析,趨勢(shì)分析等等,最終以報(bào)告、圖表或者其他形式呈現(xiàn)給客戶。
性能監(jiān)控和責(zé)任定界
電信網(wǎng)絡(luò)由于所有權(quán)歸屬,維護(hù)體制,維護(hù)團(tuán)隊(duì)上的不同,存在不同的維護(hù)域,不同的維護(hù)域之間互相不感知,或者不必要感知。不同維護(hù)域之間存在邊界的,邊界和邊界之間的界限就需要有清晰的分界,以便于維護(hù)。以LTE移動(dòng)承載為例,說(shuō)明維護(hù)域的不同。
移動(dòng)網(wǎng)絡(luò)維護(hù)域示意圖
如圖1所示,在一個(gè)端到端的LTE移動(dòng)網(wǎng)絡(luò)中,可能存在多個(gè)維護(hù)域。無(wú)線維護(hù)域,無(wú)線維護(hù)人員僅負(fù)責(zé)基站、S-GW/MME等的維護(hù),對(duì)中間的回傳網(wǎng)絡(luò)不可見(jiàn),不感知;移動(dòng)回傳維護(hù)人員負(fù)責(zé)從基站側(cè)CSG(基站側(cè)網(wǎng)關(guān)Cell Site Gateway)經(jīng)過(guò)ASG(匯聚網(wǎng)關(guān)Aggregation Site Gateway)再到到RSG(RNC側(cè)網(wǎng)關(guān)RNC Site Gateway)之間的網(wǎng)絡(luò)的維護(hù)和管理,對(duì)無(wú)線網(wǎng)絡(luò)不感知,不可見(jiàn)。有故障時(shí),不同維護(hù)團(tuán)隊(duì)需要快速的分清責(zé)任,快速進(jìn)行故障定位和排障,對(duì)鏈路可管、可控、可視。為達(dá)到這個(gè)目的,CSG在移動(dòng)回傳網(wǎng)絡(luò)提供如下一些功能,端到端監(jiān)控鏈路的性能:
和RSG組成端到端網(wǎng)絡(luò),對(duì)這些電路連接的提供性能監(jiān)控,提供可視的鏈路狀態(tài)報(bào)告,加速故障定位和排障;
和RSG組成端到端網(wǎng)絡(luò),對(duì)這些電路連接的連續(xù)性進(jìn)行檢測(cè),實(shí)時(shí)的感知網(wǎng)絡(luò)中斷與否,并在中斷時(shí)及時(shí)倒換到備用鏈路上去。
回傳網(wǎng)絡(luò)的一個(gè)重要的作用,就是將所承載的電路連接變成可見(jiàn)、可感知、可控、可預(yù)知,出現(xiàn)故障時(shí),通過(guò)承載網(wǎng)豐富和強(qiáng)大的OAM能力、性能監(jiān)控能力,加快故障定位和排障,盡量減少業(yè)務(wù)中斷時(shí)間。
華為L(zhǎng)TE承載網(wǎng)性能監(jiān)控解決方案
LTE承載網(wǎng)因?yàn)閄2接口的引入變得十分復(fù)雜,在排障、責(zé)任定界和快速故障定位方面提出了新的挑戰(zhàn),對(duì)網(wǎng)絡(luò)可管、可控、可視能力要求更高。因此,對(duì)每一段、每一個(gè)網(wǎng)絡(luò)層次的性能監(jiān)控、OAM管理、故障定位、責(zé)任定界就非常重要。
ITU-T和IETF分別定義了多種分組網(wǎng)絡(luò)的性能監(jiān)控的標(biāo)準(zhǔn),從測(cè)量方式上可以劃分為間接測(cè)量和直接測(cè)量?jī)煞N方式。
間接測(cè)量是通過(guò)插入測(cè)試流,測(cè)量測(cè)試流的丟包率和延時(shí),用測(cè)試流的性能表現(xiàn)來(lái)表征實(shí)際業(yè)務(wù)流的性能等。間接測(cè)量有如下缺點(diǎn):
插入測(cè)試流會(huì)影響業(yè)務(wù)質(zhì)量,尤其是在擁塞時(shí);
測(cè)試流的表現(xiàn)不能完全代表真正業(yè)務(wù)流的表現(xiàn),業(yè)務(wù)流的優(yōu)先級(jí)、報(bào)文長(zhǎng)度、QoS調(diào)度過(guò)程等都會(huì)影響測(cè)試結(jié)果,從而能引入較大誤差;
間接測(cè)量一般都是通過(guò)軟件實(shí)現(xiàn),無(wú)法大規(guī)模部署,測(cè)量精度也有限,也會(huì)影響正常業(yè)務(wù)。
直接測(cè)量是直接針對(duì)業(yè)務(wù)流的測(cè)試,一般是將業(yè)務(wù)流劃分為一系列測(cè)量區(qū)間,在兩個(gè)測(cè)量點(diǎn)分別統(tǒng)計(jì)對(duì)應(yīng)區(qū)間的發(fā)包數(shù)、收包數(shù)和延時(shí),同一個(gè)區(qū)間的發(fā)包/收包數(shù)的差就是該區(qū)間的丟包數(shù)。直接測(cè)量的優(yōu)點(diǎn)在于:
直接體現(xiàn)業(yè)務(wù)流的性能,完全是真正業(yè)務(wù)流的實(shí)際表現(xiàn),和實(shí)際網(wǎng)絡(luò)一致;
測(cè)量結(jié)果精確,因?yàn)槭轻槍?duì)實(shí)際業(yè)務(wù)流的統(tǒng)計(jì),結(jié)果更精確;
不干擾正常業(yè)務(wù),對(duì)正常業(yè)務(wù)流進(jìn)行簡(jiǎn)單“染色”或者使用特殊的標(biāo)簽值,不影響正常業(yè)務(wù);
一般都是通過(guò)硬件實(shí)現(xiàn),對(duì)整機(jī)性能沒(méi)有影響。
下面的列表將當(dāng)前主要的一些分組網(wǎng)性能監(jiān)控方式簡(jiǎn)單總結(jié)一下:
表1各種在線性能監(jiān)控標(biāo)準(zhǔn)簡(jiǎn)單對(duì)比
從上面對(duì)比可以看出,間接測(cè)量的結(jié)果只能在一點(diǎn)程度上表征實(shí)際網(wǎng)絡(luò)的性能,實(shí)際網(wǎng)絡(luò)部署時(shí),應(yīng)該盡量使用IPFPM直接測(cè)量模式,目前已經(jīng)成為發(fā)展趨勢(shì)。
1)IP FPM提供在線IP性能監(jiān)控
IP FPM(IP Flow-based Performance Monitoring)是華為獨(dú)創(chuàng)的IP在線網(wǎng)絡(luò)性能監(jiān)控解決方案,已經(jīng)有IETF草案發(fā)布,http://tools.ietf.org/html/draft-chen-coloring-based-ipfpm-framework-01,其基礎(chǔ)架構(gòu)如下圖所示:
IP FPM架構(gòu)
IP FPM架構(gòu)中包含三個(gè)邏輯體:
DCP:Data Collecting Point,每臺(tái)參與IP FPM監(jiān)控的設(shè)備上配置一個(gè)DCP,DCP收集本設(shè)備上TLP的測(cè)量信息向MCP報(bào)告,MCP進(jìn)行集中計(jì)算得到測(cè)量結(jié)果。
TLP:Target Logical Port,每個(gè)測(cè)量實(shí)例可包含多個(gè)TLP,同一個(gè)TLP上可同時(shí)進(jìn)行多個(gè)測(cè)量實(shí)例的測(cè)量。TLP識(shí)別目標(biāo)流并進(jìn)行統(tǒng)計(jì)測(cè)量,TLP的測(cè)量操作基于本地的配置信息,完全獨(dú)立于參與同一測(cè)量實(shí)例的其他TLP,TLP之間無(wú)須交換控制信息。TLP可以定義在L2接口上,也可以定義在L3接口上,與協(xié)議無(wú)關(guān)。
MCP:Measurement Control Point,每個(gè)測(cè)量實(shí)例對(duì)應(yīng)1個(gè)MCP,同一個(gè)MCP可對(duì)應(yīng)多個(gè)測(cè)量實(shí)例。
IP FPM測(cè)量時(shí),并沒(méi)有額外引入測(cè)試流,因此是直接測(cè)量模式,最直觀的體現(xiàn)了業(yè)務(wù)流的實(shí)際質(zhì)量;在報(bào)文頭中的標(biāo)記是IP報(bào)文中的保留比特,中間網(wǎng)絡(luò)不會(huì)處理,全部透?jìng),因此,IP FPM可以支持端到端部署,對(duì)中間網(wǎng)絡(luò)無(wú)特殊要求,可部署性好。
IP FPM實(shí)現(xiàn)了控制平面與數(shù)據(jù)轉(zhuǎn)發(fā)平面解耦,控制平面的DCP、MCP和轉(zhuǎn)發(fā)平面的TLP分離,同時(shí)TLP與協(xié)議無(wú)關(guān),可以支持L2接口,也可以支持L3接口,同一測(cè)量實(shí)例可包含不同協(xié)議接口的TLP,實(shí)現(xiàn)了跨異種網(wǎng)絡(luò)的直接E2E測(cè)量,例如L2 + L3網(wǎng)絡(luò)的端到端測(cè)量,也可以支持點(diǎn)到多點(diǎn)的組網(wǎng)。
2)內(nèi)置RFC2544實(shí)現(xiàn)離線性能監(jiān)控
既然要隔離用戶網(wǎng)絡(luò)和運(yùn)營(yíng)商網(wǎng)絡(luò),提供清晰的維護(hù)界面,便于在出故障時(shí)分清責(zé)任,那么提供一份完善的SLA報(bào)告就是一個(gè)很好的解決方案。為測(cè)試以太網(wǎng)專線業(yè)務(wù)性能,提供相應(yīng)的SLA報(bào)告,業(yè)界比較成熟的解決方案是通過(guò)RFC 2544來(lái)實(shí)現(xiàn)。
華為L(zhǎng)TE承載解決方案中,ATN支持內(nèi)置RFC2544產(chǎn)生器和分析器,以及反射器。如下圖所示:
內(nèi)置RFC2544示意圖
雙向測(cè)試模式時(shí),近端ATN支持測(cè)試報(bào)文生成器,發(fā)送到遠(yuǎn)端;遠(yuǎn)端設(shè)備(不限定是ATN),將收到的測(cè)試報(bào)文反射回去(可以通過(guò)端口物理環(huán)回或者邏輯環(huán)回),近端ATN收到后,和發(fā)送的報(bào)文進(jìn)行對(duì)比和分析,就可以計(jì)算出延時(shí)、丟包率、吞吐量了。內(nèi)置RFC 2544可以實(shí)現(xiàn)免以太網(wǎng)儀表開(kāi)局,業(yè)務(wù)自動(dòng)驗(yàn)收,提供SLA報(bào)告,進(jìn)行網(wǎng)絡(luò)定界,分清責(zé)任,在不同運(yùn)營(yíng)商網(wǎng)絡(luò)、相同運(yùn)營(yíng)商不同運(yùn)維部門之間的進(jìn)行責(zé)任定界等。
3)Y.1731提供完善二層性能監(jiān)控解決方案
ATN支持完整的Y.1731定義的PM部分,包括幀丟失,幀延時(shí)等,能提供基于VLAN,PW和端口的性能統(tǒng)計(jì),提供完善的以太網(wǎng)二層性能監(jiān)控解決方案:
幀丟失測(cè)量(ETH-LM),包括單端ETH-LM和雙端ETH-LM
幀延時(shí)測(cè)量(ETH-DM),包括單向ETH-DM和雙向ETH-DM
吞吐量測(cè)量
Y.1731標(biāo)準(zhǔn)里面,在描述以太網(wǎng)吞吐量測(cè)量指出,RFC2544已經(jīng)定義了測(cè)試方法和要求。并指出可以基于ETH-LB和ETH-TST來(lái)完成吞吐量測(cè)試,但是沒(méi)有進(jìn)一步的實(shí)現(xiàn)描述。ATN提供吞吐量測(cè)試是通過(guò)ATN支持的內(nèi)置RFC2544測(cè)試功能來(lái)提供吞吐量測(cè)試功能的,詳細(xì)請(qǐng)參考本文有關(guān)RFC2544部分章節(jié)。
uTraffic性能管理平臺(tái)使網(wǎng)絡(luò)流量可經(jīng)營(yíng)
uTraffic是華為公司承載網(wǎng)的統(tǒng)一性能管理平臺(tái),聚焦網(wǎng)絡(luò)流向、流量管理,以及管道質(zhì)量的可視化,實(shí)現(xiàn)海量數(shù)據(jù)匯聚、分析
uTraffic在網(wǎng)絡(luò)中的位置
uTraffic作為網(wǎng)絡(luò)管道的智能管理系統(tǒng),具有以下優(yōu)勢(shì):
統(tǒng)一的性能分析系統(tǒng)
uTraffic統(tǒng)一管理路由設(shè)備、接入設(shè)備和傳送設(shè)備的性能,靈活構(gòu)成FTTx、IP Core/IP METRO、IPRAN等多種性能解決方案。從設(shè)備性能維度,通過(guò)對(duì)設(shè)備CPU利用率、內(nèi)存利用率、資源利用率等指標(biāo)的監(jiān)控反映設(shè)備的運(yùn)行狀態(tài)。從業(yè)務(wù)性能維度,通過(guò)對(duì)丟包率、誤碼率、時(shí)延、抖動(dòng)等KPI反映業(yè)務(wù)的品質(zhì)。
大容量采集能力
uTraffic提供了獨(dú)立的性能采集器,除采用業(yè)界通用的SNMP模式外,還提供了獨(dú)特的BULK采集模式,將設(shè)備性能數(shù)據(jù)通過(guò)FTP/SFTP協(xié)議進(jìn)行傳輸,性能采集能力提升顯著,可滿足大規(guī)模網(wǎng)絡(luò)的性能采集要求。
流量管理可視化
uTraffic具有強(qiáng)大的GUI展示能力,可以在GIS地圖上動(dòng)態(tài)展現(xiàn)各網(wǎng)絡(luò)節(jié)點(diǎn)的流量情況,可以精確了解各網(wǎng)絡(luò)節(jié)點(diǎn)的各種性能指標(biāo)詳細(xì)情況,充分了解業(yè)務(wù)流量、流向以及業(yè)務(wù)質(zhì)量。支持GIS地圖、業(yè)務(wù)流量可視、業(yè)務(wù)質(zhì)量可視、強(qiáng)大自定義Dashboard輸出、一鍵式導(dǎo)出分析報(bào)告、支持離線分析和匯總、Email信息及時(shí)推送
E2E業(yè)務(wù)質(zhì)量監(jiān)控
uTraffic基于網(wǎng)絡(luò)拓?fù)溥M(jìn)行網(wǎng)絡(luò)性能數(shù)據(jù)監(jiān)控,通過(guò)各種靈活的統(tǒng)計(jì)報(bào)表和性能展示方案,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)業(yè)務(wù)的質(zhì)量監(jiān)控。
容量管理和趨勢(shì)預(yù)測(cè)
通過(guò)對(duì)網(wǎng)絡(luò)流量的分析,及時(shí)掌握網(wǎng)絡(luò)中流量分布情況,并基于與歷史性能數(shù)據(jù)或峰值數(shù)據(jù)的對(duì)比,對(duì)網(wǎng)絡(luò)流量趨勢(shì)進(jìn)行預(yù)測(cè)。客戶可據(jù)此進(jìn)行動(dòng)態(tài)的網(wǎng)絡(luò)流量調(diào)整或作為未來(lái)網(wǎng)絡(luò)擴(kuò)容的依據(jù)。
結(jié)束語(yǔ)
LTE承載相對(duì)3G承載來(lái)說(shuō),網(wǎng)絡(luò)規(guī)模更大、復(fù)雜程度更高,責(zé)任定界、故障診斷和快速定位更難,網(wǎng)絡(luò)安全性要求更高。華為提供多層次性能監(jiān)控解決方案,用于不同維護(hù)域之間定界,形成不同的維護(hù)域之間的清晰的維護(hù)界面,在出現(xiàn)故障時(shí),根據(jù)設(shè)備的OAM能力,提供相應(yīng)的SLA報(bào)告,分清網(wǎng)絡(luò)責(zé)任,快速進(jìn)行定位和排障,盡可能的減少業(yè)務(wù)中斷時(shí)間。
華為性能監(jiān)控解決方案支持豐富的OAM機(jī)制,例如Y.1731,IP FPM,內(nèi)置RFC 2544功能等。在線性能監(jiān)控中,對(duì)二層網(wǎng)絡(luò),建議使用Y.1731實(shí)現(xiàn);三層網(wǎng)絡(luò),建議部署IP FPM,L2 + L3端到端網(wǎng)絡(luò),推薦IP FPM;離線性能測(cè)試,建議內(nèi)置RFC 2544.同時(shí)為更直觀、更友好地進(jìn)行性能管理,華為推薦uTraffic圖形化流量經(jīng)營(yíng)工具,提供完善的二三層網(wǎng)絡(luò)的性能監(jiān)控解決方案,使網(wǎng)絡(luò)性能管理更優(yōu)化,網(wǎng)絡(luò)端到端流量可視,可管理,可經(jīng)營(yíng),維護(hù)責(zé)任清晰。