本文轉載微信公眾號“鵝廠往事”,原創作者:李方超
ICC訊 TOOP(Tencent open optical platform),近日TOOP硬件家族又添新的成員,TPC-4開放電層產品!其實它是基于原有OPC-4平臺子框進行開發的,通過設計一款電層板卡T2X4C8來實現傳送功能,其特點是采用基于400G CFP2-DCO線路側方案,實現相干器件分離設計。每塊T2X4C8單板可以支持兩個400G線路口,8個100GE客戶側端口。在2U的機架空間內可以容納4塊業務板卡,600W+的功耗能提供3.2Tbit/s的互聯業務容量。每個線路口使用64 GBaud 16QAM調制,在單個波長上傳輸400Gbps的數據,并且可以在75GHz波道間隔上調諧至64個波長通道,從而在單根光纖上實現高達25.6Tbps的總傳輸容量。
對于多跨段系統或大損耗跨段,可以采用200G QPSK調制方式來提升傳送性能實現復雜跨段場景的應用 。凡支持Tencent CFP2-DCO MSA的DCO模塊均可在T2X4C8上應用,即電層核心器件也是開放解耦的!至此我們的TOOP算是實現了波分系統的全部功能模塊,同時徹底的將原有波分系統的封閉實現了全面的開放。
TOC(騰訊光網絡控制器)+ OPC-4(開放光層產品)+ TPC-4(開放電層產品)將為騰訊今后數據中心互聯提供強有力的基礎能力支持。但這一切也僅僅是開始,后面還有很長的路要走,TOOP到底做了個什么事?為什么要做TOOP?為什么要徹底開放?今天我們就來聊聊,TOOP以及它的未來。
TOOP誕生的背景
大家看到,隨著數據中心業務的爆發式增長,數據中心互聯需求已經在過去的若干年里給光傳輸設備帶來顯著而不同以往的特點。不同于傳統電信級光通信設備,數據中心互聯設備有高帶寬,接口開放,簡化運維,快速部署,網絡應用模式固定等特點。傳統的波分設備,各商用設備差別較大,在產品應用設計上沒有統一標準。就像MAC OS和Windows的差異一樣,每一個廠商有自己的一套邏輯。這樣的差異化導致使用者要付出額外的學習成本。每多一個廠商,需要重新的培訓。這就導致傳統波分系統在多廠商、規模化部署時對運營成本帶來了很大的挑戰。
同時,我們注意到在數據中心互聯場景應用中,如上圖所示,波分系統在數據中心網絡結構中位于最底層,提供節點間的互聯。單個網絡平面內,IP設備可以是多供應商來源混合部署,即不同節點的IP設備可以是來自于不同供應商。波分設備通常每個平面采用單一供應商進行組網,波分系統長期以來處于一個相對封閉的系統。一個平面全部為單一來源時,當發生供應商風險時,運營團隊將面臨十分棘手的狀態。TOOP也正是基于這樣的原因而誕生,為降低數據中心互聯這一類用戶的運營復雜度與提高系統健壯性的痛點而生。
那TOOP給我們帶來了什么?
波分系統是由光層、電層設備組成,到底他們的區別是什么呢?從功能上區分,光層設備是提供不同波長的光信號的合并與分離、光信號的監控與管理,以及光信號的放大的作用。簡單的來理解就好比是高速公路,光層設備合分波器件就相當于高速公路入口與出口的收費站,將不同車道的車匯聚進入高速公路,同時收費站也提供從高速公路駛離的出口。高速公路沿途的電子眼、道路指示牌就類似光層設備提供的監控與管理功能,保證每一輛車都按照規定速度行駛,各司其咎。沿途的加油站就相當于光層設備的光放大器,提供光信號的供功率補償。而波分系統電層設備功能就很專一了,就是負責將客戶側信號(交換機/路由器的100GE/400GE端口)通過一系列的信號處理算法調制成可以在光纖中傳送的光信號,例如TOOP的自研電層產品,T2X4C8單板可以提供2路400G
16QAM信號,即可將8個100GE的交換機端口數據封裝到2個400G的波分線路側端口中用于傳送。電層設備呢就好比跑在高速公路上的貨車,一輛輛車傳輸著來自交換機的數據包。
TOOP可以解決什么呢?傳統的波分系統就好比,波分廠商自己修建了自己的高速公路,且這條高速公路只能跑自己廠的貨車,其他廠商的貨車即使能駛入,也無法被監控和管理系統所識別,導致維護這條高速公路交通的工作變得十分麻煩,如果車輛發生召回事件或者批次問題時,面臨很大的系統穩定隱患。TOOP呢改變了這個游戲規則,我們自己修建了可以支持任意貨車的高速公路(OPC-4),并且通過對每輛貨車簡單的加裝標準化監控協議(Tencent Yang module)實現了多廠商車輛在我們的道路上安全有序的行駛,在TOC(騰訊光網絡控制器)的指揮下讓指揮調度人員(NOC運營人員)可以快速、安全的無差異化的監控不同廠商的貨車并將貨物送抵目的地。這就是TOOP第一階段所解決的問題,無論下面硬件是來自“方塊、圓圈、三角、菱形”,都可以無差異化的在統一的TOOP控制器下管理,“軟硬解耦,大道至簡!”即,傳輸系統在TOOP框架下是一個開放的場景,光層與電層完全分離,需求量與成本最高的電層產品在TOC(控制器)的協助下通過打破封閉從而將單一來源的風險解除。同時TOC配合Tencent Yang的管控模型,將差異化在控制器與設備北向層面完全屏蔽,極大的減少了我們對不同供應商產品的學習成本。
光電解耦喊了很多年了,為什么還要搞TOOP,搞自研波分硬件?
隨著14年~18年移動互聯網的全面發展,數據中心互聯帶寬急劇增長,隨之而來的網絡規模也成倍增長。因為出于成本與供應鏈安全角度,我們引入了多供應商的策略,但隨之而來的管控與運營成本問題愈發凸顯。同時波分系統的封閉性,也導致老系統擴容成本居高不下;這些因素導致我們需要更好的解決方案來應對如此爆發式的增長,在傳統方案局限性凸顯的情況下,我們走上了TOOP的道路。
18年的時候我們啟動了TOOP,也定下了一個愿景,“讓價值回歸其根本,讓技術回歸其應有的位置。”我們的目標是打造一款好用的光網絡產品,我們對此還是很有信心的。因為沒有人比我們更了解我們的需求,我們是在打造更符合我們需求的軟硬件產品。包括在成本上幫助我們節約CapEx和OpEx即資產采購成本和運營成本。我們開始給波分設備作減法,因為它太復雜。我們從幾個角度來對TOOP硬件產品進行設計:
● 刪減不必要功能,例如TPC設計時,我們不做overhead開銷處理,降低復雜度,僅通過MDIO對DCO寄存器對應PM數據進行抓取,包括LLDP、PM等全量數據進行抓取;
● 增加人性化設計,增加LCD、Button等提示與反饋按鍵,實現現場操作時可以與NOC相互確認,避免誤操作;
● 增加精細化運營功能,通過gRPC反饋回臂,實現1秒telemetry推送,OPC與TPC每秒上報各采集點的性能數據,這些數據將協助我們做告警事件分析;
● 提升快速交付能力,通過高器件集成度設計,減少板卡類型與架內尾纖的數量,提升交付效率。同時產品含包裝小于23kg重量符合單人搬運限制規定,連接器與安裝套件精心設計減少部署環節的時間成本;
TOOP采用集中化控制的思路,TOC為國王角色,OPC與TPC為臣民的角色。硬件設計就如同傳感器一樣,采集數據回傳給控制器,由控制器進行決策。這樣減少硬件OS內開發工作量,降低bug與系統的復雜度。
安全方面我們設計選用了符合電器規范的帶屏蔽蓋的LC法蘭,當光纖拔出時端口會立即自動閉合,實現Class 1M的激光安全規范。同時所有功率會超過Class 1M限定的端口均支持APR功能(自動功率衰減),對于OA單板的系統口我們也設計了反向ARP功能防止意外發生。
當然這些描述起來是很容易,但做起來是十分復雜和困難的,器件的選擇、功能的取舍都是難點,在這過程中也體現了光器件行業的痛。以單波速率400G的電層產品來說,oDSP的開發,IC-TROSA的開發國內少有人做,在深入到ADC/DAC的IP基本上還是來自于北美。說到國產化程度最高的光層器件,高維度WSS也還沒有成功攻克,甚至一個LC法蘭也是有專利保護。這些問題在與商用系統廠商溝通中或多或少的影響我們定制化需求,這也是我們做自己的硬件的原因。我們理解商用系統廠商面對眾口難調的難處,導致目前的產品面對IDC應用的需求還有一些優化的空間。當然TOOP也歡迎各商用系統商一起加入進來,希望可以一起推動產業的發展。
TOOP用互聯網思維方式設計通信產品
OPC-4是TOOP產品的第一個硬件產品,這個是一個通用的光層平臺產品。我們在設計這款產品時選用了很多創新產品與一些高品質器件,就像我們的愿景一樣,讓價值回歸其根本,讓技術回歸其應有的位置。其主要特性如下:
● 體積小巧,便于部署,可以安裝在19英寸、600mm深的機柜內,同時散熱與安裝方式適合數據中心場景等多種不同場景應用
● 高集成度設計,單個子框實現OMSP的部署
● 端口標識具備防錯插/拔設計,減少誤操作造成的業務損失
● PANEL設計有狀態顯示LCD屏幕,顯示當前告警狀態,屏幕依據告警級別進行對應顏色顯示,同時常態顯示本機管理IP地址,用于定位子框使用
● 設計有反饋按鍵,按鍵操作會觸發Notifaction至NOC,TOC上會顯示該設備被操作,配合PANEL的LCD屏幕,每次現場對設備進行操作時可以通過反饋確認,并根據屏幕顯示開始/停止內容進行操作,減少誤操作的可能。同時按鍵支持查看重要線路狀態信息,包括OPS工作路由,A/B路接收功率等
● OPC 系統邏輯設計有維護狀態模式,便于現場人員確認并識別子框信息與狀態,即子框、子卡、電源、風扇單元具備提示指示燈,NOC人員可以通過預設提示狀態指引現場人員進行對應部件的識別確認操作
● 無源背板設計,減少子框故障的可能,設備主控單元CU支持1+1熱備,CU選用多核高性能處理器,單板與器件內置flight recorder功能,實現硬件原生支持故障異常可溯源,器件壽命到期前警告
● 電源單元支持1+1熱備,支持多種電源規格,AC 100~230v / HDC 230v,DC -48V電源系統
● 支持50GHz間隔96波系統 / 75Ghz間隔64波系統 / 以及Flex Grid(50GHz +/- 6.25GHz)的系統
● 高性能 OCM 支持500ms內完成 C 波段掃描,OTDR 支持 36dB 跨段的探測能力
● 高性能 EDFA 覆蓋多場景跨段需要,寬增益調節范圍7~32dB可調節,其中15~30dB為平坦增益范圍 (NF<6.5板卡SIG ?àLINE)
● 1s 級別的 Telemetry 能力,全部 PM 采集點支持 1s 級別的數據推送(包括OCM、各節點端口PD、溫度、風扇轉速、增益、平坦度、激光器溫度、偏置電壓電流等全部可讀取節點)
● 1GE的OSC交互帶寬,靈活的管理網接入方案及DCN方案,支持OSPF協議
● 支持基于Netconf協議的管控方案,以及Tacacs+的認證機制
● 原生支持 Tencent Yang model
● 支持電層板卡混插實現TPC-4功能
化繁為簡,減少誤操作的可能
OPC-4的一些功能源于現場運營的痛點,我們在設計時犧牲前面板寬度增加了一個PANEL子卡。
PANEL板卡上有LCD屏幕與Button按鍵。PANEL會顯示當前運行告警,按照告警級別匹配對應顏色。Button作為交互信息按鍵,提供網絡運營中心NOC與現場維護人員的確認/反確認的能力。出于安全考慮IDC可能沒有做手機信號覆蓋,亦或噪音很大的情況下難以通過電話說清信息。通過button,現場運營人員點按Button后,NOC會在TOC上收到事件提示,顯示該設備被人觸碰,從而確認所維護的設備是否正確。NOC也可以下發簡單命令信息如“GO,STOP,NEXT STEP,OK”等信息,通知現場人員可以進行操作或者停止,來避免產生誤操作的可能。
真能有人找錯機框?會有人拔錯板卡嗎?不幸的是,這個答案是肯定的。其實我也有過類似的疑問,經歷過這么巧合的故障后發現,人是運營環節中的一個不可靠因素。其實就如同法航447空難一樣,人在緊張的情況下是不可靠因素,特別是面對復雜的設備很容易發生誤操作。現在大多采用雙平面組網方案,平面A故障時,如果誤操作了平面B帶來的損失將是極大的。如何通過系統有效規避誤操作是OPC-4設計時重點考慮的一個因素。
除了PANEL之外,對于OPC-4上的端口,通過絲印設計進行提示,OPC與TPC產品的絲印遵循色標含義。連接外線光纖的端口為紅色絲印;本子框內互聯的端口為藍色絲印;不同子框間互聯的端口為綠色絲印。同時默認配發的是單管雙芯跳纖,成倍數的減少光纖布防的數量,精簡現場操作。相比傳統設備安裝調測可能需要數天,我們曾經計時對比,開通1.6T帶寬業務,從庫房拆箱開始計時,1個人耗時2個半小時完成單個站點的調試與業務開通,極大的縮短了業務交付的時間。
將復雜留給設備內部,精簡留給用產品的人
波分設備長久以來是需要專業人員運維的,即使波分系統一直是通過UI界面的網管進行操作,但不同廠商的網管也有著各樣的設計。從架構方案設計、現場工程交付、后期故障運營維護,人性化缺失在各個環節。總結其原因,還是單一系統承載了太多需求,同時滿足各家需求時往往產品會非常繁冗。因此需要專業團隊來維護這樣一個封閉的,復雜的系統。我們能否化繁為簡?答案也是肯定的,通過內繁外簡的思路,將傳統設備眾多功能的板卡集成在一塊板卡中實現。精簡信號流關系,減少架內連纖數量,我們可以看到,傳統設備一個光方向可能需要36根光纖,而OPC-4 將這些復雜的功能小型化集成在單一板卡內時,一個標準OMSP應用也僅僅需要5根雙芯纖實現。節省下來的是復雜度,在進行故障排查時會減少難度,對于工程建設也會縮減工作量。
OPC系統是如何做到這一點的呢?
以線路放大器單板ILA-SWG為例,一塊單板相當于傳統設備5塊業務單板的功能。OPC-4的OA-SWG單板內置2塊高性能OCM、OTDR、OSC、VOA、無緣濾波器、雙向的PA單元。每一個器件在傳統設備中都是單獨以板卡形態存在。以BA/PA為例,我們選用了高功率Switchable gain EDFA,輸出功率高達23dBm,增益范圍支持7~32dB可調節,其中平坦增益段支持15~30dB可調(NF < 6.5),這個噪聲系數是EDFA單板的噪聲系數,相當于傳統設備的一個光方向的噪聲系數。
采用可切換分段增益EDFA的好處是,一塊板卡實現適應眾多跨段,傳統的光層產品,以華為OSN系列為例,光放種類高達十余種,即使是較為常用的也有OAU101~OAU107之多。每次進行架構設計時需要根據光纜工勘結果進行配置,不同跨段損耗,配置不同增益范圍、輸出功率的OA,對應備件也應配置相應的OA,因此對于系統設計復雜度,維護便利性均帶來了很大的挑戰。傳統波分系統的各功能均采用獨立單板設計,單板之間通過架內尾纖進行連接,維護人員需要根據圖紙進行操作,端口設計密集操作難度大。OPC-4的單光放設計規避了這些問題,高集成度,一塊單板解決眾多應用場景,精簡設備連纖,端口采用色標標記,邏輯清晰方便開站應用。采用新器件、新技術來解開操作的繁瑣的難題。器件與設計繁冗但操作簡便,是OPC-4的一個特點,我們相信隨著網絡規模增長降低運營成本將會更劃算。
對于OPS光保護單板我們也做了全新的設計,并融入了重量級功能——倒換精準計時。我們在OPS單板的每個端口均增加了PD,這個也賦予我們一個能力,OPS在發生了主備路由切換時,OPS單板可以精確的計算出切換的時間,即光切換瞬間丟失信號多次時間,并通過切換時間上報給TOC騰訊光網絡控制器。結合TPC的同樣的保護倒換瞬態業務丟失計時功能,我們可以精確的知道,一個保護倒換在光層上丟失了多少ms,在電層上丟失了多少ms。并借此可以定位故障,比如當OPS顯示0.7ms完成切換,而電層設備的DSP記錄到resync時間達到了1-2秒,那我們有理由相信,可能OTU單板的入光功率接近靈敏度了,或者線路OSNR余量不足,需要進行線路或者系統優化。這樣我們可以精準的記錄系統的每一個細節變動,這是精細化運營的基本要素。每一次網絡抖動我們都希望知道真實的發生了什么,波分層、underlay層網絡、overlay層網絡,每一層上面業務損失了多少時間。為什么損失我們希望調查明白,這樣當發生故障時,我們知道整個系統的SLA是否可以保證,分配給波分系統的50ms是否可以守住,這個從硬件層面我們做了這些工作來理解切換的那一瞬間到底發生了什么。
其實類似的細節設計還有很多,我們重新定義了光網絡硬件設備的PM信息。OA、ILA、OPS、WSS、T2X4C8電層單板,包括即將發布的CMUX-64(支持Flex-grid的合分波板卡)均支持全量PM數據的1秒級別的Telemetry。
TOOP硬件層面原生支持1秒及telemetry的性能采集是什么意思?傳統波分設備僅有15分鐘及24小時性能記錄,這樣的數據經常的給我們帶來故障判斷的困擾。從故障分析、硬件故障預判方面1秒級的telemetry讓TOOP系統大有可為。這個賦能讓我們頭一次徹底的在微觀層面,在秒級尺度上進行了故障描述。以前我們常遇到光纜抖動一下,瞬間業務有丟包,但是尋找故障并無法得知具體原因,因為PM數據無法給到更精確的信息,這些故障統一的歸類給光纜抖動因素。但是現在,我們可以在光域、電域內進行更微觀尺度的檢查,精準定位到底是光纜真的發生了瞬間的抖動還是激光器存在異常。
所謂大道至簡,衍化至繁。當前TOOP的成功部署,其實僅僅是個開始,我們用了2年時間,日以繼夜的設計、開發、測試實現了這個系統由0至1的遷躍,而這也為TOC(騰訊光網絡控制器)帶來了無盡的想象,我們做到了對光網絡的數字化轉變。TOC這里我們有太多的創新與設計,待后續單獨呈現這部分內容。基于反饋回臂所帶來的海量PM數據,我們現在每周可以抓取到數百G的運行數據,這些數據都是基于我們類似傳感器一樣的各個器件所反饋回來的性能數據。我們希望能夠通過機器學習的方式將這些數據利用起來,我們有燃料,我們需要火箭來燃燒他們,與我們尋找未知的高度。有相關愿景的小伙伴們可以聯系我們哦,歡迎加入我們一起改變世界!
(例如,下圖中的每一個細點都是那一秒的PMD數據。讓我們試想一下,光纜收到應力作用PMD會發生變化,原理是光纜因施工或其他因素產生應力變化,從而產生雙折射。進而有沒有可能我們從DSP的數據中采集到這個變化,基于這個數值,我們是否可以推斷出現場有施工?或者兩條光纜是否統一時刻產生了類似的問題,是否是同路由?當然從更精確的角度來看,我們也在推動DSP供應商上報SOP等信息,震動是否可以帶來更具有價值的數據?)
電層核心器件解耦,TOOP徹底擁抱開放
在19年OFC上,我們看到業內在7nm芯片DSP(數字信號處理芯片)上推出了兩款產品,即低功耗版本和高性能版本。其中低功耗版本應用于DCO模塊,主要是為400G-ZR產品設計,應對80km的傳送距離的需求。但是如大家所知,國內的環境與海外有很大的不同,海外的城市規模較小,數據中心相距較近,光纜損耗相對較小,因此400G-ZR的應用十分適合。而國內城市相對大很多,輕輕松松的在城市內光纜距離超過100km,同時光纜損耗較大以及光層保護的加入使得400G-ZR性能不足以滿足場景需求。我們發現這款低功耗的DSP如果采用高性能的FEC(前向糾錯編碼)配合模塊內置SOA或EDFA實現高功率輸出時,其性能相比傳統的波分設備并沒有相差太多,可以輕松的應對城域網的應用環境,而成本相比400G-ZR并未增加太多,同時考慮到100GE的應用還有大量需求,因此TPC-4平臺的第一塊業務板卡T2X4C8的設計概念就浮現出來。基于這個背景,我們又結合了此前我們已經自研的光層設備OPC-4產品,采用相同的平臺子框去支持這塊T2X4C8板卡,減少重復研發的成本,并加速研發速度。
不同的光學前端ITTRA+DSP的組合讓我們有了更多的選擇余地,我們可以更好的挑選相應的組合,也可以更好的把握不同器件的特點,比如硅光的低功耗,磷化銦高帶寬性能。從最底層進行波分系統的設計從而實現對需求的準確把控,這也是TOOP所帶來的價值。相比傳統的5x7英寸相干模塊來說,DCO的方案成本具有一定優勢(相同速率情況下),兩者的發貨量有著非常大的差距。雖然5x7模塊的性能更好,短距離應用可以提供更大單波速率,但是在光纜距離較長,應用OMSP保護的場景下400G DCO可以充分發揮其價值。我們輸出了Tencent CFP2-DCO MSA,繼而實現單一OTU板卡支持多廠商相干模塊的能力,在避免供應商危機、批次故障方面具備了相當靈活的可能性。硬件解耦后最大的收益是控制器開發工作降低,以前每一款新的板卡引入,均需要對其進行適配、軟件測試、硬件系統測試等一系列工作。通過在板卡層面屏蔽硬件差異性,標準的MSA保證電器性能與管理接口可控,極大的釋放了控制器研發的需求量。對于運營也十分便捷,統一軟、硬件架構,像管理客戶側光模塊一樣簡單。這就是擁抱開放所帶來的好處,也是TOOP的愿景“讓價值回歸其根本,讓技術回歸其應有的位置。”,讓我們通過技術方案的創新來降低成本,而不是通過使用廉價器件,正所謂工欲善其事必先利其器,好的設計與品質器件選擇將幫助我們降低故障發生的可能。
TOOP的未來
軟硬解耦,大道至簡之后,便是衍化至繁。這里的繁是繁華的意思,功能多而不雜,產品優而簡潔是我們TOOP設計的目標。TOOP硬件產品有2個事情近期將實現,一個是對于Flex-grid的支持,一個是20維方向調度能力的支持。以前對波分業務開通調整,需要現場配合,擴容和故障替換的效率也因此而受到影響,能否做到真的Zero-Touch,資源池儲備后按需投產,通過技術換來一種從容感。
另一方面,開放解耦后我們面臨一個問題,即OTU是否需要互聯互通,即FEC的統一。我們知道OIF等一些組織在推動FEC的標準化,但我們認為,FEC和其他一些算法的差異性也恰恰是波分系統的精髓,趨同有時未必是一件好事。同時巨頭的壟斷可能讓市場喪失創新性,標準成立前和成立后對不同玩家會帶來不同的影響。因此騰訊不會強迫各廠商去支持相同的FEC,可由此而來的端到端設備同供應商的問題我們通過TOOP產品解決。即Colorless實現現場電層設備無規則任意連接,電層設備安裝后,可以隨意的在CMUX-64單板對應的端口上進行連接,無需考慮波長的因素,連接好后系統會自動的對齊兩端波分設備,實現即使沒有相同FEC,系統也可以自動的無需人員干預的實現端到端業務的創建。
對于更遠的未來,多維度大容量CDC、L-band、800G,我們會根據需求進行開發,TOC會給予整個網絡更靈活與更智能的變化,我們相信光網絡的未來會朝向智慧互聯發展,期待著大家一起來討論,共同推動產業的發展。