您好!歡迎閱覽西安隴浩網絡科技有限公司官方網站! 關于我們 企業文化(huà)
售後:0851-87991116​​​​​​​​​​​
位置:首頁 > 公司動态 > 知識百科
中興通(tōng)訊服務器搭載“黑(hēi)匣子”功能,讓故障無處遁形
發表時(shí)間:2020-11-04     閱讀次數:     字體:【大(dà)

通(tōng)信世界網消息(CWW)随著(zhe)雲化(huà)轉型的(de)深入,在網運行服務器數量在不斷增加,服務器死機和(hé)重啓成爲運維中難以避免的(de)現象。有沒有一種功能或者工具能夠記錄死機、重啓前一刻發生了(le)什(shén)麽,并能夠分(fēn)析服務器各種異常參數?這(zhè)裏不得(de)不提一種叫“黑(hēi)匣子”的(de)技術。

“黑(hēi)匣子”是電子飛(fēi)行記錄儀的(de)俗稱,用(yòng)于記錄飛(fēi)機飛(fēi)行和(hé)性能參數的(de)儀器。飛(fēi)行記錄儀記錄的(de)信息可(kě)用(yòng)于飛(fēi)行事故分(fēn)析,人(rén)們可(kě)根據飛(fēi)機墜毀前記錄的(de)數據和(hé)話(huà)音(yīn)記錄,經處理(lǐ)後送入一種飛(fēi)行模拟器,重現事故的(de)過程,形象地分(fēn)析事故原因。

服務器上有一個(gè)獨立的(de)BMC系統(BaseboardManagement Controller),通(tōng)俗來(lái)講,BMC是整個(gè)服務器單闆的(de)大(dà)管家,從服務器上電那一刻,它所有部件均由BMC來(lái)負責和(hé)管理(lǐ)。BMC主要用(yòng)于對(duì)服務器各個(gè)部件(CPU、内存、硬盤、風扇、機框等)的(de)溫度、電壓等健康狀态進行檢測,同時(shí)根據各個(gè)溫度采集點情況實時(shí)調整風扇轉速避免服務器産生過溫、總體功耗過高(gāo)的(de)情況發生。如果單闆部件出現任何異常則通(tōng)過SNMP協議(yì)、SMTP協議(yì)、Redfish協議(yì)等多(duō)種業界通(tōng)用(yòng)規範将信息及時(shí)上報給上層網管,以便運維人(rén)員(yuán)及時(shí)處理(lǐ),保障業務無損。BMC主要用(yòng)于采集單個(gè)服務器上的(de)信息,同時(shí)将信息提供給上層運維網管軟件,一般情況下(xià)BMC軟件上報的(de)消息中會指明(míng)哪個(gè)部件産生故障以及處理(lǐ)建議(yì)等。

服務器的(de)“黑(hēi)匣子”功能是BMC系統不可(kě)或缺的(de)一部分(fēn),它起到了(le)與飛(fēi)機“黑(hēi)匣子”同樣的(de)作用(yòng)。系統正常運作時(shí),“黑(hēi)匣子”記錄著(zhe)系統的(de)各種運行參數;當BMC檢測到緻命故障或者系統異常狀态,“黑(hēi)匣子”将記錄下(xià)發生故障時(shí)的(de)系統狀态。故障分(fēn)析人(rén)員(yuán)通(tōng)過“黑(hēi)匣子”中記錄的(de)數據,可(kě)快(kuài)速定位故障發生的(de)那一刻,并分(fēn)析異常産生的(de)根本原因。雖然通(tōng)過系統的(de)崩潰日志等其他(tā)手段也(yě)可(kě)以進行故障分(fēn)析和(hé)定位,但是均比“黑(hēi)匣子”功能費時(shí)費力,“黑(hēi)匣子”可(kě)簡單而直接的(de)記錄底層硬件數據,可(kě)更加快(kuài)速地解決硬件故障引發的(de)系統問題。

市面上的(de)“黑(hēi)匣子”功能有帶内管理(lǐ)和(hé)帶外管理(lǐ)兩種方式,帶外管理(lǐ)(out-of-band)是基于硬件的(de)一種管理(lǐ)方式,使用(yòng)專用(yòng)硬件模塊或特殊的(de)遠(yuǎn)程管理(lǐ)卡提供管理(lǐ)接口,通(tōng)過專用(yòng)的(de)數據通(tōng)道對(duì)設備進行遠(yuǎn)程維護和(hé)管理(lǐ),完全獨立于設備操作系統之外,甚至可(kě)以在設備關機狀态下(xià)進行遠(yuǎn)程監測與管理(lǐ)。帶内管理(lǐ)(in-band)需要在OS層安裝原廠或者第三方驅動,對(duì)于客戶數據敏感的(de)應用(yòng),如果通(tōng)過帶内管理(lǐ)需要對(duì)OS層的(de)驅動進行全方位測試和(hé)驗證,以防止驅動程序的(de)漏洞被利用(yòng),造成數據洩露。

圖片1.png

中興通(tōng)訊全系列服務器産品均搭載“黑(hēi)匣子”功能,并提供一鍵故障解析工具,可(kě)在系統出錯的(de)第一時(shí)間分(fēn)析故障根本原因,對(duì)于可(kě)糾正級的(de)輕微錯誤,比如CPU QPI總線CRC錯誤,PCIE總線錯誤,根據大(dà)量的(de)外場(chǎng)故障數據進行分(fēn)析,總結規律阈值,事前通(tōng)知用(yòng)戶,可(kě)以有效地提前預判故障。同時(shí),中興通(tōng)訊的(de)“黑(hēi)匣子”功能和(hé)一鍵解析工具均通(tōng)過帶外方式進行數據采集,可(kě)有效避免用(yòng)戶數據洩露的(de)風險。

未來(lái),中興通(tōng)訊将秉持開放合作的(de)理(lǐ)念,堅持自主創新之路,以核心技術爲基石,突破傳統生态,持續推動服務器産品生态的(de)繁榮發展。

來(lái)源:通(tōng)信世界全媒體

 
上一篇:數字化(huà)轉型對(duì)網絡提出更高(gāo)要求,專家:做(zuò)好規劃是關鍵
下(xià)一篇:三大(dà)運營商緊鑼密鼓打造超級SIM卡,爲ICT産業變革注入新動能