想必大家已經在前期的兩篇文章中了解了判別分布式系統(tǒng)優(yōu)劣的六大標準,那么第七大標準是什么呢?在了解第七大標準之前,我們先來考慮一個問題:
當指揮中心顯控系統(tǒng)運行異常時,該如何處理?
傳統(tǒng)的處理方式:首先召集各個運維崗位進行自檢,查看各自負責的設備、應用組件、系統(tǒng)是否運行正常。如果沒有發(fā)現問題,則召集設備提供商、系統(tǒng)開發(fā)商、系統(tǒng)集成商一起對系統(tǒng)進行“會診”,查找故障原因,整個流程常常會超過一周時間。所以,傳統(tǒng)運維部門常常被稱為“救火”隊員,依靠人工巡檢的工作方式,不但工作被動,而且效率低下。因此,分布式系統(tǒng)除了應符合我們之前提到六大標準外,還需要為用戶提供智能化的運維管理服務,也就是今日與大家分享的判別分布式系統(tǒng)優(yōu)劣的第七大標準。
往期查看:
七大標準判別分布式系統(tǒng)的優(yōu)劣(上)
七大標準判別分布式系統(tǒng)的優(yōu)劣(中)
七看運維管理
智能化的運維管理就像人體的免疫系統(tǒng)一樣不可或缺,它可以圍繞業(yè)務系統(tǒng)進行日常安全監(jiān)測,掌握系統(tǒng)的各項指標,并根據指標作出“健康”與否的判斷;對檢測到的設備運行不正常狀態(tài)或者設備故障發(fā)生預警,并及時通知運維管理人員進行維護。這種運維方式側重于設備故障隱患和缺陷的早期發(fā)現和處理,提高了設備的穩(wěn)定性和可靠性。
專業(yè)的運維管理解決方案涵蓋如下要點:
1 動態(tài)展示系統(tǒng)連接的拓撲圖
與分布式相關的周邊系統(tǒng),尤其是網絡系統(tǒng),都與最終畫面上屏的響應速度、圖像質量、操作延遲、拼接同步性等效果息息相關。分布式節(jié)點通過交換機、路由器等網絡設備連接,任何一個網絡節(jié)點故障、掉線,都會使得某路畫面黑屏,這時需要能夠及時定位到故障點,才可以在最短時間內解決網絡故障。
因此分布式系統(tǒng)的運維管理軟件需要能提供一個動態(tài)變化的設備連接拓撲圖,通過拓撲圖直觀地看到分布式設備及周邊設備的在線狀態(tài)與故障狀態(tài),不用實際到現場排查,就可以反饋給用戶到底是哪個環(huán)節(jié)發(fā)生問題。
2 圖形化查看設備詳細運行指標
除了設備的在線與否之外,為了更好的掌握系統(tǒng)運行狀態(tài)與趨勢,設備的詳細運行指標也同樣關鍵,如各個分布式節(jié)點的輸入輸出分辨率、幀率、視頻傳輸速率等。與分布式設備連接的交換機,也需要實時了解其運行時間、溫度、CPU占用率、內存占用率、某端口流量、抖動、丟包率等。
只有掌握了這些信息,才能在發(fā)生畫面抖動、卡頓、錯位等“軟問題”時,精準定位到問題所在,降低分布式系統(tǒng)可能受到的外界環(huán)境干擾。
3 具備故障告警與預警提示
傳統(tǒng)的運維模式通常是被動式的,即用戶發(fā)現問題,再排查問題所在。而現代化的分布式運維更應該是主動式的,即系統(tǒng)一旦發(fā)生故障,分布式系統(tǒng)要能主動以頁面的彈窗、聲音或郵件、短信等渠道,為用戶做出告警提示,即使用戶不再指揮中心或會議室內,也能通過手機等方式遠程掌握分布式系統(tǒng)的狀態(tài)。
另外,智能化的運維管理應不僅僅是發(fā)生問題、解決問題,更應該利用大數據等手段,記錄系統(tǒng)運行數據,并對未來趨勢進行預測,在設備可能發(fā)生某個問題之前,前置性的做出預警提示,真正提高分布式系統(tǒng)的穩(wěn)定性。
4 建立完善并有記錄的運維工作流程
擁有了設備的監(jiān)測與告警,用戶可以最短時間內掌握系統(tǒng)故障點,但如何解決這些故障,依舊是一個值得深究的問題。分布式系統(tǒng)具有無限的擴展性與覆蓋度,往往部署在大地域中。管理分布式的運維人員也常常不是一個人,而是上下級單位、各個機構多人配合。
效率最高的運維解決方案是多人分工配合,如管理員在指揮中心對整個分布式系統(tǒng)監(jiān)管,發(fā)現故障點后,遠程指導操作員實際到現場處理,并可通過系統(tǒng)實時判斷問題是否解決。這就需要分布式系統(tǒng)提供一個科學的運維工作流程,從發(fā)現問題、派工單下發(fā)、到現場解決與問題反饋,運維人員只需按照標準化的運維流程來操作,并在系統(tǒng)內記錄相關工作信息,即可高效率的完成運維管理工作。
5 覆蓋系統(tǒng)級別的統(tǒng)計與分析
真正的分布式運維管理是一門系統(tǒng)性的科學與工作,應該做到“精細化運維”。所謂“精細化運維”,即不僅僅對設備運行狀態(tài)進行監(jiān)管,也要收集并記錄運維工作流中的告警響應時間、工單解決時間、故障處理時間等信息,同時通過數據的挖掘與關聯,對各類設備的故障率、高風險參數、視頻質量影響率等進行分析,生成綜合性的多維度系統(tǒng)運行報表,幫助用戶持續(xù)改善分布式系統(tǒng)的運維管理工作與應用方式。
沒有運維管理的業(yè)務系統(tǒng)相當于人體失去了免疫系統(tǒng),不僅無法預防系統(tǒng)風險,而且系統(tǒng)的安全性、穩(wěn)定性完全不受保障……只有具備專業(yè)智能化運維管理的分布式系統(tǒng),才是真正完整、可靠的分布式系統(tǒng)。
七大標準
從需求出發(fā),以技術為核心,判別分布式系統(tǒng)的優(yōu)劣。
1 核心技術
2 功能覆蓋
3 畫面還原度
4 大屏同步性
5 坐席延時性
6 集中管控
7 運維管理
北京淳中科技股份有限公司 (淳中 TRICOLOR )是全球領先的專業(yè)視音頻顯控產品及解決方案的供應商,秉承深厚的圖像處理、音視頻編解碼、傳輸技術、系統(tǒng)集成的專業(yè)能力,致力于面向全球各行業(yè)客戶提供領先的顯控產品與解決方案及專業(yè)優(yōu)質的服務。秉承“淳德忠信”的經營理念,以成為世界一流企業(yè)為使命,立志成為受人尊敬的、全球領先的音視頻行業(yè)的領航者,并為社會帶來價值。