對標數字未來,智能運維AIOps何以美好

2019-07-04 11:29 稿源:用戶投稿  0條評論

      簡到極致,便是大智。簡到極致,便是大美。數字化之于金融行業追求的便是一種簡到極致的服務體驗,然而行業數字化程度越高,IT系統的復雜度和規模就越大。特別是隨著科技的進步,區塊鏈、容器、物聯網等Fintech技術相繼落地,帶來更加開放的格局。如何有效地利用ABC技術實現高可用、高性能和高可擴展,并且維持信息系統有效、穩定、持續地運行?智能運維的呼聲越來越高。

      IT運維之變, ITOM/ITSM向AIOps演進 

      近年來,金融行業的IT系統架構逐漸從“傳統集中式架構”轉向“互聯網架構”,互聯網架構所涉及的云化、分布式、DevOps等,使得IT運維的壓力越來越大。隨著AI技術的商用,監管部門鼓勵金融機構利用智能化手段進行業務創新和IT運維管理,所以運維體系在經過了腳本化、工具化、自動化之后,逐漸向智能化發展。 2016 年,AIOps的概念被Gartner正式提出:使用智能算法解決已知的IT問題,并自動化重復的工作。

      經過幾年的爭論和實踐,現在行業對AIOps基本形成共識:融合大數據,機器學習獲得深入的洞察力,實現IT運維能力和運營能力的全面增強,發掘更多運維人員尚未覺察的潛在的系統故障和運維問題。隨著IT管理由ITIL進化為DevOps,運維管理平臺也從ITOM/ITSM向AIOps不斷演進。

      Gartner預測,到 2022 年,40%的大型企業將選擇結合大數據和機器學習能力的AIOps,支持和部分替代IT監控、服務臺和自動化流程和任務,成為IT部門提升運維效率、降低運維成本的重要手段。那么,AIOps如何與金融行業復雜的IT系統實現融合呢?

      金融業AIOps智能運維場景解析

      由于金融業的IT成熟度高,數字化轉型需求迫切,有大量場景亟需AIOps能力。比如,海量日志數據分析、告警風暴抑制、通過告警事件追蹤故障根因、預測業務風險等等。

      云智慧CEO殷晉認為,AIOps基于金融行業的應用場景,依托大數據和人工智能技術,能夠實現業務指標與IT監控、分析、預警、處理場景的融合,通過關聯分析和交易鏈路追蹤,最終能夠發現和解決實際業務問題。

圖片1.png

      云智慧智能運維平臺

      通常情況下,業務系統出現異常,最直接、最直觀反映就是關鍵業務指標出現異常波動。以云智慧某保險行業頭部客戶為例,業務系統異常時,系統處理保單的能力會顯著下降。

      但是,如何正確判斷“保單量”出現下降呢?傳統的方式就是設置一個固定的閾值,當實時監控到的保單量超出上述閾值時,即認為保單量出現異常。傳統監控系統的固定閾值告警,就是籍此產生告警信息的。

      這個邏輯表面看上去沒有問題,但是仔細想一下,每天凌晨的時候,會有多少新的保單提交到系統中呢(假設保險公司只受理國內的業務)?顯然,每天上午 10 點到 12 點之間新提交到系統中的保單量要遠遠多于每天凌晨提交到系統中的保單量。以此類推,業務系統在促銷活動期間和平日處理的保單量也存在顯著的差別。因此,企業很難用固定閾值來判斷業務系統保單量指標是否出現異常。

      為了解決上述問題,云智慧AIOps平臺采用多算法集成學習模式,并引入 3 種針對時序數據的異常檢測方法:動態基線、同比/環比和指標異常檢測。

      動態基線基于歷史數據,利用智能算法進行深度學習,對未來一段時間內的每個時間點的數值進行預測,以預測值作為基線,并通過比較實際值與基線的偏離度(百分比差異)來監控和告警。這種方法適用于已知某數據指標呈周期性變化且沒辦法給出每個周期的準確值或者周期內的數據變化過多的場景。

      同/環比變化用于發現某個待監測指標的變化趨勢是持續變好還是持續變壞。將目標監控值與歷史同期數據的分布和同環比的變化情況進行對比,根據數值或百分比差異情況判斷新進數據是否異常,并作出判斷是否進行告警。

      指標異常檢測為了應對不對業務模式的數據差異化特點,采用無監督集成學習算法,無需人工設置固定閾值和定義基線偏離度,系統根據不同數據特點,選擇不同算法去做針對性的檢測,并對異常進行整體評估,自動識別不符合期望的數據后產生告警。

      在銀行業,云智慧AIOps同樣在多家商業銀行的智能業務鏈路追蹤場景中發揮價值。我們都知道,任何一筆金融業務的交易鏈路都可能涉及幾十個環節,IT追蹤非常困難,過去都是基于垂直系統的監控數據由人工去做的。現在,利用AIOps的實時數據分析能力,自動對交易進行全鏈路追蹤,對采集到的數據進行智能關聯分析,快速得到想要的結果。

      云智慧AIOps平臺以事件為核心,基于大數據技術和機器學習算法,實現IT全生命周期的統一管控。對來自于各種監控系統的告警消息與業務指標進行統一的接入與處理,幫助金融企業打通數據孤島,統一運維的標準與管理規范,減少對運維的事務性干擾,實現事件的智能告警、異常檢測、根因分析、智能預測等。

      AIOps智能運維落地最佳實踐

     2016 年,云智慧在國內率先推出了智能業務運維解決方案,并在多個互聯網+轉型需求迫切的行業展開實踐。歷經 3 載,云智慧積累了豐富智能運維最佳實踐經驗。殷晉在總結過往時表示,AIOps作為IT運維發展的新階段,需要根據金融機構的IT現狀和技術成熟度,采用逐步推進、分階段實施的方式進行落地,建議從基礎運維到業務運維,最終實現智能運維。

      第一階段是數據為先,無論現有系統維穩還是業務創新,都需要完整數據作為基礎。企業完成IT系統建設之后,需要構建面向全部系統和技術棧的統一監控和運維數據處理平臺,將采集的IT數據、日志數據、網絡數據等進行實時處理和分析。

      第二個階段變傳統被動運維為主動運維。利用大數據、人工智能和數據可視化手段,通過IT與業務指標的融合,雙向驅動IT管理。這個階段,既要讓業務部門能夠看懂IT,又能讓IT部門更加敏捷、主動的支撐業務發展。

      最后是智能運維階段,該階段主要有兩個重點:一是實時響應,當發生問題的時候,能夠實時動態響應,迅速定位問題、解決問題;二是預測未來,結合DevOps、容器化等新一代技術,做到故障治愈,這是目前智能運維的最理想結果。

      如今,基于AIOps的云智慧DOCP數字化運維中臺已經陸續在銀行、保險、證券、基金、制造、航空等多個行業的頭部企業中得到大量應用和認可。

      盡管AIOps在實際應用過程中面臨著許多挑戰,但是作為AI和大數據技術對傳統運維產品和理念的顛覆,AIOps對標數字未來,能夠更深層次的解決數字孿生世界中的運維管理難題,為IT管理和業務決策提供更明智的選擇,并對業務發展進行洞察和預測。隨著時間推移,相信AIOps時代終將到來。

本文由站長之家用戶投稿,未經站長之家同意,嚴禁轉載。如廣大用戶朋友,發現稿件存在不實報道,歡迎讀者反饋、糾正、舉報問題(反饋入口)。

免責聲明:本文為用戶投稿的文章,站長之家發布此文僅為傳遞信息,不代表站長之家贊同其觀點,不對對內容真實性負責,僅供用戶參考之用,不構成任何投資、使用建議。請讀者自行核實真實性,以及可能存在的風險,任何后果均由讀者自行承擔。

聲明:本文轉載自第三方媒體,如需轉載,請聯系版權方授權轉載。協助申請

相關文章

相關熱點

查看更多
?
传奇霸业广告