運維未來的發展方向是智能運維

近年來運維技術飛速發展,運維團隊大(dà)多建設好了各種系統,虛拟化、容器化、持續集成等等。但是如何有效的利用這些系統最終實現站點的高可用、高性能、高可擴展?随着智能化技術的發展,爲了解決上述運維領域的問題,智能運維的呼聲越來越高。

在日志(zhì)易産品總監饒琛琳看來,目前國内智能運維發展還處于一(yī)個探索階段,要想盡快在智能運維領域有所突破,首先要主抓好監控系統和告警系統,并利用機器學習算法進行快速監控和排障。饒琛琳,日志(zhì)易産品總監,曾任新浪微博系統架構師、大(dà)數據運維技術專家,從事運維 11 年,精通大(dà)規模互聯網性能優化,機器數據處理分(fēn)析,監控和管理平台的部署開(kāi)發。

這裏,就将饒琛琳對智能運維的發展一(yī)些早期觀點和看法整理出來,和大(dà)家一(yī)起探讨下(xià)運維未來的發展方向。

1對當下(xià)國内運維領域現狀的看法

簡單來講,目前國内運維界在自動化方面已經達到了一(yī)定的水平,就現階段而言,自動化和監控兩部分(fēn)還是有一(yī)定距離(lí)。例如,你拿到了監控類的報警,可能不清楚立馬去(qù)做哪一(yī)項自動化的部署。如果能把自動化和監控這兩部分(fēn)有機的結合起來,運維的工(gōng)作會運轉的更加順利。

2移動端和微服務給運維工(gōng)作帶來的挑戰

在 PC 端的時代,運維的很多工(gōng)作受限于浏覽器,運維人員(yuán)拿不到用戶端真實的數據。這種狀況下(xià),大(dà)家就會普遍采購一(yī)些第三方服務,嘗試獲取終端數據。而在移動端時期,我(wǒ)(wǒ)們都有自己的 IP,可以把一(yī)些采點的邏輯放(fàng)在自己的 IP 裏,然後獲取到更準确、更真實的客戶數據。相對于挑戰來說,這其實是移動端帶來的好處。

微服務的出現給運維工(gōng)作帶來一(yī)些難題。沒有出現微服務之前,運維人員(yuán)在一(yī)台或者兩三台機器中(zhōng)就可以完成問題排查。出現微服務之後,這些問題可能拆到了好幾十個分(fēn)布式的地方,各自的輸出,甚至啓停會很方便,你有可能遇到在找問題的時候混淆的情況。而解決這些麻煩就是需要智能運維。

3在大(dà)數據時代,智能運維與數據之間、自動化運維之間有何關系

智能運維的理想狀态就是把運維工(gōng)作的三大(dà)部分(fēn):監控、管理和故障定位,利用一(yī)些機器學習算法的方法把它們有機結合起來。

在大(dà)數據時代,智能運維是基于大(dà)數據之上。目前看來,運維想要把監控、管理和故障定位這三部分(fēn)有機結合起來,就不可避免的需要用到智能算法,而體(tǐ)現智能算法價值的一(yī)點就是:智能算法需要大(dà)量的數據去(qù)做支撐。

自動化運維這幾年處在一(yī)個良性發展的狀态,包括像 Puppet 這種配置管理的自動化,像 Docker 這種部署的自動化。進一(yī)步的發展就是需要把這三部分(fēn)融合起來。目前能夠把這三部分(fēn)融合起來的辦法就是利用人工(gōng)智能的手段,最後達到一(yī)種智能運維的狀态。

4智能運維當下(xià)的狀況及智能運維發展的預測

智能運維當下(xià)還是一(yī)個初步探索的階段。可以舉幾個時間數字,我(wǒ)(wǒ)所看到一(yī)個和智能運維相關的開(kāi)源項目是在 2013 年,而我(wǒ)(wǒ)看到的第一(yī)個主動出來宣講和智能運維相關的應該是在 2015 年百度在一(yī)個大(dà)會上的宣講。然後大(dà)量的出現在宣講上有關智能運維的應該是在 16 年下(xià)半年。而這些宣講和我(wǒ)(wǒ)的一(yī)些宣講都還是說我(wǒ)(wǒ)們現在有這樣的思路,做了一(yī)些嘗試。而這些嘗試的效果還是需要大(dà)家去(qù)碰撞,看是否還有什麽更好的辦法,因爲我(wǒ)(wǒ)們現在是用普通的機器學習算法,還沒有用到像 AlphaGo 的深度神經網絡這部分(fēn)内容。轉變爲智能運維是一(yī)個需要大(dà)量投入和學習的過程。

想盡快在智能運維領域有所突破,更實際一(yī)點的辦法就是主抓好監控系統和告警系統。傳統的 IT 運維需要管理大(dà)量的告警,極大(dà)地分(fēn)散了企業的注意力,消耗運維人員(yuán)大(dà)量的時間和創新力。想辦法能把一(yī)天收好幾千封告警這種狀況,高效地解決,把運維人員(yuán)從紛繁複雜(zá)的告警和噪音中(zhōng)解脫出來。這是一(yī)個在衆多辦法中(zhōng)産生(shēng)價值的第一(yī)步。

現在比較明确的是大(dà)家會朝着智能運維方向發展,并且智能運維的發展一(yī)定是一(yī)個長期演進的過程。

對于智能運維的發展預測,我(wǒ)(wǒ)的簡單看法如下(xià):

第一(yī)步就是前面所說的,智能運維在告警系統上的價值,;

第二步就是智能地去(qù)判斷告警,而不是現在靠人力的經驗去(qù)設定一(yī)個阈值。設定告警阈值是一(yī)項耗時耗力的工(gōng)作,需要運維人員(yuán)在充分(fēn)了解業務的前提下(xià)才能進行,還得考慮業務是不是平穩發展狀态,否則一(yī)兩周改動一(yī)次,運維工(gōng)程師絕對是要發瘋的。

第三步是利用一(yī)些 NLP(自然語言處理),把故障報告、文本化的語言提煉出來去(qù)自動反饋到這個系統裏。這一(yī)點可能是更遙遠的一(yī)個設想,但是目前來看會是将來發展的一(yī)條道路。

在智能化時代,大(dà)家開(kāi)始思考:如何将智能化和運維工(gōng)作結合起來,成爲智能運維?如何利用機器學習來進行快速監控和排障?