在你看不到的地方,人工智能是24小時來為你提供保障服務
來源:原創 時間:2018-02-12 瀏覽:1831 次是在一個大規模的在線系統中,大量的屬性組合對有效組合的檢測提出了挑戰。為此,我們提出了iDice-1盎司,以有效地找到一個有效的組合,以降低系統的維護成本。去挖兩天。下圖顯示了CPU使用率和兩個任務(CPU密集型程序和磁盤密集型程序)的時間序列?,F有的方法被抽象為故障預測是兩個分類問題和非使用,分類模型(如隨機森林,支持向量機)預測,并取得了很好的效果。通過對半年使用記錄的分析發現,在緊急情況下,工程師使用的SAS約占服務的86%,SAS可以提供約76%的幫助來解決這些問題。首先,各種故障原因導致大型復雜系統的多樣性,可能是由硬件或軟件問題引起的,分布在不同層次的系統中,也可能是多個組件的故障在一起。為了查找異常KPI指標的原因,操作和維護人員通常從在線服務(如停機)運行指標和系統(如CPU使用率)相關切口。例如,如果一個節點可以預測數據中心(節點)故障,就可以提前進行數據遷移和資源分配,從而保證系統的高可靠性。
數據特征也非常多樣,包括數值特征、類特征和時間序列特征,簡單的模型已經不能再處理了。其次,極不平衡的正負樣本對在線預測提出了極大的挑戰。網絡系統的龐大規模和復雜性給系統的運行和維護帶來了自然的挑戰。如果出現新的問題,我們將去問題庫解決這個問題。定位到個體經營狀態的“與眾不同”的組成部分。但面對實際的生產環境,這些實驗室的結果是“無法行動”。一個典型的事故管理過程可分為事故檢測、接收和記錄。如下圖所示,日志分析分為兩個階段,一個是建設階段,一個是產品階段。
事件異常在線檢測系統還接收來自世界各地客戶的廣泛問題,如用戶類型(TenantType)、產品特性(ProductFeature)、操作系統(ClientOS)等。首先,高質量的標注數據是不夠的。此外,有效組合應引起顯著的增長報告編號。當您使用在線系統搜索網頁、編輯文檔、存儲圖片、聽音樂、觀看視頻、玩游戲和享受在線系統的平滑服務時,后面有數十萬到數百萬臺服務器,為您提供了7*24小時的可靠服務。但是,事件的發生可能與整個時間序列有關,但是傳統的相關分析方法只能處理點對點。為了提供更加穩定的服務,除了KPI外,我們還將對系統日志的異常、異常事件識別和支持進行預測,對多維時間序列數據進行異常分析。從大量數據中自動發現可能與當前服務事故信息相關聯,并有助于事故地點的發生機理、事故來源和推測;2)通過檢測異常值來確定部件定位缺陷。升級、事故調查、事故診斷、解決系統恢復等方面的分類和分布。
因此,我們與Azure專家密切合作,分析故障原因,挖掘系統日志,并提取重要的特征。然后提出了解決時間序列相關性問題的創新方法,即事件序列與3,對兩個樣本(2個樣本)的問題進行了建模,然后給出了基于統計相關的最近鄰法。除了互聯網之外,智能操作和維護也將在金融、物聯網、醫藥、通信等領域顯示出強勁的需求。在構建階段,我們從一個測試環境(通常是一個小型虛擬云平臺)收集日志數據,進行矢量化(LogVectoralization),進行后加權聚類,從每個集合中選擇一個有代表性的日志,并構建知識庫。3)創建為每個事故案例的診斷信息的重用in.sas指紋(簽名),和案例之間的相似度的定義。利用康算法求解在線預測問題,得到預測樣本的故障概率。對于一個新問題,我們將到問題庫中查找一個與其簽名類似的問題。上面的故障預測主要介紹故障后如何診斷和修復效率,更理想的情況是防患于未然的問題。
其中,3個是基于剪枝修剪(基于影響的修剪)的影響,基于修剪(基于變化檢測的修剪)和(隔離功率)的基于修剪的能力的變化檢測,通過修剪可以有效地減少搜索范圍(沖擊)的有效組合。4)。在實踐中,我們也遇到了其他的挑戰,并提出了相應的解決方案。但是,基于機器學習的智能操作與維護仍然面臨著一些實際的挑戰。首先,我們將根據該問題的詳細日志信息為該策略找到簽名(簽名)。健康節點(磁盤)標記為陰性樣本,故障節點(磁盤)為陽性樣本,在磁盤故障預測中,Azure中故障磁盤與健康磁盤的比值為每天03:1左右,預測結果傾向于將所有磁盤預測為健康,從而導致極低的召回率。因此,事故管理(事故管理)是保證網絡服務系統服務質量的重要環節。智能診斷如果異常檢測與高速公路上的交通擁堵相似,智能診斷目標就是在高峰時間或事故中找到根本原因,或者有流氓競爭嗎?在運行過程中基于系統的大量監測數據進行深入分析的異常診斷。
服務分析工作室在文末(SAS)系統在實際運行中,會導致系統故障的系統服務質量下降甚至停電事故,通常稱為服務(服務事件)。汽車修理技術已經應用到微軟的在線服務,維護,并有效降低MTTR,請在[ 6 ]的細節。為了使結果的綜合分析可以很SAS易于理解和使用的用戶,我們將得到不同的算法結果進行集成,在報告中提出了方便用戶use.sas 2011年6月微軟的在線產品部門的綜合結果,并安裝在一個大型的在線服務產品事故管理全球數據中心。系統日志,非結構化信息的日志分析為結構化日志記錄,然后在不變因子挖掘結合后,最終實現異常檢測,見參考文獻2的參考文獻2。圖的關系:時間序列數據的相關分析和監測數據的事件序列數據和系統的狀態在診斷中起著重要的作用。事件之間的時間序列數據和單系統相關問題很多,但由于時間序列和時序類型的事件序列是異質的,相關分析、傳統模型(如皮爾遜相關和斯皮爾曼相關)在大規模中的作用是不同的。這些往往包含大量的監測數據,能夠反映系統的運行狀態和邏輯信息的執行情況,因此在大多數情況下都要對事故進行診斷分析,在過去幾年中提供足夠的支持和解決。為了解決上述問題,提出了一種基于日志聚類的問題診斷方法。
影響因素對用戶產生的影響,由多個用戶的屬性效應的組合所造成的影響被認為具有更大的影響,而有效的組合應該是屬性影響的組合。向操作和維護人員提供最有可能發生故障的示例。為了降低MTTR,AD2AD2是衡量系統可靠性和保證用戶滿意度的重要指標。在過去的幾年里,許多大公司在網上操作系統出現了好幾次。異常檢測對于保護穩定的服務尤為重要。異常檢測對于保護穩定的服務尤為重要。由于樣本數據集不能表示真實情況,訓練后的模型也會有偏差。
此外,隨著傳統軟件系統的一次和對于以不同方式固定的所有弱點,在大規模在線系統中,也可能重復出現一個修改的問題,因此診斷可能進行大量的重復工作。同時,更多的研究者應該關注和實踐它。圖iDice顯示了iDice的總體架構。異常檢測對于保證穩定的服務尤為重要。大數據和人工智能的發展帶來的機遇和挑戰,為在線系統的運行和維護改革創造了“東風”,使操作和維護從人工向自動化發展。我們利用分析軟件,解決了在線系統的事故管理問題,開發了一套服務分析系統(SAS),幫助軟件維護人員和開發人員快速處理,分析系統監控數據,提高事故管理效率和響應速度。由于在操作和維護領域有著很強的知識,我們需要一位專業的操作工程師或專家來獲得高質量的標注數據,這一過程花費了大量的時間,因此需要一個高效的數據標注方案。這就要求操作維護人員不僅有較強的知識和設備,而且還具有解決實際問題的技能。
分析是記錄記錄系統相關信息的關鍵方法,日志數據日志數據已成為5的一個重要資源。CPU豐富使用率曲線是典型的時間序列,事件發生的順序用于記錄事物的系統,例如當系統存儲器不足時,可能記錄一系列的“內存不足”事件。我們從2012開始收集SAS用戶記錄。抽樣方法也不適用于在線預測。屬性描述真實的事件,例如用戶類型(TenantType)、產品特性(ProductFeature)、操作系統(ClientOS)等等。其主要思想是利用過去的診斷經驗,在新問題發生時,為新問題提供合適的解決方案。近年來,我們的研究成果已經應用于許多在線服務,如微軟Skype,OneDrive,Office 365,Azure等。機器系統的其他部分,來自不同來源的各種事件產生的數據處理和服務程序。
近年來,大量的自動化腳本對大型在線系統服務進行了實時分析和處理。盡管樣本總量大,但異常類型較少,類別不均勻?,F有的機器學習方法所能提供的場景與實際的生產環境之間存在著巨大的差距。(自動診斷)、異構數據關聯的時間序列分析(時間序列)數據和事件序列(事件序列)數據是兩種常用的數據系統,包括系統狀態信息。然后,基于區分能力的原理,定義了信息熵,快速確定了有效組合。這類服務事故往往給企業帶來巨大的經濟損失和嚴重的企業形象損害。具體而言,在本文結尾,SAS包含以下方法(見[ 7 ]:1)可疑信息挖掘。日志數據的類型也非常不同,但并非所有日志信息在診斷問題時都同樣重要。下圖顯示了該策略的主要流程。首先,我們將從問題報告中整理出所有可能的屬性組合,然后在3次修剪后對其余屬性進行排序,最終找到問題突發增長的有效組合。兩起事故發生時,將檢查是否有類似情況,并在以前類似案例的基礎上對當前事故的解決提供參考解決方案。如果出現新的問題,我們首先使用形式概念分析將高度相關的事件組合在一起,即概念,并根據相互信息度量每個概念與相應日志記錄之間的相關性,然后根據相關數據生成問題簽名。實踐中遇到了這樣的挑戰:1.定位異常原因的索引數據個數?2.如何關聯異常數據序列的類型和文本類型記錄?為了解決上述問題,我們提出了3的異構數據分析方法的相關性、使用4的日志記錄數據診斷分析定位的問題、以及AD2的(異常檢測)和自動診斷系統的質量指數數據中的異常識別。事故管理的各個方面通常是通過對測試數據的分析,從軟件系統中收集大量的監測數據,其中包括系統運行過程記錄的詳細日志(日志和跟蹤)和CPU計數器。