來源:云云眾生s
基于 AI 的服務(wù)建??梢愿斓剡M(jìn)行根本原因分析,,持續(xù)優(yōu)化和持續(xù)合規(guī),,從而更快地解決問題,。
譯自AI-Powered Service Models Speed Troubleshooting,,作者 Mary Chen,。
如果您管理著現(xiàn)代化的分布式 IT 環(huán)境,,那么上下文對于故障排除和分析生產(chǎn)問題對業(yè)務(wù)的影響至關(guān)重要,。但獲取這些上下文可能很困難,。
您可能擁有不同的團(tuán)隊和可觀察性解決方案來管理為業(yè)務(wù)服務(wù)做出貢獻(xiàn)的不同層級,,或者不同的工具生成有用的遙測數(shù)據(jù),例如指標(biāo),、事件,、日志、跟蹤和拓?fù)洌鼈冊诠聧u中運(yùn)行,。也許您沒有環(huán)境中連接的模型,。或者,,所有關(guān)于因果關(guān)系,、行動和后果的知識都沒有記錄,而是被鎖定在某人的機(jī)構(gòu)記憶中,。
為了在復(fù)雜的環(huán)境中準(zhǔn)確快速地查明服務(wù)問題的根本原因,,您需要深入了解應(yīng)用程序、API 和網(wǎng)絡(luò)層之間的關(guān)鍵路徑和依賴關(guān)系級別,。
高性能圖數(shù)據(jù)庫,、動態(tài)服務(wù)建模功能和因果 AI 可以幫助您理解和建模不同應(yīng)用程序、API 以及網(wǎng)絡(luò)和基礎(chǔ)設(shè)施層之間的因果關(guān)系,。對您的服務(wù)進(jìn)行建?!獦?gòu)建服務(wù)可視化以及各種系統(tǒng)和基礎(chǔ)設(shè)施組件之間的關(guān)系——為故障排除提供了關(guān)鍵的上下文。定義明確的服務(wù)為您提供了端到端的視圖,,可以快速識別受影響的節(jié)點(diǎn),,從而更快地進(jìn)行根本原因分析。
服務(wù)建模的工作原理
假設(shè)您擁有 IT 環(huán)境的動態(tài)和協(xié)調(diào)圖數(shù)據(jù)庫,,其中所有類型的攝取數(shù)據(jù)(指標(biāo),、事件、日志,、跟蹤,、拓?fù)洌┒家褬?biāo)準(zhǔn)化,對您的服務(wù)進(jìn)行建模涉及以下步驟:
- 識別您要建模的最終用戶服務(wù),,并將服務(wù)詳細(xì)信息作為輸入添加到服務(wù)建模工具中,。應(yīng)用程序性能監(jiān)控 (APM) 工具可以提供有關(guān)軟件組件及其跨云、主機(jī)和容器拓?fù)潢P(guān)系的特定于應(yīng)用程序的詳細(xì)信息,?;A(chǔ)設(shè)施和網(wǎng)絡(luò)監(jiān)控工具以及掃描工具可以詳細(xì)說明基礎(chǔ)設(shè)施與底層虛擬和物理設(shè)備(例如服務(wù)器、數(shù)據(jù)庫,、交換機(jī),、路由器、防火墻和負(fù)載均衡器)的連接,。
- 使用藍(lán)圖動態(tài)遍歷所有層,以自動將應(yīng)用程序拓?fù)溥B接到主機(jī)和網(wǎng)絡(luò)設(shè)備,。發(fā)現(xiàn)和監(jiān)控工具可以提供服務(wù)藍(lán)圖,,以簡化動態(tài)服務(wù)模型的創(chuàng)建和維護(hù)。這些服務(wù)模型支持微服務(wù)、Kubernetes,、云服務(wù),、應(yīng)用程序性能跟蹤和主機(jī)等現(xiàn)代技術(shù),以準(zhǔn)確跟蹤所有 IT 資源和關(guān)系,。藍(lán)圖使表達(dá)識別服務(wù)所有元素的簡單規(guī)則變得容易,。您只需定義一次規(guī)則,然后將其應(yīng)用于所需的所有服務(wù),。
- 計算服務(wù)的健康評分,。了解服務(wù)基于服務(wù)模型組件中的指標(biāo)、異常和事件的當(dāng)前和歷史健康狀況,,可以幫助您識別健康影響或服務(wù)性能下降的根本原因,。機(jī)器學(xué)習(xí) (ML) 算法可以計算健康評分,因此您可以快速了解問題的范圍,。
如何將 AI 整合到更快的故障排除中
因果 AI 和生成式 AI (GenAI) 等 AI 技術(shù)可以通過將原因與結(jié)果聯(lián)系起來并翻譯根本原因洞察力來幫助加速故障排除過程,。真正的AIOps需要一個完整的系統(tǒng),該系統(tǒng)旨在通過最終用戶和業(yè)務(wù)影響的視角來收集和建模數(shù)據(jù),。使用上述過程進(jìn)行的服務(wù)建模使您可以自信地使用 AI 生成可靠的洞察力,。
因果 AI 整合了知識圖譜和基于轉(zhuǎn)換器的 AI 技術(shù),以理解和建模遙測數(shù)據(jù)變量之間的關(guān)系,。因果 AI 可以使用拓?fù)鋽?shù)據(jù)來推斷因果關(guān)系或模式,。基于知識圖譜的因果分析分析因果關(guān)系如何根據(jù)變量相互影響的方式而變化,。
在生產(chǎn)故障排除中使用因果 AI:
- 通過提供事件相關(guān)聯(lián)方式以及如何識別根本原因的可視化表示,,幫助您理解和解釋問題。
- 通過自動識別之前是否發(fā)生過類似情況,,加速故障排除,。如果您已經(jīng)看到并解決了問題,則無需再次經(jīng)歷整個發(fā)現(xiàn)過程,。因果 AI 會對重復(fù)出現(xiàn)的情況進(jìn)行指紋識別,,以便將來識別,從而幫助加快平均恢復(fù)時間 (MTTR) 并減少事件噪音,。
GenAI 在故障排除過程中也發(fā)揮著重要作用,。它可用于生成:
- 純文本摘要,與解碼一系列輸出錯誤代碼相比,,可以更快,、更簡單地了解問題。
- 解決問題的最佳行動建議,。
- 對故障排除期間常見問題的解答,。
為了讓 AI 算法提供您信任的結(jié)果,,數(shù)據(jù)的質(zhì)量至關(guān)重要。使用定義明確的服務(wù)模型建立正確的基礎(chǔ)至關(guān)重要,。
真實世界應(yīng)用
服務(wù)建模已經(jīng)在服務(wù)管理方面產(chǎn)生了重大影響,。它減少了調(diào)查時間,幫助您在問題影響業(yè)務(wù)之前看到并響應(yīng)問題,。
以下是如何使用服務(wù)建模來實現(xiàn)更快地根本原因分析,、持續(xù)優(yōu)化和持續(xù)合規(guī)性的示例。
根本原因分析:通過將服務(wù)依賴關(guān)系建模為協(xié)調(diào)的拓?fù)浣Y(jié)構(gòu),,您可以隔離問題的根本原因,,無論它是:
- 應(yīng)用程序軟件組件:不影響基礎(chǔ)設(shè)施。
- 網(wǎng)絡(luò):影響基礎(chǔ)設(shè)施和應(yīng)用程序,。
- 大型機(jī)數(shù)據(jù)庫:影響分布式應(yīng)用程序,。
容量優(yōu)化:通過分析服務(wù)之間的交互,服務(wù)建??梢蕴峁┯嘘P(guān)如何根據(jù)不斷變化的業(yè)務(wù)需求調(diào)整 IT 資源規(guī)模和對其進(jìn)行對齊的見解,。當(dāng)與 AI 一起使用來分析瓶頸并推薦最小化風(fēng)險和成本的領(lǐng)域時,您可以持續(xù)優(yōu)化 IT 環(huán)境的性能,。
持續(xù)合規(guī)性:收集和建模 IT 資產(chǎn),、服務(wù)和關(guān)系提供最新信息和流程,以滿足安全和監(jiān)管合規(guī)性要求,。與其追逐各個開發(fā)人員來記錄正在運(yùn)行的內(nèi)容及其位置,,不如通過自動發(fā)現(xiàn)和服務(wù)建模來領(lǐng)先于不斷增長的風(fēng)險和復(fù)雜性。
毫無疑問,,AI 將繼續(xù)在可觀察性中發(fā)揮重要作用,。它可以利用正確的情境數(shù)據(jù)極大地加速故障排除工作流程并提高效率。
本文在云云眾生(https://yylives.cc/)首發(fā),,歡迎大家訪問,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點(diǎn)或證實其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1116192.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎,。本資訊不作為投資理財建議。