來源:云云眾生s
基于 AI 的服務建模可以更快地進行根本原因分析,,持續(xù)優(yōu)化和持續(xù)合規(guī),,從而更快地解決問題。
譯自AI-Powered Service Models Speed Troubleshooting,,作者 Mary Chen,。
如果您管理著現代化的分布式 IT 環(huán)境,那么上下文對于故障排除和分析生產問題對業(yè)務的影響至關重要,。但獲取這些上下文可能很困難,。
您可能擁有不同的團隊和可觀察性解決方案來管理為業(yè)務服務做出貢獻的不同層級,或者不同的工具生成有用的遙測數據,例如指標,、事件,、日志、跟蹤和拓撲,,但它們在孤島中運行,。也許您沒有環(huán)境中連接的模型?;蛘?,所有關于因果關系、行動和后果的知識都沒有記錄,,而是被鎖定在某人的機構記憶中,。
為了在復雜的環(huán)境中準確快速地查明服務問題的根本原因,您需要深入了解應用程序,、API 和網絡層之間的關鍵路徑和依賴關系級別,。
高性能圖數據庫、動態(tài)服務建模功能和因果 AI 可以幫助您理解和建模不同應用程序,、API 以及網絡和基礎設施層之間的因果關系,。對您的服務進行建模——構建服務可視化以及各種系統和基礎設施組件之間的關系——為故障排除提供了關鍵的上下文,。定義明確的服務為您提供了端到端的視圖,,可以快速識別受影響的節(jié)點,從而更快地進行根本原因分析,。
服務建模的工作原理
假設您擁有 IT 環(huán)境的動態(tài)和協調圖數據庫,,其中所有類型的攝取數據(指標、事件,、日志,、跟蹤、拓撲)都已標準化,,對您的服務進行建模涉及以下步驟:
- 識別您要建模的最終用戶服務,,并將服務詳細信息作為輸入添加到服務建模工具中。應用程序性能監(jiān)控 (APM) 工具可以提供有關軟件組件及其跨云,、主機和容器拓撲關系的特定于應用程序的詳細信息,。基礎設施和網絡監(jiān)控工具以及掃描工具可以詳細說明基礎設施與底層虛擬和物理設備(例如服務器,、數據庫,、交換機、路由器,、防火墻和負載均衡器)的連接,。
- 使用藍圖動態(tài)遍歷所有層,,以自動將應用程序拓撲連接到主機和網絡設備。發(fā)現和監(jiān)控工具可以提供服務藍圖,,以簡化動態(tài)服務模型的創(chuàng)建和維護,。這些服務模型支持微服務、Kubernetes,、云服務、應用程序性能跟蹤和主機等現代技術,,以準確跟蹤所有 IT 資源和關系,。藍圖使表達識別服務所有元素的簡單規(guī)則變得容易。您只需定義一次規(guī)則,,然后將其應用于所需的所有服務,。
- 計算服務的健康評分。了解服務基于服務模型組件中的指標,、異常和事件的當前和歷史健康狀況,,可以幫助您識別健康影響或服務性能下降的根本原因。機器學習 (ML) 算法可以計算健康評分,,因此您可以快速了解問題的范圍,。
如何將 AI 整合到更快的故障排除中
因果 AI 和生成式 AI (GenAI) 等 AI 技術可以通過將原因與結果聯系起來并翻譯根本原因洞察力來幫助加速故障排除過程。真正的AIOps需要一個完整的系統,,該系統旨在通過最終用戶和業(yè)務影響的視角來收集和建模數據,。使用上述過程進行的服務建模使您可以自信地使用 AI 生成可靠的洞察力。
因果 AI 整合了知識圖譜和基于轉換器的 AI 技術,,以理解和建模遙測數據變量之間的關系,。因果 AI 可以使用拓撲數據來推斷因果關系或模式?;谥R圖譜的因果分析分析因果關系如何根據變量相互影響的方式而變化,。
在生產故障排除中使用因果 AI:
- 通過提供事件相關聯方式以及如何識別根本原因的可視化表示,幫助您理解和解釋問題,。
- 通過自動識別之前是否發(fā)生過類似情況,,加速故障排除。如果您已經看到并解決了問題,,則無需再次經歷整個發(fā)現過程,。因果 AI 會對重復出現的情況進行指紋識別,以便將來識別,,從而幫助加快平均恢復時間 (MTTR) 并減少事件噪音,。
GenAI 在故障排除過程中也發(fā)揮著重要作用。它可用于生成:
- 純文本摘要,,與解碼一系列輸出錯誤代碼相比,,可以更快,、更簡單地了解問題。
- 解決問題的最佳行動建議,。
- 對故障排除期間常見問題的解答,。
為了讓 AI 算法提供您信任的結果,數據的質量至關重要,。使用定義明確的服務模型建立正確的基礎至關重要,。
真實世界應用
服務建模已經在服務管理方面產生了重大影響。它減少了調查時間,,幫助您在問題影響業(yè)務之前看到并響應問題,。
以下是如何使用服務建模來實現更快地根本原因分析、持續(xù)優(yōu)化和持續(xù)合規(guī)性的示例,。
根本原因分析:通過將服務依賴關系建模為協調的拓撲結構,,您可以隔離問題的根本原因,無論它是:
- 應用程序軟件組件:不影響基礎設施,。
- 網絡:影響基礎設施和應用程序,。
- 大型機數據庫:影響分布式應用程序。
容量優(yōu)化:通過分析服務之間的交互,,服務建??梢蕴峁┯嘘P如何根據不斷變化的業(yè)務需求調整 IT 資源規(guī)模和對其進行對齊的見解。當與 AI 一起使用來分析瓶頸并推薦最小化風險和成本的領域時,,您可以持續(xù)優(yōu)化 IT 環(huán)境的性能,。
持續(xù)合規(guī)性:收集和建模 IT 資產、服務和關系提供最新信息和流程,,以滿足安全和監(jiān)管合規(guī)性要求,。與其追逐各個開發(fā)人員來記錄正在運行的內容及其位置,不如通過自動發(fā)現和服務建模來領先于不斷增長的風險和復雜性,。
毫無疑問,,AI 將繼續(xù)在可觀察性中發(fā)揮重要作用。它可以利用正確的情境數據極大地加速故障排除工作流程并提高效率,。
本文在云云眾生(https://yylives.cc/)首發(fā),,歡迎大家訪問。
免責聲明:本文來自網絡收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經贊同其觀點或證實其描述,版權歸原作者所有,。轉載請注明出處:http://lequren.com/1116192.html
溫馨提示:投資有風險,,入市須謹慎。本資訊不作為投資理財建議,。