一、智能体功能模块:覆盖运维全场景闭环
围绕运维核心场景,构建 7 大智能体,实现全流程智能化:
1. 知识智能体:搭建运维知识全生命周期管理体系
◦ 知识导入与预处理:开发自动化工具拆分文档、对接现有系统批量导入,支持人工审核;
◦ 专题知识库建设:聚焦变更审核、应急预案等场景,同步建设厂商产品知识库;
◦ 知识准确性提升:集成 OCR、知识图谱、FAISS 向量库与 RAG 技术,自动验证优化知识库;
◦ 知识管理运营:支持版本管理与全生命周期追踪,记录知识创建、审核等日志。
1. 变更智能体:升级 ITSM 流程智能化水平
◦ 变更合规性预审:对接知识库与 ITSM 数据,AI 自动校验变更要素合规性;
◦ 审批辅助简报:结构化分析变更内容,生成含核心信息的简报并支持 Word 下载;
◦ 变更摘要汇总:按变更类型分类分析,自动生成数量、风险等级等维度摘要;
◦ 变更总结归档:变更关单后自动生成总结报告,同步归档至知识库。
1. 巡检智能体:打造自动化、场景化巡检体系
◦ 巡检需求识别:通过自然语言对话明确运维角色与场景,生成巡检流程;
◦ 巡检工具调度:集成 MCP server、SSH 等工具,对接现有平台执行自动化巡检;
◦ 巡检报告生成:利用大模型(如 Qwen 2.5:32B)输出含异常事项的巡检报告。
1. 故障分析智能体:构建运维可观测与智能诊断能力
◦ 智能可观测场景开发:实现故障范围自动定位、应急预案自动匹配;
◦ 场景数据建模:纳管多类运维数据,构建适配架构的数据模型,汇聚关键事件;
◦ 运维数据治理:深化指标与日志采集,补齐元数据,提升数据质量。
1. 问数智能体:实现运维数据智能交互
◦ 自然语言交互:将自然语言转化为结构化查询,支持数据双向交互;
◦ 即时报表生成:生成表格与可视化图表,将报表获取时间从天级缩至分钟级;
◦ 高阶统计分析:支持多维度分析、业务黑话解析等,辅助运维决策。
1. 容量分析智能体:支撑资源智能管控
◦ 资源需求预测:基于历史与可观测数据,预测不同负载下的资源使用趋势;
◦ 资源关联分析:明确资源与业务指标、系统事件的关联关系;
◦ 资源优化策略:结合业务目标生成最优资源调整方案。
1. 报告智能体:实现运维报告自动化生成
◦ 多类型报告支持:自动生成变更评审、周 / 月 / 季度、故障分析等报告;
◦ 生成流程自动化:对接运维数据与文档,支持 Markdown 转 Word 及在线编辑;
◦ 标准化与个性化:定义规范模板,按用户角色调整报告详略程度。
二、基础技术平台模块:支撑智能运维能力落地
从模型、AI 工具、数据三个维度搭建支撑平台:
1. 大模型底座建设
◦ 模型选型与适配:集成垂类(如 Baichuan-13B)与基础模型(如 Qwen),支持国产海光 DCU 部署,合并微调 Embedding 与基础模型;
◦ 模型优化能力:通过 Prompt Engineering 改善表现,支持按运维场景优化模型输出。
1. AI 技术平台支撑
◦ 平台工具集成:集成 Coze、Qwen-agent 等,支持智能体编排,定义智能体角色与操作约束;
◦ 工具调用能力:构建 Tool List(如 CMDB 查询、SQL 生成 / 优化工具),实现与现有运维平台交互。
1. 数据与向量库支撑
◦ 向量库部署与管理:部署 FAISS 向量库,提供元数据过滤功能,提升检索精准度;
◦ 数据服务能力:建设日志、指标、链路数据服务,对接 GitOps、Wiki 系统。
三、安全与合规模块:保障运维操作与数据安全
从数据与操作双维度建立安全机制:
• 数据访问安全:建立权限管控机制,按用户角色分配数据查询、修改权限,防止敏感数据泄露;
• 运维操作安全:记录智能体自动化操作日志并审计,支持操作回滚,降低误操作风险。