Hermes Agent ComfyUI Skill：让 AI 智能体一键管理媒体生成工作流

Hermes Agent 正式支持 ComfyUI Skill，意味着 AI 智能体现在可以自动安装、启动、管理 ComfyUI，并通过参数注入执行复杂的媒体生成工作流。这条推文获得了超过 32 万次查看和 3000 多次点赞。这不只是新增一个功能插件，而是 AI Agent 能力边界的一次重要拓展。

正在加载视频...

Hermes Agent 与 ComfyUI：为什么这次集成值得关注

Hermes Agent 是 NousResearch 开发的开源 AI Agent 框架（MIT 协议），截至 2026 年 4 月已积累超过 50K GitHub Stars、19K Forks。它的核心特性包括持久记忆（Persistent Memory）、技能自沉淀（Skill Auto-Discovery）——Agent 在完成复杂任务后会自动将经验沉淀为可复用的技能——以及多平台消息网关，支持 Telegram、Discord、Slack 等 15+ 通讯平台，一条命令切换 200+ 模型。

ComfyUI 是目前最灵活的开源媒体生成工具，通过节点化工作流（Node-based Workflow）将 Stable Diffusion、SDXL、Flux、WAN Video、Hunyuan Video 等模型编排在一起。它的核心优势在于可组合性（Composability）——你可以像搭积木一样将不同的生成节点拼装为完整管线，从文生图到图生图、从放大到修复、从视频生成到音频合成。ComfyUI 拥有庞大的社区生态，数千个自定义节点和工作流可以自由组合。

两者的结合解决了一个关键问题：过去 ComfyUI 的工作流高度依赖手动操作——打开界面、加载工作流、调整参数、点击执行。Hermes Agent 的 ComfyUI Skill 将这些步骤完全自动化，AI 智能体可以直接接管整个媒体生成流程，从环境准备到结果输出。

技能架构：双层设计

ComfyUI Skill 采用了清晰的双层架构，这一设计体现了务实的工程哲学：

第一层：comfy-cli（官方生命周期工具）

负责 ComfyUI 的安装、启动/停止、自定义节点和模型管理。所有操作通过官方 comfy-cli 完成：

comfy --skip-prompt install --nvidia    # NVIDIA GPU 安装
comfy launch --background                # 后台启动守护进程
comfy node install comfyui-impact-pack   # 安装自定义节点
comfy model download --url <url> --relative-path models/checkpoints  # 下载模型
comfy model list                         # 列出已安装模型
comfy node show installed                # 列出已安装节点

第二层：REST/WebSocket API + 辅助脚本

负责工作流执行、参数注入和运行监控。这一层填补了 comfy-cli 在执行端的空白——CLI 擅长安装运维，但执行工作流需要更细粒度的控制：

# 提取工作流可控制参数
python3 scripts/extract_schema.py workflow_api.json

# 注入参数并执行
python3 scripts/run_workflow.py \
  --workflow workflow_api.json \
  --args '{"prompt": "a sunset over mountains", "seed": -1, "steps": 30}' \
  --output-dir ./outputs

这个设计很务实：工具链擅长的事交给工具链（安装、运维），AI 擅长的事交给 AI（参数决策、流程编排、结果判断）。

Skill 的目录结构也体现了这一点：

comfyui/
├── references/              # 参考文档
│   ├── official-cli.md      # comfy-cli 命令全集
│   ├── rest-api.md          # REST + WebSocket API 文档
│   └── workflow-format.md   # 工作流 JSON 格式说明
├── scripts/                 # 11 个辅助脚本
│   ├── hardware_check.py    # 硬件检测
│   ├── comfyui_setup.sh     # 一键安装
│   ├── run_workflow.py      # 工作流执行
│   ├── run_batch.py         # 批量执行
│   ├── check_deps.py        # 依赖检查
│   ├── auto_fix_deps.py     # 自动修复
│   ├── ws_monitor.py        # 实时 WebSocket 监控
│   ├── health_check.py      # 健康检查
│   └── ...
├── workflows/               # 示例工作流（SD1.5、SDXL、Flux 等）
└── tests/

快速上手：从环境检测到第一次生成

Skill 配套了 11 个辅助脚本和一个一键安装脚本，开箱即用的流程非常清晰：

1. 环境检测——决定本地还是云端

python3 scripts/hardware_check.py

自动检测 GPU、VRAM、磁盘空间，输出 verdict：

ok：≥8GB VRAM 或 ≥32GB Apple Silicon 统一内存 → 推荐本地安装
marginal：SD1.5 可用，SDXL 勉强，Flux/视频不行 → 轻量工作流可用
cloud：无可用 GPU 或低于最低要求 → 推荐 Comfy Cloud

如果 verdict 是 cloud，脚本会建议用户转向云端方案，而不是强行安装导致 OOM。

2. 本地安装 vs Comfy Cloud

Skill 支持五条安装路径：

场景	推荐路径
无 GPU 或想零配置	Path A：Comfy Cloud（RTX 6000 Pro 托管）
Windows + NVIDIA + 非技术用户	Path B：ComfyUI Desktop（一键安装）
Windows + NVIDIA + 技术用户	Path C：Portable 或 Path D：comfy-cli
Linux + 任意 GPU	Path D：comfy-cli
macOS + Apple Silicon	Path B：Desktop 或 Path D：comfy-cli

最省心的方式是一键脚本：

bash scripts/comfyui_setup.sh

它自动运行硬件检测、安装 comfy-cli（优先 pipx/uvx 避免污染系统 Python）、安装 ComfyUI、启动守护进程并验证。

3. 检查工作流依赖

python3 scripts/check_deps.py my_workflow.json
python3 scripts/auto_fix_deps.py my_workflow.json   # 自动修复

检测工作流依赖的节点、模型、嵌入文件是否已安装，缺失的可以一键补全。按名匹配是大小写敏感的，但 check_deps.py 做了带/不带扩展名和前导目录的模糊匹配。

4. 执行生成

python3 scripts/run_workflow.py \
  --workflow workflows/sd15_txt2img.json \
  --args '{"prompt": "a beautiful landscape", "seed": -1}' \
  --output-dir ./outputs \
  --ws    # 实时 WebSocket 进度

种子设为 -1 会自动生成随机种子，--ws 通过 WebSocket 实时查看执行进度。所有输出文件路径以 JSON 格式返回，方便 Agent 后续处理。

高阶能力：批量、云端与进阶工作流

除了基础的单次生成，Skill 还覆盖了生产环境中常见的复杂场景：

批量生成与参数扫描

python3 scripts/run_batch.py \
  --workflow sdxl.json \
  --args '{"prompt": "abstract art"}' \
  --count 8 --randomize-seed --parallel 3 \
  --output-dir ./outputs/batch

一次提交多个任务，支持并发执行，并行数取决于 Comfy Cloud 套餐等级（免费/标准 1 个、Creator 3 个、Pro 5 个）。适合风格探索和参数调优。

图生图与局部重绘

python3 scripts/run_workflow.py \
  --workflow sdxl_img2img.json \
  --input-image image=./photo.png \
  --args '{"prompt": "make it watercolor", "denoise": 0.6}"

--input-image 上传参考图并自动注入工作流。支持同时传入图像和遮罩，实现局部重绘。

Comfy Cloud 云端执行

没有 GPU 或者想在更强大的硬件上运行？Skill 同样支持 Comfy Cloud：

export COMFY_CLOUD_API_KEY="comfyui-xxx"
python3 scripts/run_workflow.py \
  --workflow flux_dev_txt2img.json \
  --args '{"prompt": "..."}' \
  --host https://cloud.comfy.org \
  --output-dir ./outputs

Skill 自动处理本地 API 与 Cloud API 的端点差异（如 Cloud 上 /history 重命名为 /history_v2、模型路径前缀不同等），对用户透明。

队列与系统管理

curl -X POST http://127.0.0.1:8188/interrupt     # 取消运行中的任务
curl -X POST http://127.0.0.1:8188/free           # 释放 GPU 内存

注意事项与常见陷阱

在实际使用中，有几个容易踩坑的地方值得注意：

工作流必须是 API 格式：ComfyUI 的编辑器格式（带 nodes 和 links 顶层数组）不能直接执行，需要在 ComfyUI 界面中用 Workflow → Export (API) 导出
服务端必须运行中：所有执行命令都需要 ComfyUI 服务器在后台运行，用 comfy launch --background 启动
模型名称精确匹配：大小写敏感，含文件扩展名，用 comfy model list 查看已安装的准确名称
视频/音频工作流超时：Skill 自动检测输出节点类型，视频工作流默认超时从 300 秒延长到 900 秒
工作流 JSON 本质上是代码：自定义节点运行 Python，提交来源不明的工作流有安全风险，建议检查后再执行
Cloud 免费版限制：免费套餐的 API 端点返回 403，健康检查脚本可以优雅处理并给出清晰提示

对 AI Agent 生态的意义

ComfyUI Skill 的出现，标志着 AI Agent 的能力正在从"理解与生成文本"向"理解和编排复杂工具链"演进。过去 Agent 能做的事受限于 API 的可用性——网站不提供 API，Agent 就无法访问。ComfyUI 虽然有 API，但其工作流的组合复杂性、节点依赖和模型管理，对人工操作都是门槛，对 Agent 更是如此。

这套 Skill 通过将 ComfyUI 的操作封装为标准化的脚本接口，让 Agent 可以像调用函数一样编排媒体生成管线。这背后是一个更重要的趋势：AI Agent 的互操作性（Interoperability）正在从 API 层面下沉到工具层面。不再要求每个工具都提供 AI 友好的接口，而是通过 Skill 这样的适配层，让 AI 学会使用人类已有的工具。