Hermes Agent 正式支持 ComfyUI Skill,意味着 AI 智能体现在可以自动安装、启动、管理 ComfyUI,并通过参数注入执行复杂的媒体生成工作流。这条推文获得了超过 32 万次查看和 3000 多次点赞。这不只是新增一个功能插件,而是 AI Agent 能力边界的一次重要拓展。

Hermes Agent 与 ComfyUI:为什么这次集成值得关注
Hermes Agent 是 NousResearch 开发的开源 AI Agent 框架(MIT 协议),截至 2026 年 4 月已积累超过 50K GitHub Stars、19K Forks。它的核心特性包括持久记忆(Persistent Memory)、技能自沉淀(Skill Auto-Discovery)——Agent 在完成复杂任务后会自动将经验沉淀为可复用的技能——以及多平台消息网关,支持 Telegram、Discord、Slack 等 15+ 通讯平台,一条命令切换 200+ 模型。
ComfyUI 是目前最灵活的开源媒体生成工具,通过节点化工作流(Node-based Workflow)将 Stable Diffusion、SDXL、Flux、WAN Video、Hunyuan Video 等模型编排在一起。它的核心优势在于可组合性(Composability)——你可以像搭积木一样将不同的生成节点拼装为完整管线,从文生图到图生图、从放大到修复、从视频生成到音频合成。ComfyUI 拥有庞大的社区生态,数千个自定义节点和工作流可以自由组合。
两者的结合解决了一个关键问题:过去 ComfyUI 的工作流高度依赖手动操作——打开界面、加载工作流、调整参数、点击执行。Hermes Agent 的 ComfyUI Skill 将这些步骤完全自动化,AI 智能体可以直接接管整个媒体生成流程,从环境准备到结果输出。
技能架构:双层设计
ComfyUI Skill 采用了清晰的双层架构,这一设计体现了务实的工程哲学:
第一层:comfy-cli(官方生命周期工具)
负责 ComfyUI 的安装、启动/停止、自定义节点和模型管理。所有操作通过官方 comfy-cli 完成:
comfy --skip-prompt install --nvidia # NVIDIA GPU 安装
comfy launch --background # 后台启动守护进程
comfy node install comfyui-impact-pack # 安装自定义节点
comfy model download --url <url> --relative-path models/checkpoints # 下载模型
comfy model list # 列出已安装模型
comfy node show installed # 列出已安装节点
第二层:REST/WebSocket API + 辅助脚本
负责工作流执行、参数注入和运行监控。这一层填补了 comfy-cli 在执行端的空白——CLI 擅长安装运维,但执行工作流需要更细粒度的控制:
# 提取工作流可控制参数
python3 scripts/extract_schema.py workflow_api.json
# 注入参数并执行
python3 scripts/run_workflow.py \
--workflow workflow_api.json \
--args '{"prompt": "a sunset over mountains", "seed": -1, "steps": 30}' \
--output-dir ./outputs
这个设计很务实:工具链擅长的事交给工具链(安装、运维),AI 擅长的事交给 AI(参数决策、流程编排、结果判断)。
Skill 的目录结构也体现了这一点:
comfyui/
├── references/ # 参考文档
│ ├── official-cli.md # comfy-cli 命令全集
│ ├── rest-api.md # REST + WebSocket API 文档
│ └── workflow-format.md # 工作流 JSON 格式说明
├── scripts/ # 11 个辅助脚本
│ ├── hardware_check.py # 硬件检测
│ ├── comfyui_setup.sh # 一键安装
│ ├── run_workflow.py # 工作流执行
│ ├── run_batch.py # 批量执行
│ ├── check_deps.py # 依赖检查
│ ├── auto_fix_deps.py # 自动修复
│ ├── ws_monitor.py # 实时 WebSocket 监控
│ ├── health_check.py # 健康检查
│ └── ...
├── workflows/ # 示例工作流(SD1.5、SDXL、Flux 等)
└── tests/
快速上手:从环境检测到第一次生成
Skill 配套了 11 个辅助脚本和一个一键安装脚本,开箱即用的流程非常清晰:
1. 环境检测——决定本地还是云端
python3 scripts/hardware_check.py
自动检测 GPU、VRAM、磁盘空间,输出 verdict:
- ok:≥8GB VRAM 或 ≥32GB Apple Silicon 统一内存 → 推荐本地安装
- marginal:SD1.5 可用,SDXL 勉强,Flux/视频不行 → 轻量工作流可用
- cloud:无可用 GPU 或低于最低要求 → 推荐 Comfy Cloud
如果 verdict 是 cloud,脚本会建议用户转向云端方案,而不是强行安装导致 OOM。
2. 本地安装 vs Comfy Cloud
Skill 支持五条安装路径:
| 场景 | 推荐路径 |
|---|---|
| 无 GPU 或想零配置 | Path A:Comfy Cloud(RTX 6000 Pro 托管) |
| Windows + NVIDIA + 非技术用户 | Path B:ComfyUI Desktop(一键安装) |
| Windows + NVIDIA + 技术用户 | Path C:Portable 或 Path D:comfy-cli |
| Linux + 任意 GPU | Path D:comfy-cli |
| macOS + Apple Silicon | Path B:Desktop 或 Path D:comfy-cli |
最省心的方式是一键脚本:
bash scripts/comfyui_setup.sh
它自动运行硬件检测、安装 comfy-cli(优先 pipx/uvx 避免污染系统 Python)、安装 ComfyUI、启动守护进程并验证。
3. 检查工作流依赖
python3 scripts/check_deps.py my_workflow.json
python3 scripts/auto_fix_deps.py my_workflow.json # 自动修复
检测工作流依赖的节点、模型、嵌入文件是否已安装,缺失的可以一键补全。按名匹配是大小写敏感的,但 check_deps.py 做了带/不带扩展名和前导目录的模糊匹配。
4. 执行生成
python3 scripts/run_workflow.py \
--workflow workflows/sd15_txt2img.json \
--args '{"prompt": "a beautiful landscape", "seed": -1}' \
--output-dir ./outputs \
--ws # 实时 WebSocket 进度
种子设为 -1 会自动生成随机种子,--ws 通过 WebSocket 实时查看执行进度。所有输出文件路径以 JSON 格式返回,方便 Agent 后续处理。
高阶能力:批量、云端与进阶工作流
除了基础的单次生成,Skill 还覆盖了生产环境中常见的复杂场景:
批量生成与参数扫描
python3 scripts/run_batch.py \
--workflow sdxl.json \
--args '{"prompt": "abstract art"}' \
--count 8 --randomize-seed --parallel 3 \
--output-dir ./outputs/batch
一次提交多个任务,支持并发执行,并行数取决于 Comfy Cloud 套餐等级(免费/标准 1 个、Creator 3 个、Pro 5 个)。适合风格探索和参数调优。
图生图与局部重绘
python3 scripts/run_workflow.py \
--workflow sdxl_img2img.json \
--input-image image=./photo.png \
--args '{"prompt": "make it watercolor", "denoise": 0.6}"
--input-image 上传参考图并自动注入工作流。支持同时传入图像和遮罩,实现局部重绘。
Comfy Cloud 云端执行
没有 GPU 或者想在更强大的硬件上运行?Skill 同样支持 Comfy Cloud:
export COMFY_CLOUD_API_KEY="comfyui-xxx"
python3 scripts/run_workflow.py \
--workflow flux_dev_txt2img.json \
--args '{"prompt": "..."}' \
--host https://cloud.comfy.org \
--output-dir ./outputs
Skill 自动处理本地 API 与 Cloud API 的端点差异(如 Cloud 上 /history 重命名为 /history_v2、模型路径前缀不同等),对用户透明。
队列与系统管理
curl -X POST http://127.0.0.1:8188/interrupt # 取消运行中的任务
curl -X POST http://127.0.0.1:8188/free # 释放 GPU 内存
注意事项与常见陷阱
在实际使用中,有几个容易踩坑的地方值得注意:
- 工作流必须是 API 格式:ComfyUI 的编辑器格式(带
nodes和links顶层数组)不能直接执行,需要在 ComfyUI 界面中用 Workflow → Export (API) 导出 - 服务端必须运行中:所有执行命令都需要 ComfyUI 服务器在后台运行,用
comfy launch --background启动 - 模型名称精确匹配:大小写敏感,含文件扩展名,用
comfy model list查看已安装的准确名称 - 视频/音频工作流超时:Skill 自动检测输出节点类型,视频工作流默认超时从 300 秒延长到 900 秒
- 工作流 JSON 本质上是代码:自定义节点运行 Python,提交来源不明的工作流有安全风险,建议检查后再执行
- Cloud 免费版限制:免费套餐的 API 端点返回 403,健康检查脚本可以优雅处理并给出清晰提示
对 AI Agent 生态的意义
ComfyUI Skill 的出现,标志着 AI Agent 的能力正在从"理解与生成文本"向"理解和编排复杂工具链"演进。过去 Agent 能做的事受限于 API 的可用性——网站不提供 API,Agent 就无法访问。ComfyUI 虽然有 API,但其工作流的组合复杂性、节点依赖和模型管理,对人工操作都是门槛,对 Agent 更是如此。
这套 Skill 通过将 ComfyUI 的操作封装为标准化的脚本接口,让 Agent 可以像调用函数一样编排媒体生成管线。这背后是一个更重要的趋势:AI Agent 的互操作性(Interoperability)正在从 API 层面下沉到工具层面。不再要求每个工具都提供 AI 友好的接口,而是通过 Skill 这样的适配层,让 AI 学会使用人类已有的工具。