最新内容/Hermes Agent ComfyUI Skill:让 AI 智能体一键管理媒体生成工作流
AI 工具 · 公开文章

Hermes Agent ComfyUI Skill:让 AI 智能体一键管理媒体生成工作流

NousResearch 为 Hermes Agent 推出了 ComfyUI Skill,让 AI 智能体能够自动安装、启动、管理 ComfyUI 节点和模型,并通过参数注入执行图像、视频、音频生成工作流。本文深入解读这一技能的能力、架构和使用方式。

2026年5月1日Hermes AgentComfyUIAI Agent媒体生成工作流自动化

Hermes Agent 正式支持 ComfyUI Skill,意味着 AI 智能体现在可以自动安装、启动、管理 ComfyUI,并通过参数注入执行复杂的媒体生成工作流。这条推文获得了超过 32 万次查看和 3000 多次点赞。这不只是新增一个功能插件,而是 AI Agent 能力边界的一次重要拓展。

image

正在加载视频...

Hermes Agent 与 ComfyUI:为什么这次集成值得关注

Hermes Agent 是 NousResearch 开发的开源 AI Agent 框架(MIT 协议),截至 2026 年 4 月已积累超过 50K GitHub Stars、19K Forks。它的核心特性包括持久记忆(Persistent Memory)技能自沉淀(Skill Auto-Discovery)——Agent 在完成复杂任务后会自动将经验沉淀为可复用的技能——以及多平台消息网关,支持 Telegram、Discord、Slack 等 15+ 通讯平台,一条命令切换 200+ 模型。

ComfyUI 是目前最灵活的开源媒体生成工具,通过节点化工作流(Node-based Workflow)将 Stable Diffusion、SDXL、Flux、WAN Video、Hunyuan Video 等模型编排在一起。它的核心优势在于可组合性(Composability)——你可以像搭积木一样将不同的生成节点拼装为完整管线,从文生图到图生图、从放大到修复、从视频生成到音频合成。ComfyUI 拥有庞大的社区生态,数千个自定义节点和工作流可以自由组合。

两者的结合解决了一个关键问题:过去 ComfyUI 的工作流高度依赖手动操作——打开界面、加载工作流、调整参数、点击执行。Hermes Agent 的 ComfyUI Skill 将这些步骤完全自动化,AI 智能体可以直接接管整个媒体生成流程,从环境准备到结果输出。

技能架构:双层设计

ComfyUI Skill 采用了清晰的双层架构,这一设计体现了务实的工程哲学:

第一层:comfy-cli(官方生命周期工具)

负责 ComfyUI 的安装、启动/停止、自定义节点和模型管理。所有操作通过官方 comfy-cli 完成:

comfy --skip-prompt install --nvidia    # NVIDIA GPU 安装
comfy launch --background                # 后台启动守护进程
comfy node install comfyui-impact-pack   # 安装自定义节点
comfy model download --url <url> --relative-path models/checkpoints  # 下载模型
comfy model list                         # 列出已安装模型
comfy node show installed                # 列出已安装节点

第二层:REST/WebSocket API + 辅助脚本

负责工作流执行、参数注入和运行监控。这一层填补了 comfy-cli 在执行端的空白——CLI 擅长安装运维,但执行工作流需要更细粒度的控制:

# 提取工作流可控制参数
python3 scripts/extract_schema.py workflow_api.json

# 注入参数并执行
python3 scripts/run_workflow.py \
  --workflow workflow_api.json \
  --args '{"prompt": "a sunset over mountains", "seed": -1, "steps": 30}' \
  --output-dir ./outputs

这个设计很务实:工具链擅长的事交给工具链(安装、运维),AI 擅长的事交给 AI(参数决策、流程编排、结果判断)。

Skill 的目录结构也体现了这一点:

comfyui/
├── references/              # 参考文档
│   ├── official-cli.md      # comfy-cli 命令全集
│   ├── rest-api.md          # REST + WebSocket API 文档
│   └── workflow-format.md   # 工作流 JSON 格式说明
├── scripts/                 # 11 个辅助脚本
│   ├── hardware_check.py    # 硬件检测
│   ├── comfyui_setup.sh     # 一键安装
│   ├── run_workflow.py      # 工作流执行
│   ├── run_batch.py         # 批量执行
│   ├── check_deps.py        # 依赖检查
│   ├── auto_fix_deps.py     # 自动修复
│   ├── ws_monitor.py        # 实时 WebSocket 监控
│   ├── health_check.py      # 健康检查
│   └── ...
├── workflows/               # 示例工作流(SD1.5、SDXL、Flux 等)
└── tests/

快速上手:从环境检测到第一次生成

Skill 配套了 11 个辅助脚本和一个一键安装脚本,开箱即用的流程非常清晰:

1. 环境检测——决定本地还是云端

python3 scripts/hardware_check.py

自动检测 GPU、VRAM、磁盘空间,输出 verdict:

  • ok:≥8GB VRAM 或 ≥32GB Apple Silicon 统一内存 → 推荐本地安装
  • marginal:SD1.5 可用,SDXL 勉强,Flux/视频不行 → 轻量工作流可用
  • cloud:无可用 GPU 或低于最低要求 → 推荐 Comfy Cloud

如果 verdict 是 cloud,脚本会建议用户转向云端方案,而不是强行安装导致 OOM。

2. 本地安装 vs Comfy Cloud

Skill 支持五条安装路径:

场景推荐路径
无 GPU 或想零配置Path A:Comfy Cloud(RTX 6000 Pro 托管)
Windows + NVIDIA + 非技术用户Path B:ComfyUI Desktop(一键安装)
Windows + NVIDIA + 技术用户Path C:PortablePath D:comfy-cli
Linux + 任意 GPUPath D:comfy-cli
macOS + Apple SiliconPath B:DesktopPath D:comfy-cli

最省心的方式是一键脚本:

bash scripts/comfyui_setup.sh

它自动运行硬件检测、安装 comfy-cli(优先 pipx/uvx 避免污染系统 Python)、安装 ComfyUI、启动守护进程并验证。

3. 检查工作流依赖

python3 scripts/check_deps.py my_workflow.json
python3 scripts/auto_fix_deps.py my_workflow.json   # 自动修复

检测工作流依赖的节点、模型、嵌入文件是否已安装,缺失的可以一键补全。按名匹配是大小写敏感的,但 check_deps.py 做了带/不带扩展名和前导目录的模糊匹配。

4. 执行生成

python3 scripts/run_workflow.py \
  --workflow workflows/sd15_txt2img.json \
  --args '{"prompt": "a beautiful landscape", "seed": -1}' \
  --output-dir ./outputs \
  --ws    # 实时 WebSocket 进度

种子设为 -1 会自动生成随机种子,--ws 通过 WebSocket 实时查看执行进度。所有输出文件路径以 JSON 格式返回,方便 Agent 后续处理。

高阶能力:批量、云端与进阶工作流

除了基础的单次生成,Skill 还覆盖了生产环境中常见的复杂场景:

批量生成与参数扫描

python3 scripts/run_batch.py \
  --workflow sdxl.json \
  --args '{"prompt": "abstract art"}' \
  --count 8 --randomize-seed --parallel 3 \
  --output-dir ./outputs/batch

一次提交多个任务,支持并发执行,并行数取决于 Comfy Cloud 套餐等级(免费/标准 1 个、Creator 3 个、Pro 5 个)。适合风格探索和参数调优。

图生图与局部重绘

python3 scripts/run_workflow.py \
  --workflow sdxl_img2img.json \
  --input-image image=./photo.png \
  --args '{"prompt": "make it watercolor", "denoise": 0.6}"

--input-image 上传参考图并自动注入工作流。支持同时传入图像和遮罩,实现局部重绘。

Comfy Cloud 云端执行

没有 GPU 或者想在更强大的硬件上运行?Skill 同样支持 Comfy Cloud:

export COMFY_CLOUD_API_KEY="comfyui-xxx"
python3 scripts/run_workflow.py \
  --workflow flux_dev_txt2img.json \
  --args '{"prompt": "..."}' \
  --host https://cloud.comfy.org \
  --output-dir ./outputs

Skill 自动处理本地 API 与 Cloud API 的端点差异(如 Cloud 上 /history 重命名为 /history_v2、模型路径前缀不同等),对用户透明。

队列与系统管理

curl -X POST http://127.0.0.1:8188/interrupt     # 取消运行中的任务
curl -X POST http://127.0.0.1:8188/free           # 释放 GPU 内存

注意事项与常见陷阱

在实际使用中,有几个容易踩坑的地方值得注意:

  • 工作流必须是 API 格式:ComfyUI 的编辑器格式(带 nodeslinks 顶层数组)不能直接执行,需要在 ComfyUI 界面中用 Workflow → Export (API) 导出
  • 服务端必须运行中:所有执行命令都需要 ComfyUI 服务器在后台运行,用 comfy launch --background 启动
  • 模型名称精确匹配:大小写敏感,含文件扩展名,用 comfy model list 查看已安装的准确名称
  • 视频/音频工作流超时:Skill 自动检测输出节点类型,视频工作流默认超时从 300 秒延长到 900 秒
  • 工作流 JSON 本质上是代码:自定义节点运行 Python,提交来源不明的工作流有安全风险,建议检查后再执行
  • Cloud 免费版限制:免费套餐的 API 端点返回 403,健康检查脚本可以优雅处理并给出清晰提示

对 AI Agent 生态的意义

ComfyUI Skill 的出现,标志着 AI Agent 的能力正在从"理解与生成文本"向"理解和编排复杂工具链"演进。过去 Agent 能做的事受限于 API 的可用性——网站不提供 API,Agent 就无法访问。ComfyUI 虽然有 API,但其工作流的组合复杂性、节点依赖和模型管理,对人工操作都是门槛,对 Agent 更是如此。

这套 Skill 通过将 ComfyUI 的操作封装为标准化的脚本接口,让 Agent 可以像调用函数一样编排媒体生成管线。这背后是一个更重要的趋势:AI Agent 的互操作性(Interoperability)正在从 API 层面下沉到工具层面。不再要求每个工具都提供 AI 友好的接口,而是通过 Skill 这样的适配层,让 AI 学会使用人类已有的工具。