本指南是 语音模式功能参考 的实用配套指南。 如果说功能页面解释了语音模式能做什么,那么本指南则展示如何真正用好它。 语音模式在以下情况特别有用: 你想要免手操作的 CLI 工作流 你想在 Telegram 或 Discord 中获得语音回复 你想让 Hermes 坐在 Discord 语音频道中进行实时对话

使用语音模式

> 📖 本文档翻译自 Hermes Agent 官方文档 > 最后更新:2026-04-16


在 Hermes 中使用语音模式

本指南是 语音模式功能参考 的实用配套指南。

如果说功能页面解释了语音模式能做什么,那么本指南则展示如何真正用好它。

语音模式适用场景

语音模式在以下情况特别有用:

  • 你想要免手操作的 CLI 工作流
  • 你想在 Telegram 或 Discord 中获得语音回复
  • 你想让 Hermes 坐在 Discord 语音频道中进行实时对话
  • 你想要在走动时快速捕捉想法、调试或来回讨论,而不是打字

选择你的语音模式设置

Hermes 中实际上有三种不同的语音体验。

模式最适合平台
交互式麦克风循环编码或研究时的个人免手操作使用CLI
聊天中的语音回复与正常消息并列的语音回复Telegram、Discord
实时语音频道机器人在语音频道中的群组或个人实时对话Discord 语音频道

一个好的路径是:

  1. 先让文本模式正常工作
  2. 其次启用语音回复
  3. 最后如果你想要完整体验,再尝试 Discord 语音频道

步骤 1:确保普通 Hermes 先正常工作

在接触语音模式之前,验证:

  • Hermes 能启动
  • 你的提供商已配置
  • agent 能正常回答文本提示
hermes

问一些简单的问题:

What tools do you have available?

如果这些都还没搞定,先修复文本模式。

步骤 2:安装正确的附加组件

CLI 麦克风 + 播放

pip install "hermes-agent[voice]"

消息平台

pip install "hermes-agent[messaging]"

高级 ElevenLabs TTS

pip install "hermes-agent[tts-premium]"

本地 NeuTTS(可选)

python -m pip install -U neutts[all]

全部安装

pip install "hermes-agent[all]"

步骤 3:安装系统依赖

macOS

brew install portaudio ffmpeg opus
brew install espeak-ng

Ubuntu / Debian

sudo apt install portaudio19-dev ffmpeg libopus0
sudo apt install espeak-ng

为什么这些很重要:

  • portaudio → CLI 语音模式的麦克风输入/播放
  • ffmpeg → TTS 和消息传递的音频转换
  • opus → Discord 语音编解码器支持
  • espeak-ng → NeuTTS 的音素化后端

步骤 4:选择 STT 和 TTS 提供商

Hermes 同时支持本地和云端语音处理栈。

最简单/最便宜的设置

使用本地 STT 和免费的 Edge TTS:

  • STT 提供商:local
  • TTS 提供商:edge

这通常是最好的起点。

环境文件示例

添加到 ~/.hermes/.env

# Cloud STT options (local needs no key)
GROQ_API_KEY=***
VOICE_TOOLS_OPENAI_KEY=***

# Premium TTS (optional)
ELEVENLABS_API_KEY=***

提供商推荐

语音转文字

  • local → 隐私和零成本使用的最佳默认选择
  • groq → 非常快的云端转录
  • openai → 好的付费备选

文字转语音

  • edge → 免费且对大多数用户足够好
  • neutts → 免费的本地/设备端 TTS
  • elevenlabs → 最佳质量
  • openai → 好的中间选择
  • mistral → 多语言,原生 Opus

如果你使用 hermes setup

如果你在设置向导中选择了 NeuTTS,Hermes 会检查 neutts 是否已安装。如果缺失,向导会告诉你 NeuTTS 需要 Python 包 neutts 和系统包 espeak-ng,并提供为你安装,使用平台包管理器安装 espeak-ng,然后运行:

python -m pip install -U neutts[all]

如果你跳过安装或安装失败,向导会回退到 Edge TTS。

步骤 5:推荐配置

voice:
  record_key: "ctrl+b"
  max_recording_seconds: 120
  auto_tts: false
  silence_threshold: 200
  silence_duration: 3.0

stt:
  provider: "local"
  local:
    model: "base"

tts:
  provider: "edge"
  edge:
    voice: "en-US-AriaNeural"

这对大多数人来说是一个好的保守默认设置。

如果你想要本地 TTS,将 tts 块改为:

tts:
  provider: "neutts"
  neutts:
    ref_audio: ''
    ref_text: ''
    model: neuphonic/neutts-air-q4-gguf
    device: cpu

用例 1:CLI 语音模式

开启语音模式

启动 Hermes:

hermes

在 CLI 中:

/voice on

录音流程

默认按键:

  • Ctrl+B

工作流程:

  1. 按下 Ctrl+B
  2. 说话
  3. 等待静音检测自动停止录音
  4. Hermes 转录并响应
  5. 如果 TTS 开启,它会朗读回答
  6. 循环可以自动重启以实现连续使用

常用命令

/voice
/voice on
/voice off
/voice tts
/voice status

好的 CLI 工作流

随手调试

说:

I keep getting a docker permission error. Help me debug it.

然后免手继续:

  • "Read the last error again"
  • "Explain the root cause in simpler terms"
  • "Now give me the exact fix"

研究/头脑风暴

适合:

  • 走动时思考
  • 口述半成形的想法
  • 让 Hermes 实时整理你的思路

无障碍/低打字场景

如果打字不方便,语音模式是保持在完整 Hermes 工作流中最快的方式之一。

调优 CLI 行为

静音阈值

如果 Hermes 过于积极地开始/停止,调整:

voice:
  silence_threshold: 250

阈值越高 = 灵敏度越低。

静音时长

如果你在句子之间停顿很多,增加:

voice:
  silence_duration: 4.0

录音按键

如果 Ctrl+B 与你的终端或 tmux 习惯冲突:

voice:
  record_key: "ctrl+space"

用例 2:Telegram 或 Discord 中的语音回复

这种模式比完整的语音频道更简单。

Hermes 保持为普通聊天机器人,但可以用语音回复。

启动网关

hermes gateway

开启语音回复

在 Telegram 或 Discord 中:

/voice on

或者

/voice tts

模式

模式含义
off仅文本
voice_only仅在用户发送语音时才语音回复
all每条回复都语音

何时使用哪种模式

  • 如果你只想要针对语音消息的语音回复,使用 /voice on
  • 如果你想要一个全时段的语音助手,使用 /voice tts

好的消息工作流

手机上的 Telegram 助手

适合:

  • 你不在电脑旁
  • 你想发送语音便签并获得快速的语音回复
  • 你想让 Hermes 像一个便携式研究或运维助手

带语音输出的 Discord 私信

当你想要私密交互而不需要服务器频道提及行为时很有用。

用例 3:Discord 语音频道

这是最进阶的模式。

Hermes 加入 Discord 语音频道,监听用户语音,转录它,运行正常的 agent 管道,并将回复语音播回到频道中。

必需的 Discord 权限

除了正常的文本机器人设置外,确保机器人拥有:

  • 连接
  • 说话
  • 最好还有使用语音活动

同时在开发者门户中启用特权意图:

  • Presence Intent
  • Server Members Intent
  • Message Content Intent

加入和离开

在机器人所在的 Discord 文本频道中:

/voice join
/voice leave
/voice status

加入后会发生什么

  • 用户在语音频道中说话
  • Hermes 检测语音边界
  • 转录内容发布到关联的文本频道
  • Hermes 以文本和音频回复
  • 文本频道是发出 /voice join 命令的那个

Discord 语音频道使用的最佳实践

  • 保持 DISCORD_ALLOWED_USERS 范围紧凑
  • 一开始使用专门的机器人/测试频道
  • 在尝试语音频道模式之前,先验证 STT 和 TTS 在普通文本聊天语音模式中正常工作

语音质量推荐

最佳质量设置

  • STT:本地 large-v3 或 Groq whisper-large-v3
  • TTS:ElevenLabs

最佳速度/便利性设置

  • STT:本地 base 或 Groq
  • TTS:Edge

最佳零成本设置

  • STT:本地
  • TTS:Edge

常见故障模式

"找不到音频设备"

安装 portaudio

"机器人加入了但什么也听不到"

检查:

  • 你的 Discord 用户 ID 在 DISCORD_ALLOWED_USERS
  • 你没有静音
  • 特权意图已启用
  • 机器人拥有连接/说话权限

"能转录但不说话"

检查:

  • TTS 提供商配置
  • ElevenLabs 或 OpenAI 的 API 密钥/配额
  • Edge 转换路径的 ffmpeg 安装

"Whisper 输出乱码"

尝试:

  • 更安静的环境
  • 更高的 silence_threshold
  • 不同的 STT 提供商/模型
  • 更短、更清晰的语句

"在私信中有效但在服务器频道中无效"

这通常是提及策略的问题。

默认情况下,除非另有配置,机器人在 Discord 服务器文本频道中需要 @mention

建议的第一周设置

如果你想要最短的成功路径:

  1. 让文本模式的 Hermes 正常工作
  2. 安装 hermes-agent[voice]
  3. 使用本地 STT + Edge TTS 的 CLI 语音模式
  4. 然后在 Telegram 或 Discord 中启用 /voice on
  5. 只有在那之后,才尝试 Discord 语音频道模式

这个渐进过程可以保持调试面最小。

延伸阅读

Continue Exploring

继续探索

这不是课程式的上一篇下一篇,而是从当前节点向外继续漫游。

核心功能

语音模式 (Voice Mode)

Hermes Agent supports full voice interaction across CLI and messaging platforms. Talk to the agent using your microphone, hear spoken replies, and have live voi

消息平台

Discord

Hermes Agent integrates with Discord as a bot, letting you chat with your AI assistant through direct messages or server channels. The bot receives your message

消息平台

Telegram

Hermes Agent integrates with Telegram as a full-featured conversational bot. Once connected, you can chat with your agent from any device, send voice memos that

教程与指南

技巧与最佳实践

一份实用技巧速查集合,让你立刻更高效地使用 Hermes Agent。每个部分针对不同的方面——浏览标题,跳转到你需要的内容。 模糊的提示产生模糊的结果。不要说"修复代码",而要说"修复 api/handlers.py 第 47 行的 TypeError — process request() 函数从 parse bo

教程与指南

在 Mac 上运行本地 LLM

本指南带你了解如何在 macOS 上运行本地 LLM 服务器(提供 OpenAI 兼容 API)。你将获得完全的隐私、零 API 费用,以及在 Apple Silicon 上出人意料的好性能。 我们介绍两种后端: 两者都提供 OpenAI 兼容的 /v1/chat/completions 端点。Hermes 可以配合其

教程与指南

教程:每日简报机器人

在本教程中,你将构建一个个人简报机器人——它每天早上自动启动,研究你关心的话题,总结发现的内容,并将简洁的简报直接发送到你的 Telegram 或 Discord。 完成后,你将拥有一个完全自动化的工作流,结合了 网络搜索 、 计划任务(Cron) 、 任务委派 和 消息投递 ——无需编写任何代码。

Guides

教程与指南

从实践用法、最佳实践到真实工作流模板,适合直接照着走一遍。

16 篇文档16 个节点

当前节点

使用语音模式

同主题继续探索

技巧与最佳实践

一份实用技巧速查集合,让你立刻更高效地使用 Hermes Agent。每个部分针对不同的方面——浏览标题,跳转到你需要的内容。 模糊的提示产生模糊的结果。不要说"修复代码",而要说"修复 api/handlers.py 第 47 行的 TypeError — process request() 函数从 parse bo

在 Mac 上运行本地 LLM

本指南带你了解如何在 macOS 上运行本地 LLM 服务器(提供 OpenAI 兼容 API)。你将获得完全的隐私、零 API 费用,以及在 Apple Silicon 上出人意料的好性能。 我们介绍两种后端: 两者都提供 OpenAI 兼容的 /v1/chat/completions 端点。Hermes 可以配合其

教程:每日简报机器人

在本教程中,你将构建一个个人简报机器人——它每天早上自动启动,研究你关心的话题,总结发现的内容,并将简洁的简报直接发送到你的 Telegram 或 Discord。 完成后,你将拥有一个完全自动化的工作流,结合了 网络搜索 、 计划任务(Cron) 、 任务委派 和 消息投递 ——无需编写任何代码。

教程:团队 Telegram 助手

本教程将引导你设置一个由 Hermes Agent 驱动的 Telegram Bot,供多个团队成员使用。完成后,你的团队将拥有一个共享的 AI 助手,他们可以通过消息请求帮助处理代码、研究、系统管理和任何事情——并通过用户级授权确保安全。 一个 Telegram Bot,具备以下功能:

作为 Python 库使用

Hermes 不仅仅是一个 CLI 工具。你可以直接导入 AIAgent,在自己的 Python 脚本、Web 应用或自动化流水线中以编程方式使用它。本指南将向你展示如何操作。 直接从仓库安装 Hermes: 或者使用 uv: 你也可以将其固定在 requirements.txt 中:

使用 MCP

本指南展示如何在实际日常工作流中使用 MCP 与 Hermes Agent。 如果说功能页面解释了 MCP 是什么,那么本指南则是关于如何快速、安全地从中获取价值。 在以下情况使用 MCP: 已有 MCP 形式的工具,且你不想自己构建 Hermes 原生工具 你想让 Hermes 通过干净的 RPC 层操作本地或远程系

相关节点

语音模式 (Voice Mode)

Hermes Agent supports full voice interaction across CLI and messaging platforms. Talk to the agent using your microphone, hear spoken replies, and have live voi

Discord

Hermes Agent integrates with Discord as a bot, letting you chat with your AI assistant through direct messages or server channels. The bot receives your message

Telegram

Hermes Agent integrates with Telegram as a full-featured conversational bot. Once connected, you can chat with your agent from any device, send voice memos that

技巧与最佳实践

一份实用技巧速查集合,让你立刻更高效地使用 Hermes Agent。每个部分针对不同的方面——浏览标题,跳转到你需要的内容。 模糊的提示产生模糊的结果。不要说"修复代码",而要说"修复 api/handlers.py 第 47 行的 TypeError — process request() 函数从 parse bo

在 Mac 上运行本地 LLM

本指南带你了解如何在 macOS 上运行本地 LLM 服务器(提供 OpenAI 兼容 API)。你将获得完全的隐私、零 API 费用,以及在 Apple Silicon 上出人意料的好性能。 我们介绍两种后端: 两者都提供 OpenAI 兼容的 /v1/chat/completions 端点。Hermes 可以配合其

教程:每日简报机器人

在本教程中,你将构建一个个人简报机器人——它每天早上自动启动,研究你关心的话题,总结发现的内容,并将简洁的简报直接发送到你的 Telegram 或 Discord。 完成后,你将拥有一个完全自动化的工作流,结合了 网络搜索 、 计划任务(Cron) 、 任务委派 和 消息投递 ——无需编写任何代码。