知识引擎/Hermes 知识引擎/使用语音模式

返回分馆所属主题：教程与指南更新于 2026年4月16日官方来源

本指南是语音模式功能参考的实用配套指南。如果说功能页面解释了语音模式能做什么，那么本指南则展示如何真正用好它。语音模式在以下情况特别有用：你想要免手操作的 CLI 工作流你想在 Telegram 或 Discord 中获得语音回复你想让 Hermes 坐在 Discord 语音频道中进行实时对话

使用语音模式

> 📖 本文档翻译自 Hermes Agent 官方文档 > 最后更新：2026-04-16

在 Hermes 中使用语音模式

本指南是语音模式功能参考的实用配套指南。

如果说功能页面解释了语音模式能做什么，那么本指南则展示如何真正用好它。

语音模式适用场景

语音模式在以下情况特别有用：

你想要免手操作的 CLI 工作流
你想在 Telegram 或 Discord 中获得语音回复
你想让 Hermes 坐在 Discord 语音频道中进行实时对话
你想要在走动时快速捕捉想法、调试或来回讨论，而不是打字

选择你的语音模式设置

Hermes 中实际上有三种不同的语音体验。

模式	最适合	平台
交互式麦克风循环	编码或研究时的个人免手操作使用	CLI
聊天中的语音回复	与正常消息并列的语音回复	Telegram、Discord
实时语音频道机器人	在语音频道中的群组或个人实时对话	Discord 语音频道

一个好的路径是：

先让文本模式正常工作
其次启用语音回复
最后如果你想要完整体验，再尝试 Discord 语音频道

步骤 1：确保普通 Hermes 先正常工作

在接触语音模式之前，验证：

Hermes 能启动
你的提供商已配置
agent 能正常回答文本提示

hermes

问一些简单的问题：

What tools do you have available?

如果这些都还没搞定，先修复文本模式。

步骤 2：安装正确的附加组件

CLI 麦克风 + 播放

pip install "hermes-agent[voice]"

消息平台

pip install "hermes-agent[messaging]"

高级 ElevenLabs TTS

pip install "hermes-agent[tts-premium]"

本地 NeuTTS（可选）

python -m pip install -U neutts[all]

全部安装

pip install "hermes-agent[all]"

步骤 3：安装系统依赖

macOS

brew install portaudio ffmpeg opus
brew install espeak-ng

Ubuntu / Debian

sudo apt install portaudio19-dev ffmpeg libopus0
sudo apt install espeak-ng

为什么这些很重要：

portaudio → CLI 语音模式的麦克风输入/播放
ffmpeg → TTS 和消息传递的音频转换
opus → Discord 语音编解码器支持
espeak-ng → NeuTTS 的音素化后端

步骤 4：选择 STT 和 TTS 提供商

Hermes 同时支持本地和云端语音处理栈。

最简单/最便宜的设置

使用本地 STT 和免费的 Edge TTS：

STT 提供商：local
TTS 提供商：edge

这通常是最好的起点。

环境文件示例

添加到 ~/.hermes/.env：

# Cloud STT options (local needs no key)
GROQ_API_KEY=***
VOICE_TOOLS_OPENAI_KEY=***

# Premium TTS (optional)
ELEVENLABS_API_KEY=***

提供商推荐

语音转文字

local → 隐私和零成本使用的最佳默认选择
groq → 非常快的云端转录
openai → 好的付费备选

文字转语音

edge → 免费且对大多数用户足够好
neutts → 免费的本地/设备端 TTS
elevenlabs → 最佳质量
openai → 好的中间选择
mistral → 多语言，原生 Opus

如果你使用 `hermes setup`

如果你在设置向导中选择了 NeuTTS，Hermes 会检查 neutts 是否已安装。如果缺失，向导会告诉你 NeuTTS 需要 Python 包 neutts 和系统包 espeak-ng，并提供为你安装，使用平台包管理器安装 espeak-ng，然后运行：

python -m pip install -U neutts[all]

如果你跳过安装或安装失败，向导会回退到 Edge TTS。

步骤 5：推荐配置

voice:
  record_key: "ctrl+b"
  max_recording_seconds: 120
  auto_tts: false
  silence_threshold: 200
  silence_duration: 3.0

stt:
  provider: "local"
  local:
    model: "base"

tts:
  provider: "edge"
  edge:
    voice: "en-US-AriaNeural"

这对大多数人来说是一个好的保守默认设置。

如果你想要本地 TTS，将 tts 块改为：

tts:
  provider: "neutts"
  neutts:
    ref_audio: ''
    ref_text: ''
    model: neuphonic/neutts-air-q4-gguf
    device: cpu

用例 1：CLI 语音模式

开启语音模式

启动 Hermes：

hermes

在 CLI 中：

/voice on

录音流程

默认按键：

Ctrl+B

工作流程：

按下 Ctrl+B
说话
等待静音检测自动停止录音
Hermes 转录并响应
如果 TTS 开启，它会朗读回答
循环可以自动重启以实现连续使用

常用命令

/voice
/voice on
/voice off
/voice tts
/voice status

好的 CLI 工作流

随手调试

说：

I keep getting a docker permission error. Help me debug it.

然后免手继续：

"Read the last error again"
"Explain the root cause in simpler terms"
"Now give me the exact fix"

研究/头脑风暴

适合：

走动时思考
口述半成形的想法
让 Hermes 实时整理你的思路

无障碍/低打字场景

如果打字不方便，语音模式是保持在完整 Hermes 工作流中最快的方式之一。

调优 CLI 行为

静音阈值

如果 Hermes 过于积极地开始/停止，调整：

voice:
  silence_threshold: 250

阈值越高 = 灵敏度越低。

静音时长

如果你在句子之间停顿很多，增加：

voice:
  silence_duration: 4.0

录音按键

如果 Ctrl+B 与你的终端或 tmux 习惯冲突：

voice:
  record_key: "ctrl+space"

用例 2：Telegram 或 Discord 中的语音回复

这种模式比完整的语音频道更简单。

Hermes 保持为普通聊天机器人，但可以用语音回复。

启动网关

hermes gateway

开启语音回复

在 Telegram 或 Discord 中：

/voice on

或者

/voice tts

模式

模式	含义
`off`	仅文本
`voice_only`	仅在用户发送语音时才语音回复
`all`	每条回复都语音

何时使用哪种模式

如果你只想要针对语音消息的语音回复，使用 /voice on
如果你想要一个全时段的语音助手，使用 /voice tts

好的消息工作流

手机上的 Telegram 助手

适合：

你不在电脑旁
你想发送语音便签并获得快速的语音回复
你想让 Hermes 像一个便携式研究或运维助手

带语音输出的 Discord 私信

当你想要私密交互而不需要服务器频道提及行为时很有用。

用例 3：Discord 语音频道

这是最进阶的模式。

Hermes 加入 Discord 语音频道，监听用户语音，转录它，运行正常的 agent 管道，并将回复语音播回到频道中。

必需的 Discord 权限

除了正常的文本机器人设置外，确保机器人拥有：

连接
说话
最好还有使用语音活动

同时在开发者门户中启用特权意图：

Presence Intent
Server Members Intent
Message Content Intent

加入和离开

在机器人所在的 Discord 文本频道中：

/voice join
/voice leave
/voice status

加入后会发生什么

用户在语音频道中说话
Hermes 检测语音边界
转录内容发布到关联的文本频道
Hermes 以文本和音频回复
文本频道是发出 /voice join 命令的那个

Discord 语音频道使用的最佳实践

保持 DISCORD_ALLOWED_USERS 范围紧凑
一开始使用专门的机器人/测试频道
在尝试语音频道模式之前，先验证 STT 和 TTS 在普通文本聊天语音模式中正常工作

语音质量推荐

最佳质量设置

STT：本地 large-v3 或 Groq whisper-large-v3
TTS：ElevenLabs

最佳速度/便利性设置

STT：本地 base 或 Groq
TTS：Edge

最佳零成本设置

STT：本地
TTS：Edge

常见故障模式

"找不到音频设备"

安装 portaudio。

"机器人加入了但什么也听不到"

检查：

你的 Discord 用户 ID 在 DISCORD_ALLOWED_USERS 中
你没有静音
特权意图已启用
机器人拥有连接/说话权限

"能转录但不说话"

检查：

TTS 提供商配置
ElevenLabs 或 OpenAI 的 API 密钥/配额
Edge 转换路径的 ffmpeg 安装

"Whisper 输出乱码"

尝试：

更安静的环境
更高的 silence_threshold
不同的 STT 提供商/模型
更短、更清晰的语句

"在私信中有效但在服务器频道中无效"

这通常是提及策略的问题。

默认情况下，除非另有配置，机器人在 Discord 服务器文本频道中需要 @mention。

建议的第一周设置

如果你想要最短的成功路径：

让文本模式的 Hermes 正常工作
安装 hermes-agent[voice]
使用本地 STT + Edge TTS 的 CLI 语音模式
然后在 Telegram 或 Discord 中启用 /voice on
只有在那之后，才尝试 Discord 语音频道模式

这个渐进过程可以保持调试面最小。

延伸阅读

Continue Exploring

继续探索

这不是课程式的上一篇下一篇，而是从当前节点向外继续漫游。

核心功能

语音模式 (Voice Mode)

Hermes Agent supports full voice interaction across CLI and messaging platforms. Talk to the agent using your microphone, hear spoken replies, and have live voi

消息平台

Discord

Hermes Agent integrates with Discord as a bot, letting you chat with your AI assistant through direct messages or server channels. The bot receives your message

消息平台

Hermes Agent integrates with Telegram as a full-featured conversational bot. Once connected, you can chat with your agent from any device, send voice memos that

教程与指南

技巧与最佳实践

一份实用技巧速查集合，让你立刻更高效地使用 Hermes Agent。每个部分针对不同的方面——浏览标题，跳转到你需要的内容。模糊的提示产生模糊的结果。不要说"修复代码"，而要说"修复 api/handlers.py 第 47 行的 TypeError — process request() 函数从 parse bo

教程与指南

在 Mac 上运行本地 LLM

本指南带你了解如何在 macOS 上运行本地 LLM 服务器（提供 OpenAI 兼容 API）。你将获得完全的隐私、零 API 费用，以及在 Apple Silicon 上出人意料的好性能。我们介绍两种后端：两者都提供 OpenAI 兼容的 /v1/chat/completions 端点。Hermes 可以配合其

教程与指南

教程：每日简报机器人

在本教程中，你将构建一个个人简报机器人——它每天早上自动启动，研究你关心的话题，总结发现的内容，并将简洁的简报直接发送到你的 Telegram 或 Discord。完成后，你将拥有一个完全自动化的工作流，结合了网络搜索、计划任务（Cron）、任务委派和消息投递 ——无需编写任何代码。

Guides

教程与指南

从实践用法、最佳实践到真实工作流模板，适合直接照着走一遍。

16 篇文档16 个节点

当前节点

使用语音模式

返回分馆回到知识引擎

同主题继续探索

技巧与最佳实践

在 Mac 上运行本地 LLM

教程：每日简报机器人

教程：团队 Telegram 助手

本教程将引导你设置一个由 Hermes Agent 驱动的 Telegram Bot，供多个团队成员使用。完成后，你的团队将拥有一个共享的 AI 助手，他们可以通过消息请求帮助处理代码、研究、系统管理和任何事情——并通过用户级授权确保安全。一个 Telegram Bot，具备以下功能：

作为 Python 库使用

Hermes 不仅仅是一个 CLI 工具。你可以直接导入 AIAgent，在自己的 Python 脚本、Web 应用或自动化流水线中以编程方式使用它。本指南将向你展示如何操作。直接从仓库安装 Hermes：或者使用 uv：你也可以将其固定在 requirements.txt 中：

使用 MCP

本指南展示如何在实际日常工作流中使用 MCP 与 Hermes Agent。如果说功能页面解释了 MCP 是什么，那么本指南则是关于如何快速、安全地从中获取价值。在以下情况使用 MCP：已有 MCP 形式的工具，且你不想自己构建 Hermes 原生工具你想让 Hermes 通过干净的 RPC 层操作本地或远程系

使用语音模式

在 Hermes 中使用语音模式

语音模式适用场景

选择你的语音模式设置

步骤 1：确保普通 Hermes 先正常工作

步骤 2：安装正确的附加组件

CLI 麦克风 + 播放

消息平台

高级 ElevenLabs TTS

本地 NeuTTS（可选）

全部安装

步骤 3：安装系统依赖

macOS

Ubuntu / Debian

步骤 4：选择 STT 和 TTS 提供商

最简单/最便宜的设置

环境文件示例

提供商推荐

语音转文字

文字转语音

如果你使用 hermes setup

步骤 5：推荐配置

用例 1：CLI 语音模式

开启语音模式

录音流程

常用命令

好的 CLI 工作流

随手调试

研究/头脑风暴

无障碍/低打字场景

调优 CLI 行为

静音阈值

静音时长

录音按键

用例 2：Telegram 或 Discord 中的语音回复

启动网关

开启语音回复

模式

何时使用哪种模式

好的消息工作流

手机上的 Telegram 助手

带语音输出的 Discord 私信

用例 3：Discord 语音频道

必需的 Discord 权限

加入和离开

加入后会发生什么

Discord 语音频道使用的最佳实践

语音质量推荐

最佳质量设置

最佳速度/便利性设置

最佳零成本设置

常见故障模式

"找不到音频设备"

"机器人加入了但什么也听不到"

"能转录但不说话"

"Whisper 输出乱码"

"在私信中有效但在服务器频道中无效"

建议的第一周设置

延伸阅读

继续探索

语音模式 (Voice Mode)

Discord

Telegram

技巧与最佳实践

在 Mac 上运行本地 LLM

教程：每日简报机器人

教程与指南

知识引擎 AI 问答

如果你使用 `hermes setup`