🦞
教程

语音模式(对话模式)

使用 ElevenLabs TTS 与 OpenClaw 进行自然语音对话。

🎙️ 什么是对话模式?

对话模式让您能够与 OpenClaw 进行自然语音对话。自然说话,您的 AI 会使用 ElevenLabs 驱动的逼真语音回应。

工作原理:

监听唤醒词或按键对话将语音转录为文字(Whisper)AI 处理(Claude、GPT 等)将回复转换为语音(ElevenLabs)

对话模式需要 ElevenLabs API 密钥用于文字转语音。语音转文字使用 Whisper(OpenAI 或本地)。

要求

ElevenLabs API 密钥

必需

在 elevenlabs.io 注册

平台

macOS、iOS、Android

语音输入需要原生应用

权限

麦克风访问权限

提示时授权

设置步骤

1

获取 ElevenLabs API 密钥

注册 ElevenLabs 并获取您的 API 密钥:

  • 访问 elevenlabs.io 并创建账户
  • 导航到 个人资料 → API 密钥
  • 复制您的 API 密钥
2

配置 OpenClaw

将 ElevenLabs 配置添加到您的 openclaw.json:

{
  "talk": {
    "voiceId": "EXAVITQu4vr4xnSDxMaL",
    "modelId": "eleven_v3",
    "outputFormat": "mp3_44100_128",
    "apiKey": "${ELEVENLABS_API_KEY}",
    "interruptOnSpeech": true
  }
}
3

设置环境变量

或者,将您的 API 密钥设置为环境变量:

export ELEVENLABS_API_KEY="your_api_key_here"
4

启动对话模式

从 OpenClaw 菜单栏应用或 CLI 启用对话模式:

  • 点击 OpenClaw 菜单栏图标
  • 选择 '启动对话模式'
  • 或运行:openclaw talk
完整配置选项

所有可用的语音配置选项:

{
  "talk": {
    "voiceId": "EXAVITQu4vr4xnSDxMaL",
    "modelId": "eleven_v3",
    "outputFormat": "mp3_44100_128",
    "apiKey": "${ELEVENLABS_API_KEY}",
    "interruptOnSpeech": true,
    "stability": 0.5,
    "similarityBoost": 0.75,
    "style": 0.5,
    "speakerBoost": true
  }
}
  • elevenlabs.apiKey您的 ElevenLabs API 密钥
  • elevenlabs.voiceId要使用的语音 ID(默认:Rachel)
  • elevenlabs.model要使用的模型(eleven_monolingual_v1、eleven_multilingual_v2)
  • voice.wakeWord激活的唤醒词(默认:'Hey Claw')
  • voice.pushToTalk使用按键对话而不是唤醒词
  • voice.silenceTimeout停止前的静音秒数(默认:2)
语音别名

轻松切换不同的语音个性。

{
  "talk": {
    "voiceId": "default",
    "voices": {
      "default": "EXAVITQu4vr4xnSDxMaL",
      "professional": "21m00Tcm4TlvDq8ikWAM",
      "friendly": "AZnzlk1XvdvUeBnXmlld",
      "narrator": "pNInz6obpgDQGcFmaJgB"
    }
  }
}

可用语音

默认 (Rachel)

温暖、自然的女声

专业 (Adam)

清晰、权威的男声

友好 (Bella)

休闲、亲切的女声

旁白 (Antoni)

深沉、讲故事的男声

通过说 '使用专业语音' 或在配置中设置来切换语音。

平台功能

macOS
  • 带有快速切换的菜单栏应用
  • 按键对话的全局快捷键
  • 系统音频集成
  • 唤醒词检测
iOS 和 Android
  • 配套应用中的语音输入
  • 后台唤醒词检测
  • 蓝牙耳机支持
  • 触觉反馈
语音指令

使用语音命令控制 OpenClaw:

// Per-reply voice control
{
  "voice": "narrator",
  "speed": 1.1,
  "stability": 0.8
}

This response will be spoken in the narrator voice at slightly faster speed.

可用命令

  • 停止停止当前语音播放
  • 暂停暂停并等待更多输入
  • 取消取消当前请求
  • 重复重复上一个回复
  • 慢一点/快一点调整语速
消息语音播报

配置传入消息的文字转语音:

{
  "tts": {
    "enabled": true,
    "mode": "tagged",
    "provider": "elevenlabs",
    "voiceId": "EXAVITQu4vr4xnSDxMaL"
  }
}

TTS 模式

always

朗读所有消息

最适合: 免提操作

inbound

仅朗读传入消息

最适合: 通过其他渠道发送时

tagged

朗读带有 @voice 标签的消息

最适合: 选择性语音输出

支持的提供商

  • ElevenLabsElevenLabs(最高质量)
  • OpenAIOpenAI TTS(快速、高质量)
💡 提示和最佳实践
  • 安静环境语音识别在背景噪音最小的安静环境中效果最佳。
  • 清晰说话以正常速度说话。句子之间稍作停顿有助于提高转录准确性。
  • 使用耳机耳机可以防止回声并改善唤醒词检测。
  • 检查额度ElevenLabs 有使用限制。监控您的额度以避免中断。

语音模式已就绪!

开始与您的 AI 助手免提对话。