🦞
Руководство

Голосовой режим (Talk Mode)

Ведите естественные голосовые разговоры с OpenClaw, используя ElevenLabs TTS.

🎙️ Что такое Talk Mode?

Talk Mode позволяет вести естественные голосовые разговоры с OpenClaw. Говорите естественно, и ваш ИИ отвечает реалистичной речью на базе ElevenLabs.

Как это работает:

Ожидание ключевого слова или нажатия кнопкиПреобразование речи в текст (Whisper)Обработка ИИ (Claude, GPT и др.)Преобразование ответа в речь (ElevenLabs)

Talk Mode требует API-ключ ElevenLabs для синтеза речи. Распознавание речи использует Whisper (OpenAI или локальный).

Требования

API-ключ ElevenLabs

Обязательно

Зарегистрируйтесь на elevenlabs.io

Платформа

macOS, iOS, Android

Голосовой ввод требует нативных приложений

Разрешения

Доступ к микрофону

Предоставьте при запросе

Шаги настройки

1

Получите API-ключ ElevenLabs

Зарегистрируйтесь в ElevenLabs и получите API-ключ:

  • Перейдите на elevenlabs.io и создайте аккаунт
  • Перейдите в Профиль → API Key
  • Скопируйте ваш API-ключ
2

Настройте OpenClaw

Добавьте конфигурацию ElevenLabs в ваш openclaw.json:

{
  "talk": {
    "voiceId": "EXAVITQu4vr4xnSDxMaL",
    "modelId": "eleven_v3",
    "outputFormat": "mp3_44100_128",
    "apiKey": "${ELEVENLABS_API_KEY}",
    "interruptOnSpeech": true
  }
}
3

Установите переменную окружения

Альтернативно, установите API-ключ как переменную окружения:

export ELEVENLABS_API_KEY="your_api_key_here"
4

Запустите Talk Mode

Включите голосовой режим из приложения OpenClaw в меню-баре или CLI:

  • Нажмите на иконку OpenClaw в меню-баре
  • Выберите 'Start Talk Mode'
  • Или выполните: openclaw talk
Полные параметры конфигурации

Все доступные параметры голосовой конфигурации:

{
  "talk": {
    "voiceId": "EXAVITQu4vr4xnSDxMaL",
    "modelId": "eleven_v3",
    "outputFormat": "mp3_44100_128",
    "apiKey": "${ELEVENLABS_API_KEY}",
    "interruptOnSpeech": true,
    "stability": 0.5,
    "similarityBoost": 0.75,
    "style": 0.5,
    "speakerBoost": true
  }
}
  • elevenlabs.apiKeyВаш API-ключ ElevenLabs
  • elevenlabs.voiceIdID голоса (по умолчанию: Rachel)
  • elevenlabs.modelИспользуемая модель (eleven_monolingual_v1, eleven_multilingual_v2)
  • voice.wakeWordКлючевое слово для активации (по умолчанию: 'Hey Claw')
  • voice.pushToTalkИспользовать нажатие кнопки вместо ключевого слова
  • voice.silenceTimeoutСекунды тишины до остановки (по умолчанию: 2)
Псевдонимы голосов

Легко переключайтесь между разными голосовыми персонажами.

{
  "talk": {
    "voiceId": "default",
    "voices": {
      "default": "EXAVITQu4vr4xnSDxMaL",
      "professional": "21m00Tcm4TlvDq8ikWAM",
      "friendly": "AZnzlk1XvdvUeBnXmlld",
      "narrator": "pNInz6obpgDQGcFmaJgB"
    }
  }
}

Доступные голоса

По умолчанию (Rachel)

Тёплый, естественный женский голос

Профессиональный (Adam)

Чёткий, авторитетный мужской голос

Дружелюбный (Bella)

Непринуждённый, располагающий женский голос

Рассказчик (Antoni)

Глубокий, повествовательный мужской голос

Переключайте голоса, сказав 'Use professional voice' или в настройках конфигурации.

Функции платформ

macOS
  • Приложение в меню-баре с быстрым переключением
  • Глобальная горячая клавиша для нажатия-и-говори
  • Интеграция с системным звуком
  • Распознавание ключевого слова
iOS и Android
  • Голосовой ввод в сопутствующем приложении
  • Фоновое распознавание ключевого слова
  • Поддержка Bluetooth-гарнитуры
  • Тактильная обратная связь
Голосовые директивы

Управляйте OpenClaw голосовыми командами:

// Per-reply voice control
{
  "voice": "narrator",
  "speed": 1.1,
  "stability": 0.8
}

This response will be spoken in the narrator voice at slightly faster speed.

Доступные команды

  • StopОстановить текущее воспроизведение речи
  • PauseПриостановить и ожидать дополнительного ввода
  • CancelОтменить текущий запрос
  • RepeatПовторить последний ответ
  • Slower/FasterНастроить скорость речи
TTS для сообщений

Настройте синтез речи для входящих сообщений:

{
  "tts": {
    "enabled": true,
    "mode": "tagged",
    "provider": "elevenlabs",
    "voiceId": "EXAVITQu4vr4xnSDxMaL"
  }
}

Режимы TTS

always

Читать все сообщения вслух

Лучше всего для: Работа без рук

inbound

Читать только входящие сообщения

Лучше всего для: При отправке через другие каналы

tagged

Читать сообщения с тегом @voice

Лучше всего для: Выборочный голосовой вывод

Поддерживаемые провайдеры

  • ElevenLabsElevenLabs (наивысшее качество)
  • OpenAIOpenAI TTS (быстрый, хорошее качество)
💡 Советы и лучшие практики
  • Тихая обстановкаРаспознавание голоса лучше всего работает в тихой обстановке с минимальным фоновым шумом.
  • Говорите чёткоГоворите в нормальном темпе. Небольшие паузы между предложениями улучшают точность транскрипции.
  • Используйте наушникиНаушники предотвращают эхо и улучшают распознавание ключевого слова.
  • Проверяйте кредитыУ ElevenLabs есть лимиты использования. Следите за кредитами, чтобы избежать перебоев.

Голосовой режим готов!

Начните общаться с вашим ИИ-ассистентом без рук.