Руководство

Голосовой режим (Talk Mode)

Ведите естественные голосовые разговоры с OpenClaw, используя ElevenLabs TTS.

🎙️ Что такое Talk Mode?

Talk Mode позволяет вести естественные голосовые разговоры с OpenClaw. Говорите естественно, и ваш ИИ отвечает реалистичной речью на базе ElevenLabs.

Как это работает:

Ожидание ключевого слова или нажатия кнопки→Преобразование речи в текст (Whisper)→Обработка ИИ (Claude, GPT и др.)→Преобразование ответа в речь (ElevenLabs)

Talk Mode требует API-ключ ElevenLabs для синтеза речи. Распознавание речи использует Whisper (OpenAI или локальный).

Требования

API-ключ ElevenLabs

Обязательно

Зарегистрируйтесь на elevenlabs.io

Платформа

macOS, iOS, Android

Голосовой ввод требует нативных приложений

Разрешения

Доступ к микрофону

Предоставьте при запросе

Шаги настройки

Получите API-ключ ElevenLabs

Зарегистрируйтесь в ElevenLabs и получите API-ключ:

• Перейдите на elevenlabs.io и создайте аккаунт
• Перейдите в Профиль → API Key
• Скопируйте ваш API-ключ

Настройте OpenClaw

Добавьте конфигурацию ElevenLabs в ваш openclaw.json:

{
  "talk": {
    "voiceId": "EXAVITQu4vr4xnSDxMaL",
    "modelId": "eleven_v3",
    "outputFormat": "mp3_44100_128",
    "apiKey": "${ELEVENLABS_API_KEY}",
    "interruptOnSpeech": true
  }
}

Установите переменную окружения

Альтернативно, установите API-ключ как переменную окружения:

export ELEVENLABS_API_KEY="your_api_key_here"

Запустите Talk Mode

Включите голосовой режим из приложения OpenClaw в меню-баре или CLI:

• Нажмите на иконку OpenClaw в меню-баре
• Выберите 'Start Talk Mode'
• Или выполните: openclaw talk

Полные параметры конфигурации

Все доступные параметры голосовой конфигурации:

{
  "talk": {
    "voiceId": "EXAVITQu4vr4xnSDxMaL",
    "modelId": "eleven_v3",
    "outputFormat": "mp3_44100_128",
    "apiKey": "${ELEVENLABS_API_KEY}",
    "interruptOnSpeech": true,
    "stability": 0.5,
    "similarityBoost": 0.75,
    "style": 0.5,
    "speakerBoost": true
  }
}

elevenlabs.apiKey — Ваш API-ключ ElevenLabs
elevenlabs.voiceId — ID голоса (по умолчанию: Rachel)
elevenlabs.model — Используемая модель (eleven_monolingual_v1, eleven_multilingual_v2)
voice.wakeWord — Ключевое слово для активации (по умолчанию: 'Hey Claw')
voice.pushToTalk — Использовать нажатие кнопки вместо ключевого слова
voice.silenceTimeout — Секунды тишины до остановки (по умолчанию: 2)

Псевдонимы голосов

Легко переключайтесь между разными голосовыми персонажами.

{
  "talk": {
    "voiceId": "default",
    "voices": {
      "default": "EXAVITQu4vr4xnSDxMaL",
      "professional": "21m00Tcm4TlvDq8ikWAM",
      "friendly": "AZnzlk1XvdvUeBnXmlld",
      "narrator": "pNInz6obpgDQGcFmaJgB"
    }
  }
}

Доступные голоса

По умолчанию (Rachel)

Тёплый, естественный женский голос

Профессиональный (Adam)

Чёткий, авторитетный мужской голос

Дружелюбный (Bella)

Непринуждённый, располагающий женский голос

Рассказчик (Antoni)

Глубокий, повествовательный мужской голос

Переключайте голоса, сказав 'Use professional voice' или в настройках конфигурации.

Функции платформ

macOS

✓Приложение в меню-баре с быстрым переключением
✓Глобальная горячая клавиша для нажатия-и-говори
✓Интеграция с системным звуком
✓Распознавание ключевого слова

iOS и Android

✓Голосовой ввод в сопутствующем приложении
✓Фоновое распознавание ключевого слова
✓Поддержка Bluetooth-гарнитуры
✓Тактильная обратная связь

Голосовые директивы

Управляйте OpenClaw голосовыми командами:

// Per-reply voice control
{
  "voice": "narrator",
  "speed": 1.1,
  "stability": 0.8
}

This response will be spoken in the narrator voice at slightly faster speed.

Доступные команды

Stop — Остановить текущее воспроизведение речи
Pause — Приостановить и ожидать дополнительного ввода
Cancel — Отменить текущий запрос
Repeat — Повторить последний ответ
Slower/Faster — Настроить скорость речи

TTS для сообщений

Настройте синтез речи для входящих сообщений:

{
  "tts": {
    "enabled": true,
    "mode": "tagged",
    "provider": "elevenlabs",
    "voiceId": "EXAVITQu4vr4xnSDxMaL"
  }
}

Режимы TTS

always

Читать все сообщения вслух

Лучше всего для: Работа без рук

inbound

Читать только входящие сообщения

Лучше всего для: При отправке через другие каналы

tagged

Читать сообщения с тегом @voice

Лучше всего для: Выборочный голосовой вывод

Поддерживаемые провайдеры

ElevenLabs — ElevenLabs (наивысшее качество)
OpenAI — OpenAI TTS (быстрый, хорошее качество)

💡 Советы и лучшие практики

•Тихая обстановка — Распознавание голоса лучше всего работает в тихой обстановке с минимальным фоновым шумом.
•Говорите чётко — Говорите в нормальном темпе. Небольшие паузы между предложениями улучшают точность транскрипции.
•Используйте наушники — Наушники предотвращают эхо и улучшают распознавание ключевого слова.
•Проверяйте кредиты — У ElevenLabs есть лимиты использования. Следите за кредитами, чтобы избежать перебоев.

Голосовой режим готов!

Начните общаться с вашим ИИ-ассистентом без рук.

Установить OpenClaw Изучить навыки