Tutorial

Sprachmodus (Talk Mode)

Fuehre natuerliche Sprachgespraeche mit OpenClaw mittels ElevenLabs TTS.

🎙️ Was ist der Talk Mode?

Der Talk Mode ermoeglicht natuerliche Sprachgespraeche mit OpenClaw. Sprich natuerlich, und deine KI antwortet mit lebensechter Sprache, angetrieben von ElevenLabs.

So funktioniert es:

Auf Aktivierungswort oder Push-to-Talk warten→Sprache in Text umwandeln (Whisper)→Mit KI verarbeiten (Claude, GPT, etc.)→Antwort in Sprache umwandeln (ElevenLabs)

Der Talk Mode erfordert einen ElevenLabs API-Schluessel fuer Text-zu-Sprache. Sprache-zu-Text verwendet Whisper (OpenAI oder lokal).

Voraussetzungen

ElevenLabs API-Schluessel

Erforderlich

Registriere dich bei elevenlabs.io

Plattform

macOS, iOS, Android

Spracheingabe erfordert native Apps

Berechtigungen

Mikrofonzugriff

Bei Aufforderung gewaehren

Einrichtungsschritte

ElevenLabs API-Schluessel erhalten

Registriere dich bei ElevenLabs und hole dir deinen API-Schluessel:

• Gehe zu elevenlabs.io und erstelle ein Konto
• Navigiere zu Profil → API-Schluessel
• Kopiere deinen API-Schluessel

OpenClaw konfigurieren

Fuege die ElevenLabs-Konfiguration zu deiner openclaw.json hinzu:

{
  "talk": {
    "voiceId": "EXAVITQu4vr4xnSDxMaL",
    "modelId": "eleven_v3",
    "outputFormat": "mp3_44100_128",
    "apiKey": "${ELEVENLABS_API_KEY}",
    "interruptOnSpeech": true
  }
}

Umgebungsvariable setzen

Alternativ kannst du deinen API-Schluessel als Umgebungsvariable setzen:

export ELEVENLABS_API_KEY="your_api_key_here"

Talk Mode starten

Aktiviere den Talk Mode ueber die OpenClaw-Menueleisten-App oder CLI:

• Klicke auf das OpenClaw-Symbol in der Menueleiste
• Waehle 'Talk Mode starten'
• Oder fuehre aus: openclaw talk

Vollstaendige Konfigurationsoptionen

Alle verfuegbaren Sprachkonfigurationsoptionen:

{
  "talk": {
    "voiceId": "EXAVITQu4vr4xnSDxMaL",
    "modelId": "eleven_v3",
    "outputFormat": "mp3_44100_128",
    "apiKey": "${ELEVENLABS_API_KEY}",
    "interruptOnSpeech": true,
    "stability": 0.5,
    "similarityBoost": 0.75,
    "style": 0.5,
    "speakerBoost": true
  }
}

elevenlabs.apiKey — Dein ElevenLabs API-Schluessel
elevenlabs.voiceId — Zu verwendende Stimmen-ID (Standard: Rachel)
elevenlabs.model — Zu verwendendes Modell (eleven_monolingual_v1, eleven_multilingual_v2)
voice.wakeWord — Aktivierungswort (Standard: 'Hey Claw')
voice.pushToTalk — Push-to-Talk anstelle des Aktivierungswortes verwenden
voice.silenceTimeout — Sekunden Stille vor dem Stoppen (Standard: 2)

Stimmen-Aliase

Wechsle einfach zwischen verschiedenen Stimmpersoenlichkeiten.

{
  "talk": {
    "voiceId": "default",
    "voices": {
      "default": "EXAVITQu4vr4xnSDxMaL",
      "professional": "21m00Tcm4TlvDq8ikWAM",
      "friendly": "AZnzlk1XvdvUeBnXmlld",
      "narrator": "pNInz6obpgDQGcFmaJgB"
    }
  }
}

Verfuegbare Stimmen

Standard (Rachel)

Warme, natuerliche weibliche Stimme

Professionell (Adam)

Klare, autoritaere maennliche Stimme

Freundlich (Bella)

Laessige, zugaengliche weibliche Stimme

Erzaehler (Antoni)

Tiefe, erzaehlende maennliche Stimme

Wechsle Stimmen, indem du 'Verwende professionelle Stimme' sagst oder in der Konfiguration einstellst.

Plattformfunktionen

macOS

✓Menueleisten-App mit Schnellumschaltung
✓Globale Tastenkombination fuer Push-to-Talk
✓System-Audio-Integration
✓Aktivierungswort-Erkennung

iOS & Android

✓Spracheingabe in der Begleit-App
✓Aktivierungswort-Erkennung im Hintergrund
✓Bluetooth-Headset-Unterstuetzung
✓Haptisches Feedback

Sprachbefehle

Steuere OpenClaw mit Sprachbefehlen:

// Per-reply voice control
{
  "voice": "narrator",
  "speed": 1.1,
  "stability": 0.8
}

This response will be spoken in the narrator voice at slightly faster speed.

Verfuegbare Befehle

Stopp — Aktuelle Sprachwiedergabe stoppen
Pause — Pausieren und auf weitere Eingabe warten
Abbrechen — Aktuelle Anfrage abbrechen
Wiederholen — Die letzte Antwort wiederholen
Langsamer/Schneller — Sprechgeschwindigkeit anpassen

TTS fuer Nachrichten

Konfiguriere Text-zu-Sprache fuer eingehende Nachrichten:

{
  "tts": {
    "enabled": true,
    "mode": "tagged",
    "provider": "elevenlabs",
    "voiceId": "EXAVITQu4vr4xnSDxMaL"
  }
}

TTS-Modi

always

Alle Nachrichten vorlesen

Ideal fuer: Freisprechbetrieb

inbound

Nur eingehende Nachrichten vorlesen

Ideal fuer: Beim Senden ueber andere Kanaele

tagged

Mit @voice markierte Nachrichten vorlesen

Ideal fuer: Selektive Sprachausgabe

Unterstuetzte Anbieter

ElevenLabs — ElevenLabs (hoechste Qualitaet)
OpenAI — OpenAI TTS (schnell, gute Qualitaet)

💡 Tipps & Best Practices

•Ruhige Umgebung — Spracherkennung funktioniert am besten in ruhigen Umgebungen mit minimalen Hintergrundgeraeuschen.
•Deutlich sprechen — Sprich in normalem Tempo. Leichtes Pausieren zwischen Saetzen verbessert die Transkriptionsgenauigkeit.
•Kopfhoerer verwenden — Kopfhoerer verhindern Echo und verbessern die Aktivierungswort-Erkennung.
•Guthaben pruefen — ElevenLabs hat Nutzungslimits. Ueberwache dein Guthaben, um Unterbrechungen zu vermeiden.

Sprachmodus bereit!

Beginne, mit deinem KI-Assistenten freiheandig zu sprechen.

OpenClaw installieren Skills erkunden