Zum Inhalt

Spracheingabe

Ersetze Tippen durch Sprechen - überall auf deinem Computer.

Zwei leistungsstarke Anwendungsfälle:

  1. Mit DeskAgent sprechen - Gib Anweisungen per Sprache statt zu tippen. "Antworte auf diese E-Mail professionell" oder "Erstelle ein Angebot für diesen Kunden"

  2. In jeder Anwendung diktieren - Nutze Spracheingabe in Word, deinem Browser, E-Mail-Programmen, Chat-Apps - überall wo du tippen kannst. Deine Sprache wird präzise transkribiert und sofort eingefügt.

Beide nutzen OpenAIs Whisper für professionelle Transkription, die Fachbegriffe, Namen und mehrere Sprachen mit hoher Genauigkeit verarbeitet.


Überblick

DeskAgent unterstützt Spracheingabe auf zwei Arten:

Methode Anwendungsfall
WebUI-Mikrofon Klicke auf den Mikrofon-Button im Chat-Eingabebereich
System-Hotkey Drücke einen Hotkey aus jeder Anwendung - auch wenn DeskAgent minimiert ist

Beide Methoden nutzen OpenAIs Whisper für präzise Spracherkennung.


Voraussetzungen

OpenAI API-Key erforderlich

Die Spracheingabe benötigt einen OpenAI API-Key für den Whisper-Transkriptionsdienst.

Kosten: ca. 0,006 $ pro Minute Audio (ca. 0,5 Cent pro Minute)

Einrichtung

  1. Hole dir einen API-Key von OpenAI Platform
  2. Füge ihn in config/backends.json ein:
"openai": {
  "type": "openai_api",
  "api_key": "sk-dein-api-key-hier"
}

WebUI-Spracheingabe

So funktioniert's

  1. Klicke auf den Mikrofon-Button (🎤) neben der Texteingabe
  2. Sprich deine Anfrage - der Button pulsiert während der Aufnahme
  3. Klicke erneut zum Stoppen - deine Sprache wird transkribiert und optional gesendet
Spracheingabe-Button
Der Mikrofon-Button (🎤) neben dem Eingabefeld
Aufnahme aktiv
Während der Aufnahme: Roter Stop-Button zum Beenden

Tastaturkürzel

Kürzel Aktion
Ctrl+M Aufnahme starten/stoppen
Esc Aufnahme abbrechen

Auto-Absenden

Standardmäßig wird der transkribierte Text automatisch abgesendet. Um vor dem Senden zu prüfen:

config/system.json
"voice_input": {
  "auto_submit": false
}

Agent-Eingabedialoge

Spracheingabe funktioniert auch in Agent-Pre-Prompt-Dialogen. Wenn ein Agent vor dem Start eine Texteingabe benötigt (wie eine Beschreibung oder Anweisungen), kannst du den Mikrofon-Button zum Diktieren verwenden statt zu tippen.

Das ist besonders nützlich für Agents wie:

  • Dateien archivieren - Beschreibung für Dokumente diktieren
  • Angebot erstellen - Besondere Anforderungen oder Notizen sprechen
  • Alle Agents mit Texteingaben - Achte auf den 🎤 Button neben Textfeldern

Systemweite Hotkeys

Die wahre Stärke liegt in den systemweiten Hotkeys. Nutze sie aus jeder Anwendung - Outlook, Browser, Word, überall.

Verfügbare Hotkeys

Hotkey Name Aktion
Ctrl+Shift+Space Diktieren Aufnahme → Text in aktive App einfügen
Ctrl+Shift+Enter Diktieren + Enter Aufnahme → Text einfügen → Enter drücken
Ctrl+Shift+Backspace Agent Aufnahme → E-Mail-Antwort-Agent starten

Diktier-Modus

Diktiere in jede Anwendung:

1. Klicke in ein Textfeld (Word, Browser, Notepad, Chat, etc.)
2. Drücke Strg+Shift+Leertaste → 🎤 Aufnahme startet
3. Diktiere deinen Text
4. Drücke Strg+Shift+Leertaste erneut → Text wird eingefügt

Tipp: Nutze Ctrl+Shift+Enter um Text einzufügen und automatisch Enter zu drücken - perfekt für Chat-Apps wie Teams oder Slack.

Agent-Modus

Starte den E-Mail-Antwort-Agent mit Sprachanweisungen:

1. Wähle eine E-Mail in Outlook aus
2. Drücke Strg+Shift+Rücktaste → 🎤 Aufnahme startet
3. Sage: "Bitte antworte professionell, erwähne unsere 30-Tage-Testversion"
4. Drücke Strg+Shift+Rücktaste erneut → Aufnahme stoppt
5. DeskAgent startet den Antwort-Agent mit deinen Anweisungen

Der Agent liest die ausgewählte E-Mail, erstellt eine Antwort basierend auf deinen Anweisungen und öffnet sie in Outlook zur Überprüfung.


Konfiguration

Vollständige Konfigurationsoptionen in config/system.json:

config/system.json
"voice_input": {
  "enabled": true,
  "language": "de",
  "auto_submit": true,
  "hotkey": "Ctrl+M",
  "dictate_hotkey": "Ctrl+Shift+Space",
  "dictate_hotkey_enter": "Ctrl+Shift+Enter",
  "agent_hotkey": "Ctrl+Shift+Backspace",
  "outlook_agent": "reply_email"
}
Option Standard Beschreibung
enabled true Spracheingabe global aktivieren/deaktivieren
language "de" Transkriptionssprache (de, en, fr, etc.)
auto_submit true Auto-Senden nach Transkription in WebUI
hotkey "Ctrl+M" WebUI-Aufnahme-Hotkey
dictate_hotkey "Ctrl+Shift+Space" Diktier-Hotkey (Text einfügen)
dictate_hotkey_enter "Ctrl+Shift+Enter" Diktieren + Enter-Hotkey
agent_hotkey "Ctrl+Shift+Backspace" Agent-Hotkey (startet outlook_agent)
outlook_agent "reply_email" Agent der mit Agent-Hotkey gestartet wird

Erkennung verbessern

Whisper funktioniert out-of-the-box gut, aber du kannst die Genauigkeit für Spezialterme verbessern.

Schlüsselwörter-Datei (Empfohlen)

Erstelle knowledge/whisper_keywords.md mit Begriffen, die Whisper erkennen soll:

knowledge/whisper_keywords.md
realvirtual GmbH, game4automation, DeskAgent, Digital Twin, Unity
OPC UA, PLC, Siemens, Beckhoff, MQTT
Professional Edition, Research & Education Bundle
Thomas Strigl, Kranya

Füge ein:

  • Firmen- und Produktnamen
  • Branchenbegriffe und Abkürzungen
  • Personennamen
  • Ungewöhnliche Schreibweisen

Tipp: Halte es bei ca. 20 Schlüsselwörtern für beste Performance.

Automatische Extraktion

Wenn du keine Schlüsselwörter-Datei erstellst, extrahiert DeskAgent automatisch Begriffe aus:

  1. knowledge/company.md
  2. knowledge/products.md

Audio-Feedback

DeskAgent gibt Audio-Feedback, damit du weißt, was passiert:

Sound Bedeutung
Hoher Piepton (800 Hz) Aufnahme gestartet
Tiefer Piepton (400 Hz) Aufnahme gestoppt
Leise Klicks Verarbeitung/Transkription läuft

Outlook Web-Unterstützung

Der System-Hotkey funktioniert auch mit Outlook Web (Office 365 im Browser):

  1. Öffne Outlook Web in Chrome/Edge
  2. Klicke auf eine E-Mail, um sie auszuwählen
  3. Drücke Ctrl+Shift+Space für Aufnahme
  4. DeskAgent extrahiert die Message-ID aus der URL
  5. Der Antwort-Agent verarbeitet sie wie bei Desktop-Outlook

Browser-Integration

Bei der ersten Nutzung kann ein Zustimmungsdialog für Browser-Integration erscheinen. Dies startet einen Browser mit Remote-Debugging um die aktuelle URL zu lesen.


Fehlerbehebung

Sprach-Button wird nicht angezeigt

Prüfe: Ist der OpenAI API-Key konfiguriert?

# Im DeskAgent-Chat fragen:
"Ist Spracheingabe verfügbar?"

"OpenAI API key not configured"

Füge deinen API-Key in config/backends.json unter ai_backends.openai.api_key ein.

Aufnahme startet nicht

Prüfe Abhängigkeiten:

pip install sounddevice soundfile numpy pyperclip keyboard pynput

Text wird nicht eingefügt (Generic-Modus)

  • Stelle sicher, dass ein Textfeld fokussiert ist
  • Versuche, in das Zielfeld zu klicken, bevor du den Hotkey drückst
  • Prüfe, ob pyperclip installiert ist

Agent-Hotkey startet Agent nicht

  • Stelle sicher, dass eine E-Mail in Outlook ausgewählt ist (Einfach-Klick, nicht geöffnet)
  • Prüfe, ob outlook_agent in config/system.json konfiguriert ist
  • Bei Outlook Web: Stelle sicher, dass du auf einer E-Mail-Detailseite bist (URL enthält Message-ID)

Schlechte Transkriptionsqualität

  1. Erstelle eine knowledge/whisper_keywords.md Datei
  2. Sprich klar und in normalem Tempo
  3. Reduziere Hintergrundgeräusche
  4. Prüfe deine Mikrofon-Einstellungen

API-Details

Für Entwickler, die Spracheingabe integrieren:

Endpoint Methode Beschreibung
/transcribe/status GET Verfügbarkeit und Config prüfen
/transcribe POST Audio-Datei transkribieren (multipart/form-data)

Transkriptionskosten: 0,006 $ pro Minute (wird in Kostenstatistik erfasst)


Nächste Schritte

  • Tastaturkürzel


    Lerne alle Kürzel für effizientes Arbeiten

    Dein Assistent

  • E-Mail-Automatisierung


    Automatisiere deine E-Mail-Workflows

    E-Mail-Guide