Spracheingabe¶

Ersetze Tippen durch Sprechen - überall auf deinem Computer.

Zwei leistungsstarke Anwendungsfälle:

Mit DeskAgent sprechen - Gib Anweisungen per Sprache statt zu tippen. "Antworte auf diese E-Mail professionell" oder "Erstelle ein Angebot für diesen Kunden"
In jeder Anwendung diktieren - Nutze Spracheingabe in Word, deinem Browser, E-Mail-Programmen, Chat-Apps - überall wo du tippen kannst. Deine Sprache wird präzise transkribiert und sofort eingefügt.

Beide nutzen OpenAIs Whisper für professionelle Transkription, die Fachbegriffe, Namen und mehrere Sprachen mit hoher Genauigkeit verarbeitet.

Überblick¶

DeskAgent unterstützt Spracheingabe auf zwei Arten:

Methode	Anwendungsfall
WebUI-Mikrofon	Klicke auf den Mikrofon-Button im Chat-Eingabebereich
System-Hotkey	Drücke einen Hotkey aus jeder Anwendung - auch wenn DeskAgent minimiert ist

Beide Methoden nutzen OpenAIs Whisper für präzise Spracherkennung.

Voraussetzungen¶

OpenAI API-Key erforderlich

Die Spracheingabe benötigt einen OpenAI API-Key für den Whisper-Transkriptionsdienst.

Kosten: ca. 0,006 $ pro Minute Audio (ca. 0,5 Cent pro Minute)

Einrichtung¶

Hole dir einen API-Key von OpenAI Platform
Füge ihn in config/backends.json ein:

"openai": {
  "type": "openai_api",
  "api_key": "sk-dein-api-key-hier"
}

WebUI-Spracheingabe¶

So funktioniert's¶

Klicke auf den Mikrofon-Button (🎤) neben der Texteingabe
Sprich deine Anfrage - der Button pulsiert während der Aufnahme
Klicke erneut zum Stoppen - deine Sprache wird transkribiert und optional gesendet

Spracheingabe-Button — Der Mikrofon-Button (🎤) neben dem Eingabefeld

Aufnahme aktiv — Während der Aufnahme: Roter Stop-Button zum Beenden

Tastaturkürzel¶

Kürzel	Aktion
`Ctrl`+`M`	Aufnahme starten/stoppen
`Esc`	Aufnahme abbrechen

Auto-Absenden¶

Standardmäßig wird der transkribierte Text automatisch abgesendet. Um vor dem Senden zu prüfen:

config/system.json

"voice_input": {
  "auto_submit": false
}

Agent-Eingabedialoge¶

Spracheingabe funktioniert auch in Agent-Pre-Prompt-Dialogen. Wenn ein Agent vor dem Start eine Texteingabe benötigt (wie eine Beschreibung oder Anweisungen), kannst du den Mikrofon-Button zum Diktieren verwenden statt zu tippen.

Das ist besonders nützlich für Agents wie:

Dateien archivieren - Beschreibung für Dokumente diktieren
Angebot erstellen - Besondere Anforderungen oder Notizen sprechen
Alle Agents mit Texteingaben - Achte auf den 🎤 Button neben Textfeldern

Systemweite Hotkeys¶

Die wahre Stärke liegt in den systemweiten Hotkeys. Nutze sie aus jeder Anwendung - Outlook, Browser, Word, überall.

Verfügbare Hotkeys¶

Hotkey	Name	Aktion
`Ctrl`+`Shift`+`Space`	Diktieren	Aufnahme → Text in aktive App einfügen
`Ctrl`+`Shift`+`Enter`	Diktieren + Enter	Aufnahme → Text einfügen → Enter drücken
`Ctrl`+`Shift`+`Backspace`	Agent	Aufnahme → E-Mail-Antwort-Agent starten

Diktier-Modus¶

Diktiere in jede Anwendung:

1. Klicke in ein Textfeld (Word, Browser, Notepad, Chat, etc.)
2. Drücke Strg+Shift+Leertaste → 🎤 Aufnahme startet
3. Diktiere deinen Text
4. Drücke Strg+Shift+Leertaste erneut → Text wird eingefügt

Tipp: Nutze Ctrl+Shift+Enter um Text einzufügen und automatisch Enter zu drücken - perfekt für Chat-Apps wie Teams oder Slack.

Agent-Modus¶

Starte den E-Mail-Antwort-Agent mit Sprachanweisungen:

1. Wähle eine E-Mail in Outlook aus
2. Drücke Strg+Shift+Rücktaste → 🎤 Aufnahme startet
3. Sage: "Bitte antworte professionell, erwähne unsere 30-Tage-Testversion"
4. Drücke Strg+Shift+Rücktaste erneut → Aufnahme stoppt
5. DeskAgent startet den Antwort-Agent mit deinen Anweisungen

Der Agent liest die ausgewählte E-Mail, erstellt eine Antwort basierend auf deinen Anweisungen und öffnet sie in Outlook zur Überprüfung.

Konfiguration¶

Vollständige Konfigurationsoptionen in config/system.json:

config/system.json

"voice_input": {
  "enabled": true,
  "language": "de",
  "auto_submit": true,
  "hotkey": "Ctrl+M",
  "dictate_hotkey": "Ctrl+Shift+Space",
  "dictate_hotkey_enter": "Ctrl+Shift+Enter",
  "agent_hotkey": "Ctrl+Shift+Backspace",
  "outlook_agent": "reply_email"
}

Option	Standard	Beschreibung
`enabled`	`true`	Spracheingabe global aktivieren/deaktivieren
`language`	`"de"`	Transkriptionssprache (de, en, fr, etc.)
`auto_submit`	`true`	Auto-Senden nach Transkription in WebUI
`hotkey`	`"Ctrl+M"`	WebUI-Aufnahme-Hotkey
`dictate_hotkey`	`"Ctrl+Shift+Space"`	Diktier-Hotkey (Text einfügen)
`dictate_hotkey_enter`	`"Ctrl+Shift+Enter"`	Diktieren + Enter-Hotkey
`agent_hotkey`	`"Ctrl+Shift+Backspace"`	Agent-Hotkey (startet `outlook_agent`)
`outlook_agent`	`"reply_email"`	Agent der mit Agent-Hotkey gestartet wird

Erkennung verbessern¶

Whisper funktioniert out-of-the-box gut, aber du kannst die Genauigkeit für Spezialterme verbessern.

Schlüsselwörter-Datei (Empfohlen)¶

Erstelle knowledge/whisper_keywords.md mit Begriffen, die Whisper erkennen soll:

knowledge/whisper_keywords.md

realvirtual GmbH, game4automation, DeskAgent, Digital Twin, Unity
OPC UA, PLC, Siemens, Beckhoff, MQTT
Professional Edition, Research & Education Bundle
Thomas Strigl, Kranya

Füge ein:

Firmen- und Produktnamen
Branchenbegriffe und Abkürzungen
Personennamen
Ungewöhnliche Schreibweisen

Tipp: Halte es bei ca. 20 Schlüsselwörtern für beste Performance.

Automatische Extraktion¶

Wenn du keine Schlüsselwörter-Datei erstellst, extrahiert DeskAgent automatisch Begriffe aus:

knowledge/company.md
knowledge/products.md

Audio-Feedback¶

DeskAgent gibt Audio-Feedback, damit du weißt, was passiert:

Sound	Bedeutung
Hoher Piepton (800 Hz)	Aufnahme gestartet
Tiefer Piepton (400 Hz)	Aufnahme gestoppt
Leise Klicks	Verarbeitung/Transkription läuft

Outlook Web-Unterstützung¶

Der System-Hotkey funktioniert auch mit Outlook Web (Office 365 im Browser):

Öffne Outlook Web in Chrome/Edge
Klicke auf eine E-Mail, um sie auszuwählen
Drücke Ctrl+Shift+Space für Aufnahme
DeskAgent extrahiert die Message-ID aus der URL
Der Antwort-Agent verarbeitet sie wie bei Desktop-Outlook

Browser-Integration

Bei der ersten Nutzung kann ein Zustimmungsdialog für Browser-Integration erscheinen. Dies startet einen Browser mit Remote-Debugging um die aktuelle URL zu lesen.

Fehlerbehebung¶

Sprach-Button wird nicht angezeigt¶

Prüfe: Ist der OpenAI API-Key konfiguriert?

# Im DeskAgent-Chat fragen:
"Ist Spracheingabe verfügbar?"

"OpenAI API key not configured"¶

Füge deinen API-Key in config/backends.json unter ai_backends.openai.api_key ein.

Aufnahme startet nicht¶

Prüfe Abhängigkeiten:

pip install sounddevice soundfile numpy pyperclip keyboard pynput

Text wird nicht eingefügt (Generic-Modus)¶

Stelle sicher, dass ein Textfeld fokussiert ist
Versuche, in das Zielfeld zu klicken, bevor du den Hotkey drückst
Prüfe, ob pyperclip installiert ist

Agent-Hotkey startet Agent nicht¶

Stelle sicher, dass eine E-Mail in Outlook ausgewählt ist (Einfach-Klick, nicht geöffnet)
Prüfe, ob outlook_agent in config/system.json konfiguriert ist
Bei Outlook Web: Stelle sicher, dass du auf einer E-Mail-Detailseite bist (URL enthält Message-ID)

Schlechte Transkriptionsqualität¶

Erstelle eine knowledge/whisper_keywords.md Datei
Sprich klar und in normalem Tempo
Reduziere Hintergrundgeräusche
Prüfe deine Mikrofon-Einstellungen

API-Details¶

Für Entwickler, die Spracheingabe integrieren:

Endpoint	Methode	Beschreibung
`/transcribe/status`	GET	Verfügbarkeit und Config prüfen
`/transcribe`	POST	Audio-Datei transkribieren (multipart/form-data)

Transkriptionskosten: 0,006 $ pro Minute (wird in Kostenstatistik erfasst)

Nächste Schritte¶

Tastaturkürzel

Lerne alle Kürzel für effizientes Arbeiten

Dein Assistent
E-Mail-Automatisierung

Automatisiere deine E-Mail-Workflows

E-Mail-Guide