Spracheingabe¶
Ersetze Tippen durch Sprechen - überall auf deinem Computer.
Zwei leistungsstarke Anwendungsfälle:
-
Mit DeskAgent sprechen - Gib Anweisungen per Sprache statt zu tippen. "Antworte auf diese E-Mail professionell" oder "Erstelle ein Angebot für diesen Kunden"
-
In jeder Anwendung diktieren - Nutze Spracheingabe in Word, deinem Browser, E-Mail-Programmen, Chat-Apps - überall wo du tippen kannst. Deine Sprache wird präzise transkribiert und sofort eingefügt.
Beide nutzen OpenAIs Whisper für professionelle Transkription, die Fachbegriffe, Namen und mehrere Sprachen mit hoher Genauigkeit verarbeitet.
Überblick¶
DeskAgent unterstützt Spracheingabe auf zwei Arten:
| Methode | Anwendungsfall |
|---|---|
| WebUI-Mikrofon | Klicke auf den Mikrofon-Button im Chat-Eingabebereich |
| System-Hotkey | Drücke einen Hotkey aus jeder Anwendung - auch wenn DeskAgent minimiert ist |
Beide Methoden nutzen OpenAIs Whisper für präzise Spracherkennung.
Voraussetzungen¶
OpenAI API-Key erforderlich
Die Spracheingabe benötigt einen OpenAI API-Key für den Whisper-Transkriptionsdienst.
Kosten: ca. 0,006 $ pro Minute Audio (ca. 0,5 Cent pro Minute)
Einrichtung¶
- Hole dir einen API-Key von OpenAI Platform
- Füge ihn in
config/backends.jsonein:
WebUI-Spracheingabe¶
So funktioniert's¶
- Klicke auf den Mikrofon-Button (🎤) neben der Texteingabe
- Sprich deine Anfrage - der Button pulsiert während der Aufnahme
- Klicke erneut zum Stoppen - deine Sprache wird transkribiert und optional gesendet
Tastaturkürzel¶
| Kürzel | Aktion |
|---|---|
| Ctrl+M | Aufnahme starten/stoppen |
| Esc | Aufnahme abbrechen |
Auto-Absenden¶
Standardmäßig wird der transkribierte Text automatisch abgesendet. Um vor dem Senden zu prüfen:
Agent-Eingabedialoge¶
Spracheingabe funktioniert auch in Agent-Pre-Prompt-Dialogen. Wenn ein Agent vor dem Start eine Texteingabe benötigt (wie eine Beschreibung oder Anweisungen), kannst du den Mikrofon-Button zum Diktieren verwenden statt zu tippen.
Das ist besonders nützlich für Agents wie:
- Dateien archivieren - Beschreibung für Dokumente diktieren
- Angebot erstellen - Besondere Anforderungen oder Notizen sprechen
- Alle Agents mit Texteingaben - Achte auf den 🎤 Button neben Textfeldern
Systemweite Hotkeys¶
Die wahre Stärke liegt in den systemweiten Hotkeys. Nutze sie aus jeder Anwendung - Outlook, Browser, Word, überall.
Verfügbare Hotkeys¶
| Hotkey | Name | Aktion |
|---|---|---|
| Ctrl+Shift+Space | Diktieren | Aufnahme → Text in aktive App einfügen |
| Ctrl+Shift+Enter | Diktieren + Enter | Aufnahme → Text einfügen → Enter drücken |
| Ctrl+Shift+Backspace | Agent | Aufnahme → E-Mail-Antwort-Agent starten |
Diktier-Modus¶
Diktiere in jede Anwendung:
1. Klicke in ein Textfeld (Word, Browser, Notepad, Chat, etc.)
2. Drücke Strg+Shift+Leertaste → 🎤 Aufnahme startet
3. Diktiere deinen Text
4. Drücke Strg+Shift+Leertaste erneut → Text wird eingefügt
Tipp: Nutze Ctrl+Shift+Enter um Text einzufügen und automatisch Enter zu drücken - perfekt für Chat-Apps wie Teams oder Slack.
Agent-Modus¶
Starte den E-Mail-Antwort-Agent mit Sprachanweisungen:
1. Wähle eine E-Mail in Outlook aus
2. Drücke Strg+Shift+Rücktaste → 🎤 Aufnahme startet
3. Sage: "Bitte antworte professionell, erwähne unsere 30-Tage-Testversion"
4. Drücke Strg+Shift+Rücktaste erneut → Aufnahme stoppt
5. DeskAgent startet den Antwort-Agent mit deinen Anweisungen
Der Agent liest die ausgewählte E-Mail, erstellt eine Antwort basierend auf deinen Anweisungen und öffnet sie in Outlook zur Überprüfung.
Konfiguration¶
Vollständige Konfigurationsoptionen in config/system.json:
"voice_input": {
"enabled": true,
"language": "de",
"auto_submit": true,
"hotkey": "Ctrl+M",
"dictate_hotkey": "Ctrl+Shift+Space",
"dictate_hotkey_enter": "Ctrl+Shift+Enter",
"agent_hotkey": "Ctrl+Shift+Backspace",
"outlook_agent": "reply_email"
}
| Option | Standard | Beschreibung |
|---|---|---|
enabled | true | Spracheingabe global aktivieren/deaktivieren |
language | "de" | Transkriptionssprache (de, en, fr, etc.) |
auto_submit | true | Auto-Senden nach Transkription in WebUI |
hotkey | "Ctrl+M" | WebUI-Aufnahme-Hotkey |
dictate_hotkey | "Ctrl+Shift+Space" | Diktier-Hotkey (Text einfügen) |
dictate_hotkey_enter | "Ctrl+Shift+Enter" | Diktieren + Enter-Hotkey |
agent_hotkey | "Ctrl+Shift+Backspace" | Agent-Hotkey (startet outlook_agent) |
outlook_agent | "reply_email" | Agent der mit Agent-Hotkey gestartet wird |
Erkennung verbessern¶
Whisper funktioniert out-of-the-box gut, aber du kannst die Genauigkeit für Spezialterme verbessern.
Schlüsselwörter-Datei (Empfohlen)¶
Erstelle knowledge/whisper_keywords.md mit Begriffen, die Whisper erkennen soll:
realvirtual GmbH, game4automation, DeskAgent, Digital Twin, Unity
OPC UA, PLC, Siemens, Beckhoff, MQTT
Professional Edition, Research & Education Bundle
Thomas Strigl, Kranya
Füge ein:
- Firmen- und Produktnamen
- Branchenbegriffe und Abkürzungen
- Personennamen
- Ungewöhnliche Schreibweisen
Tipp: Halte es bei ca. 20 Schlüsselwörtern für beste Performance.
Automatische Extraktion¶
Wenn du keine Schlüsselwörter-Datei erstellst, extrahiert DeskAgent automatisch Begriffe aus:
knowledge/company.mdknowledge/products.md
Audio-Feedback¶
DeskAgent gibt Audio-Feedback, damit du weißt, was passiert:
| Sound | Bedeutung |
|---|---|
| Hoher Piepton (800 Hz) | Aufnahme gestartet |
| Tiefer Piepton (400 Hz) | Aufnahme gestoppt |
| Leise Klicks | Verarbeitung/Transkription läuft |
Outlook Web-Unterstützung¶
Der System-Hotkey funktioniert auch mit Outlook Web (Office 365 im Browser):
- Öffne Outlook Web in Chrome/Edge
- Klicke auf eine E-Mail, um sie auszuwählen
- Drücke Ctrl+Shift+Space für Aufnahme
- DeskAgent extrahiert die Message-ID aus der URL
- Der Antwort-Agent verarbeitet sie wie bei Desktop-Outlook
Browser-Integration
Bei der ersten Nutzung kann ein Zustimmungsdialog für Browser-Integration erscheinen. Dies startet einen Browser mit Remote-Debugging um die aktuelle URL zu lesen.
Fehlerbehebung¶
Sprach-Button wird nicht angezeigt¶
Prüfe: Ist der OpenAI API-Key konfiguriert?
"OpenAI API key not configured"¶
Füge deinen API-Key in config/backends.json unter ai_backends.openai.api_key ein.
Aufnahme startet nicht¶
Prüfe Abhängigkeiten:
Text wird nicht eingefügt (Generic-Modus)¶
- Stelle sicher, dass ein Textfeld fokussiert ist
- Versuche, in das Zielfeld zu klicken, bevor du den Hotkey drückst
- Prüfe, ob
pyperclipinstalliert ist
Agent-Hotkey startet Agent nicht¶
- Stelle sicher, dass eine E-Mail in Outlook ausgewählt ist (Einfach-Klick, nicht geöffnet)
- Prüfe, ob
outlook_agentinconfig/system.jsonkonfiguriert ist - Bei Outlook Web: Stelle sicher, dass du auf einer E-Mail-Detailseite bist (URL enthält Message-ID)
Schlechte Transkriptionsqualität¶
- Erstelle eine
knowledge/whisper_keywords.mdDatei - Sprich klar und in normalem Tempo
- Reduziere Hintergrundgeräusche
- Prüfe deine Mikrofon-Einstellungen
API-Details¶
Für Entwickler, die Spracheingabe integrieren:
| Endpoint | Methode | Beschreibung |
|---|---|---|
/transcribe/status | GET | Verfügbarkeit und Config prüfen |
/transcribe | POST | Audio-Datei transkribieren (multipart/form-data) |
Transkriptionskosten: 0,006 $ pro Minute (wird in Kostenstatistik erfasst)
Nächste Schritte¶
-
Tastaturkürzel
Lerne alle Kürzel für effizientes Arbeiten
-
E-Mail-Automatisierung
Automatisiere deine E-Mail-Workflows