Testen & Vergleichen¶
Agents sicher testen und AI-Backend-Performance vergleichen.
Überblick¶
DeskAgent bietet leistungsstarke Testfunktionen für Entwickler:
| Feature | Beschreibung |
|---|---|
| Dry-Run Modus | Agents ausführen ohne tatsächliche Änderungen |
| Backend-Vergleich | Gleichen Agent auf mehreren AI-Backends ausführen |
| Split View | Paralleles Streaming-Output von allen Backends |
| Simulierte Aktionen | Sehen was passieren würde ohne Ausführung |
Entwicklermodus erforderlich
Testfunktionen erfordern developer_mode: true in config/system.json.
Schnellzugriff¶
| Aktion | Auslöser |
|---|---|
| Vorschau (Dry-Run) | Rechtsklick auf Agent → "Vorschau" |
| Backends vergleichen | Strg+Shift+Klick auf Agent-Kachel |
| Vergleich mit Dialog | Rechtsklick → "Vergleichen" |
Dry-Run Modus¶
Der Dry-Run Modus ermöglicht das Testen von Agents gegen echte Daten ohne destruktive Operationen auszuführen.
So funktioniert es¶
- Lese-Operationen werden normal ausgeführt (echte E-Mails, echte Dokumente)
- Schreib-Operationen werden simuliert (Verschieben, Löschen, Markieren, Überweisungen)
- Ergebnisse zeigen was passiert wäre
Simulierte Operationen¶
Diese Tools geben simulierten Erfolg zurück statt auszuführen:
| Kategorie | Tools |
|---|---|
| Outlook | move_email, delete_email, flag_email, batch_email_actions |
| SEPA | create_sepa_transfer, create_sepa_batch |
| Paperless | upload_document, update_document, delete_document |
| Billomat | create_offer, create_invoice, finalize_offer |
Dry-Run verwenden¶
Über Rechtsklick-Menü:
- Rechtsklick auf eine Agent-Kachel
- "Vorschau" auswählen
- Agent läuft mit Dry-Run aktiviert
- Simulierte Aktionen im Output prüfen
Über API:
Ausgabeformat¶
Im Dry-Run Modus zeigen simulierte Aktionen:
{
"success": true,
"simulated": true,
"action": "outlook_move_email",
"args": {"entry_id": "ABC123", "folder": "ToDelete"},
"message": "[DRY-RUN] Would execute: outlook_move_email"
}
Backend-Vergleich¶
Vergleichen Sie wie verschiedene AI-Backends denselben Agent behandeln.
Vergleich starten¶
Methode 1: Strg+Shift+Klick
- Strg+Shift halten und auf Agent-Kachel klicken
- Vergleichs-Dialog öffnet sich
- Backends zum Testen auswählen
- Dry-Run Modus umschalten (empfohlen: an)
- "Vergleich starten" klicken
Methode 2: Rechtsklick-Menü
- Rechtsklick auf Agent-Kachel
- "Vergleichen" auswählen
- Backends und Optionen konfigurieren
- Vergleich starten
Split View UI¶
Beim Vergleich mehrerer Backends zeigt DeskAgent eine Split-Ansicht:
┌─────────────────────────────────────────────────────┐
│ Backend-Vergleich: daily_check [DRY RUN] X│
├─────────────────┬─────────────────┬─────────────────┤
│ claude_sdk │ gemini │ openai │
│ ● Läuft... │ ✓ Fertig │ ● Läuft... │
├─────────────────┼─────────────────┼─────────────────┤
│ Streaming │ 5 E-Mails │ Streaming │
│ Output hier... │ gefunden... │ Output hier... │
│ │ │ │
├─────────────────┼─────────────────┼─────────────────┤
│ 12.5s │ 8.3s │ -- │
│ 1500/800 tok │ 1200/650 tok │ -- │
│ $0.0450 │ $0.0180 │ -- │
└─────────────────┴─────────────────┴─────────────────┘
│ 2/3 erfolgreich | Schnellster: gemini | Günstigster: gemini │
└─────────────────────────────────────────────────────┘
Vergleichsmetriken¶
Jedes Backend zeigt:
| Metrik | Beschreibung |
|---|---|
| Zeit | Ausführungsdauer in Sekunden |
| Tokens | Input/Output Token-Anzahl |
| Kosten | Geschätzte Kosten in USD |
| Status | Erfolg/Fehler-Anzeige |
Gewinner¶
Nach Abschluss identifiziert DeskAgent:
- Schnellster: Niedrigste Ausführungszeit
- Günstigster: Niedrigste Kosten (ohne kostenlose Backends)
- Meiste Tokens: Höchste Output-Token-Anzahl
Vergleichsergebnisse¶
JSON-Export¶
Klicken Sie "Export JSON" um Ergebnisse herunterzuladen:
{
"agent": "daily_check",
"timestamp": "2025-01-03T10:30:00",
"dry_run": true,
"backends": {
"claude_sdk": {
"success": true,
"duration_sec": 12.5,
"tokens": {"input": 1500, "output": 800},
"cost_usd": 0.045,
"simulated_actions": [
{"tool": "outlook_move_email", "args": {...}}
]
},
"gemini": {...}
},
"winner": {
"fastest": "gemini",
"cheapest": "gemini"
}
}
Gespeicherte Vergleiche¶
Ergebnisse werden automatisch gespeichert unter:
API-Endpunkte¶
| Endpunkt | Beschreibung |
|---|---|
POST /test/compare | Vergleich ausführen |
GET /test/comparisons | Gespeicherte Vergleiche auflisten |
GET /test/comparison/{file} | Bestimmten Vergleich abrufen |
DELETE /test/comparisons | Alle Vergleiche löschen |
Backend-Auswahl¶
Backends konfigurieren¶
In config/backends.json die zu testenden Backends aktivieren:
{
"ai_backends": {
"claude_sdk": {
"type": "claude_agent_sdk",
"enabled": true
},
"gemini": {
"type": "gemini_adk",
"enabled": true
},
"openai": {
"type": "openai_api",
"enabled": true
}
}
}
Backend-Anforderungen¶
Jedes Backend benötigt:
- API-Key konfiguriert (bei Cloud-Backends)
- enabled: true in der Konfiguration
- Gültige Konfiguration (der Vergleichs-Dialog zeigt unkonfigurierte Backends grau)
Best Practices¶
Wann Dry-Run verwenden¶
- Neue Agent-Logik testen
- E-Mail-Kategorisierungsregeln überprüfen
- SEPA-Überweisungsbeträge vor Ausführung prüfen
- Neue Teammitglieder schulen
Wann Backends vergleichen¶
- Kosten vs. Qualität optimieren
- Neue AI-Modelle evaluieren
- Bestes Backend für bestimmte Aufgaben finden
- Performance benchmarken
Empfohlener Workflow¶
- Entwickeln Agent mit Dry-Run aktiviert
- Vergleichen über Backends um beste Wahl zu finden
- Testen mit echten Daten (weiterhin Dry-Run)
- Deployen mit gewähltem Backend
Tastenkürzel-Übersicht¶
| Kürzel | Aktion |
|---|---|
| Klick | Agent normal ausführen |
| Strg+Klick | Agent bearbeiten |
| Shift+Klick | Kontext vor Ausführung hinzufügen |
| Strg+Shift+Klick | Über Backends vergleichen |
| Rechtsklick | Kontextmenü öffnen |
Fehlerbehebung¶
Vergleichs-Dialog zeigt keine Backends¶
developer_mode: truein system.json prüfen- Backends in backends.json verifizieren
- DeskAgent nach Konfigurationsänderungen neu starten
Backend zeigt "Nicht konfiguriert"¶
- Erforderlichen API-Key zu backends.json hinzufügen
- API-Key Format und Gültigkeit prüfen
- Internetverbindung für Cloud-Backends verifizieren
Split View lädt nicht¶
- Browser-Konsole auf Fehler prüfen (F12)
- Sicherstellen dass DeskAgent-Server läuft
- Seite neu laden