Testen & Vergleichen¶

Agents sicher testen und AI-Backend-Performance vergleichen.

Überblick¶

DeskAgent bietet leistungsstarke Testfunktionen für Entwickler:

Feature	Beschreibung
Dry-Run Modus	Agents ausführen ohne tatsächliche Änderungen
Backend-Vergleich	Gleichen Agent auf mehreren AI-Backends ausführen
Split View	Paralleles Streaming-Output von allen Backends
Simulierte Aktionen	Sehen was passieren würde ohne Ausführung

Entwicklermodus erforderlich

Testfunktionen erfordern developer_mode: true in config/system.json.

Schnellzugriff¶

Aktion	Auslöser
Vorschau (Dry-Run)	Rechtsklick auf Agent → "Vorschau"
Backends vergleichen	Strg+Shift+Klick auf Agent-Kachel
Vergleich mit Dialog	Rechtsklick → "Vergleichen"

Dry-Run Modus¶

Der Dry-Run Modus ermöglicht das Testen von Agents gegen echte Daten ohne destruktive Operationen auszuführen.

So funktioniert es¶

Lese-Operationen werden normal ausgeführt (echte E-Mails, echte Dokumente)
Schreib-Operationen werden simuliert (Verschieben, Löschen, Markieren, Überweisungen)
Ergebnisse zeigen was passiert wäre

Simulierte Operationen¶

Diese Tools geben simulierten Erfolg zurück statt auszuführen:

Kategorie	Tools
Outlook	move_email, delete_email, flag_email, batch_email_actions
SEPA	create_sepa_transfer, create_sepa_batch
Paperless	upload_document, update_document, delete_document
Billomat	create_offer, create_invoice, finalize_offer

Dry-Run verwenden¶

Über Rechtsklick-Menü:

Rechtsklick auf eine Agent-Kachel
"Vorschau" auswählen
Agent läuft mit Dry-Run aktiviert
Simulierte Aktionen im Output prüfen

Über API:

GET /agent/{name}?dry_run=true

Ausgabeformat¶

Im Dry-Run Modus zeigen simulierte Aktionen:

{
  "success": true,
  "simulated": true,
  "action": "outlook_move_email",
  "args": {"entry_id": "ABC123", "folder": "ToDelete"},
  "message": "[DRY-RUN] Would execute: outlook_move_email"
}

Backend-Vergleich¶

Vergleichen Sie wie verschiedene AI-Backends denselben Agent behandeln.

Vergleich starten¶

Methode 1: Strg+Shift+Klick

Strg+Shift halten und auf Agent-Kachel klicken
Vergleichs-Dialog öffnet sich
Backends zum Testen auswählen
Dry-Run Modus umschalten (empfohlen: an)
"Vergleich starten" klicken

Methode 2: Rechtsklick-Menü

Rechtsklick auf Agent-Kachel
"Vergleichen" auswählen
Backends und Optionen konfigurieren
Vergleich starten

Split View UI¶

Beim Vergleich mehrerer Backends zeigt DeskAgent eine Split-Ansicht:

┌─────────────────────────────────────────────────────┐
│ Backend-Vergleich: daily_check        [DRY RUN]    X│
├─────────────────┬─────────────────┬─────────────────┤
│ claude_sdk      │ gemini          │ openai          │
│ ● Läuft...      │ ✓ Fertig        │ ● Läuft...      │
├─────────────────┼─────────────────┼─────────────────┤
│ Streaming       │ 5 E-Mails       │ Streaming       │
│ Output hier...  │ gefunden...     │ Output hier...  │
│                 │                 │                 │
├─────────────────┼─────────────────┼─────────────────┤
│ 12.5s           │ 8.3s            │ --              │
│ 1500/800 tok    │ 1200/650 tok    │ --              │
│ $0.0450         │ $0.0180         │ --              │
└─────────────────┴─────────────────┴─────────────────┘
│ 2/3 erfolgreich | Schnellster: gemini | Günstigster: gemini │
└─────────────────────────────────────────────────────┘

Vergleichsmetriken¶

Jedes Backend zeigt:

Metrik	Beschreibung
Zeit	Ausführungsdauer in Sekunden
Tokens	Input/Output Token-Anzahl
Kosten	Geschätzte Kosten in USD
Status	Erfolg/Fehler-Anzeige

Gewinner¶

Nach Abschluss identifiziert DeskAgent:

Schnellster: Niedrigste Ausführungszeit
Günstigster: Niedrigste Kosten (ohne kostenlose Backends)
Meiste Tokens: Höchste Output-Token-Anzahl

Vergleichsergebnisse¶

JSON-Export¶

Klicken Sie "Export JSON" um Ergebnisse herunterzuladen:

{
  "agent": "daily_check",
  "timestamp": "2025-01-03T10:30:00",
  "dry_run": true,
  "backends": {
    "claude_sdk": {
      "success": true,
      "duration_sec": 12.5,
      "tokens": {"input": 1500, "output": 800},
      "cost_usd": 0.045,
      "simulated_actions": [
        {"tool": "outlook_move_email", "args": {...}}
      ]
    },
    "gemini": {...}
  },
  "winner": {
    "fastest": "gemini",
    "cheapest": "gemini"
  }
}

Gespeicherte Vergleiche¶

Ergebnisse werden automatisch gespeichert unter:

workspace/.logs/comparisons/compare_{agent}_{timestamp}.json

API-Endpunkte¶

Endpunkt	Beschreibung
`POST /test/compare`	Vergleich ausführen
`GET /test/comparisons`	Gespeicherte Vergleiche auflisten
`GET /test/comparison/{file}`	Bestimmten Vergleich abrufen
`DELETE /test/comparisons`	Alle Vergleiche löschen

Backend-Auswahl¶

Backends konfigurieren¶

In config/backends.json die zu testenden Backends aktivieren:

{
  "ai_backends": {
    "claude_sdk": {
      "type": "claude_agent_sdk",
      "enabled": true
    },
    "gemini": {
      "type": "gemini_adk",
      "enabled": true
    },
    "openai": {
      "type": "openai_api",
      "enabled": true
    }
  }
}

Backend-Anforderungen¶

Jedes Backend benötigt:

API-Key konfiguriert (bei Cloud-Backends)
enabled: true in der Konfiguration
Gültige Konfiguration (der Vergleichs-Dialog zeigt unkonfigurierte Backends grau)

Best Practices¶

Wann Dry-Run verwenden¶

Neue Agent-Logik testen
E-Mail-Kategorisierungsregeln überprüfen
SEPA-Überweisungsbeträge vor Ausführung prüfen
Neue Teammitglieder schulen

Wann Backends vergleichen¶

Kosten vs. Qualität optimieren
Neue AI-Modelle evaluieren
Bestes Backend für bestimmte Aufgaben finden
Performance benchmarken

Empfohlener Workflow¶

Entwickeln Agent mit Dry-Run aktiviert
Vergleichen über Backends um beste Wahl zu finden
Testen mit echten Daten (weiterhin Dry-Run)
Deployen mit gewähltem Backend

Tastenkürzel-Übersicht¶

Kürzel	Aktion
Klick	Agent normal ausführen
Strg+Klick	Agent bearbeiten
Shift+Klick	Kontext vor Ausführung hinzufügen
Strg+Shift+Klick	Über Backends vergleichen
Rechtsklick	Kontextmenü öffnen

Fehlerbehebung¶

Vergleichs-Dialog zeigt keine Backends¶

developer_mode: true in system.json prüfen
Backends in backends.json verifizieren
DeskAgent nach Konfigurationsänderungen neu starten

Backend zeigt "Nicht konfiguriert"¶

Erforderlichen API-Key zu backends.json hinzufügen
API-Key Format und Gültigkeit prüfen
Internetverbindung für Cloud-Backends verifizieren

Split View lädt nicht¶

Browser-Konsole auf Fehler prüfen (F12)
Sicherstellen dass DeskAgent-Server läuft
Seite neu laden