Zum Inhalt

Testen & Vergleichen

Agents sicher testen und AI-Backend-Performance vergleichen.

Überblick

DeskAgent bietet leistungsstarke Testfunktionen für Entwickler:

Feature Beschreibung
Dry-Run Modus Agents ausführen ohne tatsächliche Änderungen
Backend-Vergleich Gleichen Agent auf mehreren AI-Backends ausführen
Split View Paralleles Streaming-Output von allen Backends
Simulierte Aktionen Sehen was passieren würde ohne Ausführung

Entwicklermodus erforderlich

Testfunktionen erfordern developer_mode: true in config/system.json.

Schnellzugriff

Aktion Auslöser
Vorschau (Dry-Run) Rechtsklick auf Agent → "Vorschau"
Backends vergleichen Strg+Shift+Klick auf Agent-Kachel
Vergleich mit Dialog Rechtsklick → "Vergleichen"

Dry-Run Modus

Der Dry-Run Modus ermöglicht das Testen von Agents gegen echte Daten ohne destruktive Operationen auszuführen.

So funktioniert es

  1. Lese-Operationen werden normal ausgeführt (echte E-Mails, echte Dokumente)
  2. Schreib-Operationen werden simuliert (Verschieben, Löschen, Markieren, Überweisungen)
  3. Ergebnisse zeigen was passiert wäre

Simulierte Operationen

Diese Tools geben simulierten Erfolg zurück statt auszuführen:

Kategorie Tools
Outlook move_email, delete_email, flag_email, batch_email_actions
SEPA create_sepa_transfer, create_sepa_batch
Paperless upload_document, update_document, delete_document
Billomat create_offer, create_invoice, finalize_offer

Dry-Run verwenden

Über Rechtsklick-Menü:

  1. Rechtsklick auf eine Agent-Kachel
  2. "Vorschau" auswählen
  3. Agent läuft mit Dry-Run aktiviert
  4. Simulierte Aktionen im Output prüfen

Über API:

GET /agent/{name}?dry_run=true

Ausgabeformat

Im Dry-Run Modus zeigen simulierte Aktionen:

{
  "success": true,
  "simulated": true,
  "action": "outlook_move_email",
  "args": {"entry_id": "ABC123", "folder": "ToDelete"},
  "message": "[DRY-RUN] Would execute: outlook_move_email"
}

Backend-Vergleich

Vergleichen Sie wie verschiedene AI-Backends denselben Agent behandeln.

Vergleich starten

Methode 1: Strg+Shift+Klick

  1. Strg+Shift halten und auf Agent-Kachel klicken
  2. Vergleichs-Dialog öffnet sich
  3. Backends zum Testen auswählen
  4. Dry-Run Modus umschalten (empfohlen: an)
  5. "Vergleich starten" klicken

Methode 2: Rechtsklick-Menü

  1. Rechtsklick auf Agent-Kachel
  2. "Vergleichen" auswählen
  3. Backends und Optionen konfigurieren
  4. Vergleich starten

Split View UI

Beim Vergleich mehrerer Backends zeigt DeskAgent eine Split-Ansicht:

┌─────────────────────────────────────────────────────┐
│ Backend-Vergleich: daily_check        [DRY RUN]    X│
├─────────────────┬─────────────────┬─────────────────┤
│ claude_sdk      │ gemini          │ openai          │
│ ● Läuft...      │ ✓ Fertig        │ ● Läuft...      │
├─────────────────┼─────────────────┼─────────────────┤
│ Streaming       │ 5 E-Mails       │ Streaming       │
│ Output hier...  │ gefunden...     │ Output hier...  │
│                 │                 │                 │
├─────────────────┼─────────────────┼─────────────────┤
│ 12.5s           │ 8.3s            │ --              │
│ 1500/800 tok    │ 1200/650 tok    │ --              │
│ $0.0450         │ $0.0180         │ --              │
└─────────────────┴─────────────────┴─────────────────┘
│ 2/3 erfolgreich | Schnellster: gemini | Günstigster: gemini │
└─────────────────────────────────────────────────────┘

Vergleichsmetriken

Jedes Backend zeigt:

Metrik Beschreibung
Zeit Ausführungsdauer in Sekunden
Tokens Input/Output Token-Anzahl
Kosten Geschätzte Kosten in USD
Status Erfolg/Fehler-Anzeige

Gewinner

Nach Abschluss identifiziert DeskAgent:

  • Schnellster: Niedrigste Ausführungszeit
  • Günstigster: Niedrigste Kosten (ohne kostenlose Backends)
  • Meiste Tokens: Höchste Output-Token-Anzahl

Vergleichsergebnisse

JSON-Export

Klicken Sie "Export JSON" um Ergebnisse herunterzuladen:

{
  "agent": "daily_check",
  "timestamp": "2025-01-03T10:30:00",
  "dry_run": true,
  "backends": {
    "claude_sdk": {
      "success": true,
      "duration_sec": 12.5,
      "tokens": {"input": 1500, "output": 800},
      "cost_usd": 0.045,
      "simulated_actions": [
        {"tool": "outlook_move_email", "args": {...}}
      ]
    },
    "gemini": {...}
  },
  "winner": {
    "fastest": "gemini",
    "cheapest": "gemini"
  }
}

Gespeicherte Vergleiche

Ergebnisse werden automatisch gespeichert unter:

workspace/.logs/comparisons/compare_{agent}_{timestamp}.json

API-Endpunkte

Endpunkt Beschreibung
POST /test/compare Vergleich ausführen
GET /test/comparisons Gespeicherte Vergleiche auflisten
GET /test/comparison/{file} Bestimmten Vergleich abrufen
DELETE /test/comparisons Alle Vergleiche löschen

Backend-Auswahl

Backends konfigurieren

In config/backends.json die zu testenden Backends aktivieren:

{
  "ai_backends": {
    "claude_sdk": {
      "type": "claude_agent_sdk",
      "enabled": true
    },
    "gemini": {
      "type": "gemini_adk",
      "enabled": true
    },
    "openai": {
      "type": "openai_api",
      "enabled": true
    }
  }
}

Backend-Anforderungen

Jedes Backend benötigt:

  1. API-Key konfiguriert (bei Cloud-Backends)
  2. enabled: true in der Konfiguration
  3. Gültige Konfiguration (der Vergleichs-Dialog zeigt unkonfigurierte Backends grau)

Best Practices

Wann Dry-Run verwenden

  • Neue Agent-Logik testen
  • E-Mail-Kategorisierungsregeln überprüfen
  • SEPA-Überweisungsbeträge vor Ausführung prüfen
  • Neue Teammitglieder schulen

Wann Backends vergleichen

  • Kosten vs. Qualität optimieren
  • Neue AI-Modelle evaluieren
  • Bestes Backend für bestimmte Aufgaben finden
  • Performance benchmarken

Empfohlener Workflow

  1. Entwickeln Agent mit Dry-Run aktiviert
  2. Vergleichen über Backends um beste Wahl zu finden
  3. Testen mit echten Daten (weiterhin Dry-Run)
  4. Deployen mit gewähltem Backend

Tastenkürzel-Übersicht

Kürzel Aktion
Klick Agent normal ausführen
Strg+Klick Agent bearbeiten
Shift+Klick Kontext vor Ausführung hinzufügen
Strg+Shift+Klick Über Backends vergleichen
Rechtsklick Kontextmenü öffnen

Fehlerbehebung

Vergleichs-Dialog zeigt keine Backends

  • developer_mode: true in system.json prüfen
  • Backends in backends.json verifizieren
  • DeskAgent nach Konfigurationsänderungen neu starten

Backend zeigt "Nicht konfiguriert"

  • Erforderlichen API-Key zu backends.json hinzufügen
  • API-Key Format und Gültigkeit prüfen
  • Internetverbindung für Cloud-Backends verifizieren

Split View lädt nicht

  • Browser-Konsole auf Fehler prüfen (F12)
  • Sicherstellen dass DeskAgent-Server läuft
  • Seite neu laden