LLM Benchmark v2 — Parameter-Übersicht
CLI-Parameter
| Parameter |
Typ |
Standard |
Beschreibung |
ANZAHL |
int (positional) |
— |
Anzahl der zu testenden Modelle (z.B. 4) |
--backend |
choice |
vllm |
Backend-Preset: vllm, ollama, lmstudio |
--url |
string |
None |
Eigene Base-URL, überschreibt --backend (z.B. http://localhost:9000/v1) |
--model |
string |
None |
Modellname explizit angeben, überspringt Auto-Detect (z.B. gemma4:31b) |
--results-dir |
string |
results/ |
Ausgabeverzeichnis |
Backend-Presets
| Name |
URL |
vllm |
http://localhost:8000/v1 |
ollama |
http://localhost:11434/v1 |
lmstudio |
http://localhost:1234/v1 |
Interne Konstanten
| Konstante |
Wert |
Beschreibung |
DEFAULT_TIMEOUT |
300.0 s |
HTTP-Timeout pro Request |
MAX_RETRIES |
3 |
Wiederholungen bei Fehler (429, 5xx, Timeout) |
Prompt-Blöcke
| ID |
Block |
Bezeichnung |
| A1 |
Code |
Sortierfunktion mit fehlenden Schlüsseln |
| A2 |
Code |
CSV-Debugging |
| A3 |
Code |
HTTP-API-Client |
| B1 |
Business |
MoE-Erklärung für Geschäftskunden |
| B2 |
Business |
E-Mail-Absage |
| B3 |
Business |
revDSG-Argumente |
Gemessene Metriken (pro Run)
| Metrik |
Beschreibung |
ttft_s |
Time to First Token (Sekunden) |
thinking_time_s |
Dauer des <think>-Blocks (0 wenn kein Thinking) |
total_time_s |
Gesamtlaufzeit |
total_tokens |
Anzahl generierter Tokens |
tokens_per_sec |
Throughput (tok/s) |
Beispielaufrufe
Ausgabe-Dateien
| Datei/Pfad |
Inhalt |
results/<modell>.json |
Metriken aller Runs (ohne Rohantworten) |
results/<modell>/<prompt_id>.txt |
Rohantwort pro Prompt |
results/benchmark_v2_<timestamp>.md |
Markdown-Report mit Zusammenfassung + Details |