LLM Benchmark v2 — Parameter-Übersicht
CLI-Parameter
| Parameter | Typ | Standard | Beschreibung |
|---|---|---|---|
ANZAHL |
int (positional) |
— | Anzahl der zu testenden Modelle (z.B. 4) |
--backend |
choice | vllm |
Backend-Preset: vllm, ollama, lmstudio |
--url |
string | None |
Eigene Base-URL, überschreibt --backend (z.B. http://localhost:9000/v1) |
--model |
string | None |
Modellname explizit angeben, überspringt Auto-Detect (z.B. gemma4:31b) |
--results-dir |
string | results/ |
Ausgabeverzeichnis |
Backend-Presets
| Name | URL |
|---|---|
vllm |
http://localhost:8000/v1 |
ollama |
http://localhost:11434/v1 |
lmstudio |
http://localhost:1234/v1 |
Interne Konstanten
| Konstante | Wert | Beschreibung |
|---|---|---|
DEFAULT_TIMEOUT |
300.0 s |
HTTP-Timeout pro Request |
MAX_RETRIES |
3 |
Wiederholungen bei Fehler (429, 5xx, Timeout) |
Prompt-Blöcke
| ID | Block | Bezeichnung |
|---|---|---|
| A1 | Code | Sortierfunktion mit fehlenden Schlüsseln |
| A2 | Code | CSV-Debugging |
| A3 | Code | HTTP-API-Client |
| B1 | Business | MoE-Erklärung für Geschäftskunden |
| B2 | Business | E-Mail-Absage |
| B3 | Business | revDSG-Argumente |
Gemessene Metriken (pro Run)
| Metrik | Beschreibung |
|---|---|
ttft_s |
Time to First Token (Sekunden) |
thinking_time_s |
Dauer des <think>-Blocks (0 wenn kein Thinking) |
total_time_s |
Gesamtlaufzeit |
total_tokens |
Anzahl generierter Tokens |
tokens_per_sec |
Throughput (tok/s) |
Beispielaufrufe
# 4 Modelle mit vllm (Standard)
python benchmark_v2.py 4
# 2 Modelle mit ollama
python benchmark_v2.py 2 --backend ollama
# 1 Modell mit custom URL und festem Modellnamen
python benchmark_v2.py 1 --url http://localhost:9000/v1 --model gemma4:31b
# Eigenes Ausgabeverzeichnis
python benchmark_v2.py 2 --results-dir /tmp/bench
Ausgabe-Dateien
| Datei/Pfad | Inhalt |
|---|---|
results/<modell>.json |
Metriken aller Runs (ohne Rohantworten) |
results/<modell>/<prompt_id>.txt |
Rohantwort pro Prompt |
results/benchmark_v2_<timestamp>.md |
Markdown-Report mit Zusammenfassung + Details |
Description
Languages
Python
100%