Files

Claude cd6553c170 docs: Walk-Forward-Ergebnisse aller 7 Varianten (Gate nicht bestanden)

Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>

2026-06-09 22:11:25 +00:00

3.0 KiB

Raw Blame History

Walk-Forward-Ergebnisse — 2026-06-09

Datenbasis: 103 799 15m-Candles je Pair (BTC/ETH/SOL/XRP_USDT), 2023-06-24 → 2026-06-09 (~3 Jahre, Crypto.com-History-Limit). 32 OOS-Fenster (Train 120d → Test 30d, Schritt 30d). Fees 0.1 % + Slippage 0.05 % je Seite. Alle Läufe in DB tradekuns.backtest_runs persistiert.

Getestete Varianten (chronologisch, jede als Antwort auf einen diagnostizierten Defekt)

#	Variante	Daten	OOS-PF	Trades	MaxDD	Overfit-Ratio	Gate
1	Long-only, Grid-Suche	14 Mon	0.64	65	16.7 %	3.45	❌ 3/5 Checks rot
2	+ Shorts, Grid	14 Mon	1.13	148	24.7 %	1.52	❌ PF + Fenster
3	+ ADX-Filter (fix 20), Grid	14 Mon	1.12	117	16.9 %	1.54	❌ PF + Fenster
4	Long-only, Grid (3 J)	36 Mon	1.25	214	13.8 %	2.58	❌ Fenster + Ratio
5	Shorts+ADX, Grid (3 J)	36 Mon	1.11	405	20.1 %	1.71	❌ PF + Fenster
6	Long-only, FIXE Params (Donchian 20 / ATR×3 / EMA 200 / ADX 20)	36 Mon	1.21	249	16.0 %	1.51	❌ nur Fenster-Check (4/5 ✅)
7	Momentum-Rotation (30d/weekly/top-1, fix)	36 Mon	0.48	61	55.2 %	4.64	❌ 4/5 Checks rot

Kernbefunde

Shorts verwässern auf 3 Jahren den Edge (PF 1.25 → 1.11): Krypto-Long-Bias; Breakdowns produzieren mehr Whipsaw als Breakouts. Auf den letzten 14 Monaten (Bärenphase) war es umgekehrt.
Grid-Suche schadet: Ratio 2.58 mit Grid vs. 1.51 mit fixen Parametern bei fast gleichem PF. Die Parameterwahl auf Train-Fenstern pickt Rauschen.
Beste Variante (#6) hat echten, aber dünnen und klumpigen Edge: +17 % über ~2.4 Jahre OOS, aber 11 von 32 Fenstern verlieren mit PF < 0.5 — darunter die beiden jüngsten (Frühjahr 2026). Trendfolge ist naturgemäß klumpig, aber 34 % schlechte Monate inkl. der aktuellsten ist ein substanzieller Befund, kein Artefakt des strengen Kriteriums.
Momentum-Rotation (#7) ist in dieser Form unbrauchbar — auch in-sample durchgehend rot, d. h. kein Overfitting-Problem, sondern kein Edge (Voll-Equity ohne Stops + wöchentliches Nachjagen des Leaders in 4 hochkorrelierten Assets).

Methodische Notiz

Sieben Varianten gegen dieselben Daten testen erodiert die Aussagekraft des Gates (Multiple-Testing). Jede Iteration war eine vorab benannte Antwort auf einen konkreten Defekt, nicht freies Fishing — trotzdem gilt: Der eigentliche Beweis wäre ohnehin erst Live-Paper-Trading mit dem DecisionLog-Edge-Monitoring. Das Gate-Kriterium „kein Fenster PF < 0.5" wurde für ~13 Fenster entworfen und skaliert nicht formal mit 32 Fenstern — bei 11/32 schlechten Fenstern ist das aber akademisch: Auch ein skaliertes Kriterium (z. B. ≤ 15 % schlechte Fenster) würde reißen.

Status

Kein Deploy. Phase 3 (Live-Engine) wird laut Spec erst gebaut, wenn eine Variante das Gate besteht — oder der User das Gate bewusst neu definiert. Entscheidung offen.

3.0 KiB Raw Blame History Unescape Escape