docs: Walk-Forward-Ergebnisse aller 7 Varianten (Gate nicht bestanden)
Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>
This commit is contained in:
45
docs/walkforward-ergebnisse-2026-06-09.md
Normal file
45
docs/walkforward-ergebnisse-2026-06-09.md
Normal file
@@ -0,0 +1,45 @@
|
||||
# Walk-Forward-Ergebnisse — 2026-06-09
|
||||
|
||||
Datenbasis: 103 799 15m-Candles je Pair (BTC/ETH/SOL/XRP_USDT), 2023-06-24 → 2026-06-09 (~3 Jahre,
|
||||
Crypto.com-History-Limit). 32 OOS-Fenster (Train 120d → Test 30d, Schritt 30d). Fees 0.1 % + Slippage
|
||||
0.05 % je Seite. Alle Läufe in DB `tradekuns.backtest_runs` persistiert.
|
||||
|
||||
## Getestete Varianten (chronologisch, jede als Antwort auf einen diagnostizierten Defekt)
|
||||
|
||||
| # | Variante | Daten | OOS-PF | Trades | MaxDD | Overfit-Ratio | Gate |
|
||||
|---|----------|-------|-------:|-------:|------:|--------------:|------|
|
||||
| 1 | Long-only, Grid-Suche | 14 Mon | 0.64 | 65 | 16.7 % | 3.45 | ❌ 3/5 Checks rot |
|
||||
| 2 | + Shorts, Grid | 14 Mon | 1.13 | 148 | 24.7 % | 1.52 | ❌ PF + Fenster |
|
||||
| 3 | + ADX-Filter (fix 20), Grid | 14 Mon | 1.12 | 117 | 16.9 % | 1.54 | ❌ PF + Fenster |
|
||||
| 4 | Long-only, Grid (3 J) | 36 Mon | 1.25 | 214 | 13.8 % | 2.58 | ❌ Fenster + Ratio |
|
||||
| 5 | Shorts+ADX, Grid (3 J) | 36 Mon | 1.11 | 405 | 20.1 % | 1.71 | ❌ PF + Fenster |
|
||||
| 6 | **Long-only, FIXE Params** (Donchian 20 / ATR×3 / EMA 200 / ADX 20) | 36 Mon | **1.21** | **249** | **16.0 %** | **1.51** | ❌ **nur Fenster-Check** (4/5 ✅) |
|
||||
| 7 | Momentum-Rotation (30d/weekly/top-1, fix) | 36 Mon | 0.48 | 61 | 55.2 % | 4.64 | ❌ 4/5 Checks rot |
|
||||
|
||||
## Kernbefunde
|
||||
|
||||
1. **Shorts verwässern auf 3 Jahren den Edge** (PF 1.25 → 1.11): Krypto-Long-Bias; Breakdowns
|
||||
produzieren mehr Whipsaw als Breakouts. Auf den letzten 14 Monaten (Bärenphase) war es umgekehrt.
|
||||
2. **Grid-Suche schadet:** Ratio 2.58 mit Grid vs. 1.51 mit fixen Parametern bei fast gleichem PF.
|
||||
Die Parameterwahl auf Train-Fenstern pickt Rauschen.
|
||||
3. **Beste Variante (#6)** hat echten, aber dünnen und klumpigen Edge: +17 % über ~2.4 Jahre OOS,
|
||||
aber **11 von 32 Fenstern verlieren mit PF < 0.5** — darunter die beiden jüngsten
|
||||
(Frühjahr 2026). Trendfolge ist naturgemäß klumpig, aber 34 % schlechte Monate inkl. der
|
||||
aktuellsten ist ein substanzieller Befund, kein Artefakt des strengen Kriteriums.
|
||||
4. **Momentum-Rotation (#7) ist in dieser Form unbrauchbar** — auch in-sample durchgehend rot,
|
||||
d. h. kein Overfitting-Problem, sondern kein Edge (Voll-Equity ohne Stops + wöchentliches
|
||||
Nachjagen des Leaders in 4 hochkorrelierten Assets).
|
||||
|
||||
## Methodische Notiz
|
||||
|
||||
Sieben Varianten gegen dieselben Daten testen erodiert die Aussagekraft des Gates
|
||||
(Multiple-Testing). Jede Iteration war eine vorab benannte Antwort auf einen konkreten Defekt,
|
||||
nicht freies Fishing — trotzdem gilt: Der eigentliche Beweis wäre ohnehin erst Live-Paper-Trading
|
||||
mit dem DecisionLog-Edge-Monitoring. Das Gate-Kriterium „kein Fenster PF < 0.5" wurde für ~13
|
||||
Fenster entworfen und skaliert nicht formal mit 32 Fenstern — bei 11/32 schlechten Fenstern ist
|
||||
das aber akademisch: Auch ein skaliertes Kriterium (z. B. ≤ 15 % schlechte Fenster) würde reißen.
|
||||
|
||||
## Status
|
||||
|
||||
**Kein Deploy.** Phase 3 (Live-Engine) wird laut Spec erst gebaut, wenn eine Variante das Gate
|
||||
besteht — oder der User das Gate bewusst neu definiert. Entscheidung offen.
|
||||
Reference in New Issue
Block a user