Construire un hedger neuronal entraîné sur une grille de quantification vectorielle des trajectoires Black-Scholes pour couvrir une option asiatique arithmétique, et le comparer à un Deep Hedger entraîné sur Monte Carlo brut. La mesure de risque cible est minimisée via le schéma d'approximation stochastique Bardou-Frikha-Pagès couplé à la formulation variationnelle Rockafellar-Uryasev. Étude multi-seed $R=5$ : DH-CLVQ-S à $K=200$ atteint $\mathrm{CVaR}_{0{.}95} = 11{.}15 \pm 0{.}57$, soit −37.8 % vs $\Delta$ BS proxy ($t = -11.7$, $p < 10^{-3}$).
Chaque partie présente d'abord la théorie (énoncés, formules encadrées, esquisses
de preuves), puis une démonstration interactive. Les contrôles
▶ play, ⏯ pause, ↻ reset et ⏭ step permettent
d'avancer pas à pas et de visualiser comment évoluent les itérations stochastiques. Les sliders
modifient les hyperparamètres en temps réel.
| # | Sujet | Référence | Démo |
|---|---|---|---|
| 1 | Robbins-Monro, Robbins-Siegmund, TCL, Polyak-Juditsky | Pagès 2018, ch. 6 | → play |
| 2 | Black-Scholes, log-Euler exact, asiatique arithmétique, MC + IC95% | Lamberton-Lapeyre, ch. 4 | → play |
| 3 | CLVQ, Voronoï, Zador ($d=51$), schéma RM | Pagès 2018, ch. 5 | → play |
| 4 | Deep Hedger MC, MLP partagé, CVaR-RU, SA joint $(\theta,\xi)$ | Buehler 2019 + RU 2000 + BFP 2009 | → play |
| 5 | Fusion CLVQ → DH, mesure compressée, deux estimateurs B/S | Pagès 2018, ch. 5 + BFP 2009 | → play |
| 6 | Comparatif final 5 stratégies sur $M_{\mathrm{test}}=10\,000$ (seed 100) | 12 métriques, queue + temps | → play |
| 7 | Convergence empirique, Polyak-Ruppert, limites, ouvertures | Synthèse pédagogique | → voir |
Schéma RM : trouver un zéro $\theta^*$ d'un champ moyen $h$ inaccessible, en disposant uniquement d'un oracle bruité $H(\theta, Z)$ avec $\mathbb{E}[H(\theta, Z)] = h(\theta)$. C'est le squelette commun à toutes les autres parties : CLVQ, SGD du Deep Hedger, schéma CVaR de Bardou-Frikha-Pagès.
Décomposition champ + bruit. En posant $\Delta M_{n+1} = H(\theta_n, Z_{n+1}) - h(\theta_n)$, l'itération s'écrit $$\theta_{n+1} = \theta_n - \gamma_{n+1}\, h(\theta_n) - \gamma_{n+1}\, \Delta M_{n+1},$$ somme d'un terme de descente déterministe et d'un incrément de martingale centré.
(H1) Conditions de pas. $\gamma_n > 0$ et
Choix paramétrique : $\gamma_n = c\, n^{-\alpha}$ avec $\alpha \in (1/2, 1]$. La 1ère condition empêche l'algo de figer ; la 2nde contrôle la variance accumulée.
(H2) Champ de Lyapunov. Existence de $V \in \mathcal{C}^1$ coercive avec $\langle \nabla V(\theta), h(\theta)\rangle \geq 0$, égalité ssi $\theta = \theta^*$.
(H3) Bruit $L^2$ centré conditionnellement. $\mathbb{E}[\Delta M_{n+1} \mid \mathcal{F}_n] = 0$ et $\mathbb{E}[\|\Delta M_{n+1}\|^2 \mid \mathcal{F}_n] \leq K_0(1 + V(\theta_n))$.
Soient $(U_n), (\beta_n), (\eta_n), (\zeta_n)$ adaptés positifs avec
Sous (H1)-(H3), $\theta_n \xrightarrow{\mathrm{ps}} \theta^*$.
Robbins-Siegmund appliqué à $U_n = V(\theta_n)$. Taylor ordre 2 + (H3) donnent $\mathbb{E}[U_{n+1}|\mathcal{F}_n] \leq U_n - \gamma_{n+1}\langle\nabla V(\theta_n), h(\theta_n)\rangle + C'\gamma_{n+1}^2(1+U_n)$. Format RS avec $\zeta_n = \gamma_{n+1}\langle\nabla V, h\rangle \geq 0$ : convergence p.s. de $V(\theta_n)$ et $\sum \zeta_n < \infty$. Comme $\sum\gamma_n = \infty$, on force $\langle\nabla V(\theta_n), h(\theta_n)\rangle \to 0$ p.s. ; sous unicité, $\theta_n \to \theta^*$ p.s.
Sous régularité ($\nabla h(\theta^*) = A$ stable au sens où $\mathrm{Re}\,\lambda(A) > 0$, $\Sigma(\theta)$ continue en $\theta^*$), avec $\gamma_n = c\,n^{-\alpha}$, $\alpha \in (1/2, 1]$ (et $c$ assez grand si $\alpha = 1$) :
où $\Sigma_\infty$ résout l'équation de Lyapunov $A\Sigma_\infty + \Sigma_\infty A^\top - c^{-1}\mathbf{1}_{\alpha=1}\Sigma_\infty = \Sigma(\theta^*)$.
Vitesse $\sqrt{n^\alpha}$ : strictement plus lente que la vitesse paramétrique $\sqrt{n}$ dès que $\alpha < 1$ — d'où l'intérêt du moyennage Polyak-Ruppert ci-dessous, qui restaure $\sqrt{n}$. Exposé moderne : Pagès 2018, ch. 6, ou Benveniste-Métivier-Priouret 1990.
Avec $\bar\theta_n = \frac{1}{n}\sum_{k=1}^n \theta_k$ et $\gamma_n = c\,n^{-\alpha}$, $\alpha \in (1/2, 1)$ :
$\Sigma^*$ est optimale (borne Cramér-Rao stochastique) : meilleure vitesse $1/\sqrt{n}$ sans connaître $A$.
EDS pilote du projet sous mesure risque-neutre $\mathbb{Q}$, sa solution log-normale exacte, et le schéma log-Euler pour la simulation Monte Carlo. C'est la « source » des trajectoires qui alimentent CLVQ (Partie 3) et le Deep Hedger (Partie 4).
Le théorème de Girsanov fournit $W^{\mathbb{Q}}$ par décalage du drift de $(\mu - r)/\sigma$ ; tout le projet se place sous $\mathbb{Q}$.
En particulier, $\log(S_t/S_0) \sim \mathcal{N}((r-\sigma^2/2)t,\; \sigma^2 t)$ sous $\mathbb{Q}$, avec $\mathbb{E}^{\mathbb{Q}}[S_t] = S_0\, e^{rt}$ et $\mathrm{Var}^{\mathbb{Q}}(S_t) = S_0^2\, e^{2rt}(e^{\sigma^2 t} - 1)$.
Itô sur $X_t = \log S_t$ : $\mathrm{d}X_t = (r-\sigma^2/2)\mathrm{d}t + \sigma\,\mathrm{d}W^{\mathbb{Q}}_t$ (drift et vol constants en $X$). On intègre puis on exponentie. Unicité forte : coefficients lipschitziens sur tout compact + non-explosion (Lamberton-Lapeyre 2008, ch. 4, Th. 4.3.2).
Sur $0 = t_0 < t_1 < \cdots < t_N = T$ avec $\Delta t = T/N$ et incréments gaussiens iid $Z_k \sim \mathcal{N}(0, 1)$ :
Schéma exact (pas un schéma d'Euler approché du fait de la log-normalité). Préserve $S_t > 0$.
Pas de formule fermée pour le delta exact (Geman-Yor non implémenté) ; d'où l'intérêt du Deep Hedger qui apprend la stratégie directement.
Pour $f$ telle que $\mathbb{E}[f(S_{0:N})^2] < \infty$, l'estimateur MC sur $M$ trajectoires iid :
Vitesse $1/\sqrt{M}$ par TCL classique.
Construire une grille pondérée $(\gamma^i, w^i)_{i=1..K}$ qui résume la loi de $S$ en minimisant la distorsion quadratique. CLVQ est exactement un schéma de Robbins-Monro sur le système $\nabla D_K(\Gamma) = 0$.
Cellules de Voronoï : $V_i(\Gamma) = \{x : \|x - \gamma^i\| \leq \|x - \gamma^j\|\, \forall j\}$.
Projection & poids : $\hat S^{\Gamma_K} = \sum_i \gamma^i \mathbf{1}_{V_i}(S)$, $\;w^i = \mathbb{Q}(S \in V_i(\Gamma))$, avec $\sum_i w^i = 1$.
Pour $S$ à valeurs dans $\mathbb{R}^d$ avec densité absolument continue,
Malédiction d'enveloppe. Trajectoires BS sur 50 pas $\Rightarrow d = N+1 = 51$, soit $K^{-2/51} \approx K^{-0.039}$ — décroissance extrêmement lente sur l'enveloppe.
La pente empirique mesurée vaut $-0{.}141$ — bien plus rapide que $-0{.}039$. Ce facteur 3.6 trouve son explication dans la concentration de mesure sur les diffusions browniennes : la mesure $\mathcal L(S_{0:N})$ vit nominalement dans $\mathbb R^{51}$, mais sa structure de covariance brownienne la concentre sur une variété de dimension intrinsèquement plus faible.
Estimation par PCA (sur les $10\,000$ trajectoires d'entraînement, après centrage-réduction) :
Soit, pour les fonctionnelles d'intérêt, des pentes Zador effectives :
L'observation empirique se situe entre les deux bornes, plus proche de $-2/d_{\mathrm{eff}}^{(99)}$ — cohérent avec le fait que la quantification quadratique « voit » surtout les directions principales et perd peu sur les directions de faible variance. Cette correction est mentionnée dans Pagès 2018 (chap. 5) sous le terme « dimension du support effectif ».
Pour $X_{n+1}$ tiré iid selon $\mathcal{L}(S)$, gagnant $i^* = \arg\min_i \|X_{n+1} - \gamma^i_n\|$ :
Lecture RM. Empilons en $\Gamma_n$, alors $\Gamma_{n+1} = \Gamma_n - \gamma_{n+1} H(\Gamma_n, X_{n+1})$ avec $\mathbb{E}[H(\Gamma, S)] = \frac{1}{2}\nabla D_K(\Gamma)$. CLVQ est un schéma RM sur $\nabla D_K = 0$.
Sous (H1) pas RM, (H2) support compact ou queues sous-gaussiennes + densité, (H3) centroïdes initiaux deux à deux distincts : $\Gamma_n \to \Gamma^\infty$ p.s., point critique de $D_K$ (auto-cohérence : $\gamma^i_\infty = \mathbb{E}[S \mid S \in V_i(\Gamma_\infty)]$).
⚠ La distorsion $D_K$ n'est pas convexe en $\Gamma$ — minima locaux multiples, d'où l'intérêt de réplications multi-seed.
Sur un échantillon iid $X_1, \dots, X_M$ et $\Gamma_K$ fixée :
$\mathrm{IC}_{95\%}$ asymptotique : $\hat D_M \pm 1.96\, \hat\sigma_D/\sqrt{M}$.
Architecture shared network de Buehler-Gonon-Teichmann-Wood 2019 : un seul MLP $\delta_\theta$ partagé sur tous les pas, avec date $t_k/N$ comme feature explicite (verrouillée dans le projet sous l'étiquette interne « Plan A »). La loss CVaR est rendue différentiable par la formulation variationnelle de Rockafellar-Uryasev, dont le minimum est résolu par un schéma SA joint $(\theta, \xi)$ de Bardou-Frikha-Pagès.
Sous mesure risque-neutre $\mathbb Q$, hors prime initiale, avec $\delta_{t_k}$ position au pas $k$ :
Le terme correcteur $-S_{t_k}e^{r\Delta t}$ centre l'incrément sous $\mathbb Q$ : puisque $\mathbb E^{\mathbb Q}[S_{t_{k+1}}\mid\mathcal F_{t_k}] = S_{t_k}e^{r\Delta t}$, l'espérance du gain de hedging est nulle et seule la variance du tracking error contribue. Loss = $L = -\Pi_T$ ; minimiser $\rho(L)$ avec $\rho \in \{\mathrm{MSE}, \mathrm{CVaR}_\alpha\}$.
Une seule fonction $\delta_\theta$ appliquée à chaque pas avec la date en feature : économise
$N$ MLPs séparés, exploite le caractère markovien de la stratégie optimale.
Hyperparamètres projet : hidden=(32, 32), relu, init Xavier.
Pour toute $\sigma$ non polynomiale (ex : ReLU), l'enveloppe linéaire des $\{x \mapsto \sigma(\langle w, x\rangle + b)\}$ est dense dans $C(\mathcal{K})$ pour tout compact $\mathcal{K} \subset \mathbb{R}^d$.
Conséquence DH. Stratégie optimale $\delta^*(t, S, \bar S)$ continue $\Rightarrow$ $\exists$ suite de MLPs $\delta_{\theta_n} \to \delta^*$ uniformément. Le DH n'est pas restreint par l'architecture mais par la largeur finie + qualité du SGD.
Pour $L$ intégrable et $\alpha \in (0, 1)$, posons
Alors :
Convexité : $\xi$ affine + $(L-\xi)^+$ convexe + linéarité de $\mathbb{E}$. Pour la loi continue, $V'(\xi) = 1 - (1-\alpha)^{-1}\mathbb{P}(L \geq \xi)$, qui s'annule en $\xi^* = \mathrm{VaR}_\alpha$. En substituant : $V(\xi^*) = \xi^* + (1-\alpha)^{-1}\mathbb{E}[(L-\xi^*)^+] = \mathrm{CVaR}_\alpha$.
Différentiable presque partout en $\theta$ et $\xi$, donc compatible SGD. Estimateur empirique sur batch $B$ : $\hat{\mathcal{L}} = \xi + (B(1-\alpha))^{-1}\sum_b (L_\theta^{(b)} - \xi)^+$.
Une seule descente de gradient en dimension $P + 1$ :
avec champ moyen pour $\xi$ : $H_1(\xi, L) = 1 - (1-\alpha)^{-1}\mathbf{1}_{L \geq \xi}$.
Convergence p.s. Sous pas RM (H1), gradient borné (H2), innovations iid (H3), itérée bornée (H4) : $(\theta_n, \xi_n)$ converge p.s. vers un point critique de $\mathbb{E}[\mathcal{L}_{\mathrm{CVaR}}]$. Preuve : Robbins-Siegmund + Lyapunov + Kushner-Clark (idem Partie 1, sec. 1.4).
La descente jointe sur la loss CVaR-RU souffre d'une pathologie structurelle à $\alpha$ élevé, confirmée empiriquement multi-seed (Partie 6) :
Avec $\alpha = 0{.}95$, batch $B = 256$ :
Verdict expérimental T1. Sur $R = 5$ seeds, sans early-stopping, DH-MC CVaR atteint $\mathrm{CVaR}_{0.95} = 20.58 \pm 1.52$ — strictement pire que le proxy $\Delta$ BS (17.95). La méthode dont la loss cible la queue échoue à la couvrir, précisément à cause du caractère sparse + amplifié de son gradient.
Solution implémentée par le projet. Remplacer la mesure MC par la mesure compressée $\hat{\mathbb Q}_K = \sum_i w^i \delta_{\gamma^i}$ : à $K = 200$ atomes pondérés, chaque atome de la queue porte un poids $w^i$ non négligeable, le gradient devient dense, et $\mathrm{CVaR}_{0.95}$ tombe à $11.15 \pm 0.57$ pour DH-CLVQ-S. La quantification ne raffine pas la CVaR-MC : elle la rend exécutable.
Pistes alternatives identifiées (hors périmètre du projet) : (a) batch size $\geq 1024$ pour densifier le signal de queue, (b) optimiseur SGD à pas $\gamma_n = c\,n^{-\alpha}$ Pagès plutôt qu'Adam, (c) abaisser $\alpha$ à $0{.}90$ pour adoucir l'amplification.
Substituer la mesure $\mathcal{L}(S)$ par la mesure compressée $\hat{\mathbb{Q}}_K^{\mathrm{CLVQ}} = \sum_i w^i \delta_{\gamma^i}$ apprise en Partie 3, contrôler l'erreur via une borne de quadrature Lipschitz, et entraîner le DH en sampling pondéré ou en gradient exact full-batch.
C'est la loi exacte de la projection $\hat S^{\Gamma_K}$ sous $\mathbb{Q}$. Convergence faible $\hat{\mathbb{Q}}_K \Rightarrow \mathbb{Q}$ pour $\Gamma_K$ $K$-optimale (Zador).
Pour $f$ Lipschitzienne de constante $[f]_{\mathrm{Lip}}$ :
Combiné à Zador : erreur $\lesssim [f]_{\mathrm{Lip}}\,K^{-1/d}$ (vs $1/\sqrt{M}$ pour MC).
$|f(S) - f(\hat S^{\Gamma_K})| \leq [f]_{\mathrm{Lip}}\|S - \hat S^{\Gamma_K}\|$ p.s. Espérance + Cauchy-Schwarz : $\mathbb{E}|f(S) - f(\hat S)| \leq [f]_{\mathrm{Lip}}\sqrt{\mathbb{E}\|S-\hat S\|^2} = [f]_{\mathrm{Lip}}\sqrt{D_K}$.
Cohérence asymptotique : $\mathcal{L}_{\mathrm{CVaR}}^{\mathrm{w}} \to \mathcal{L}_{\mathrm{CVaR}}$ quand $K \to \infty$, avec erreur dominée par $\sqrt{D_K}/(1-\alpha)$ (composition Lipschitz + quadrature).
(B) DH-CLVQ-B — full-batch, gradient exact. À chaque itération, forward complet sur les $K$ centroïdes pondérés :
(S) DH-CLVQ-S — sampling pondéré. Tirage de $B$ indices $i_1, \dots, i_B \overset{\text{iid}}{\sim} \mathrm{Mult}(w)$, puis moyenne uniforme sur le mini-batch (importance sampling sur $\hat{\mathbb Q}_K$) :
Équivalence en espérance. $\mathbb E\big[\frac{1}{B}\sum_b \ell(\gamma^{i_b})\big] = \sum_i w^i\,\ell(\gamma^i)$, donc l'estimateur S cible la même loss que B en espérance — mais avec variance résiduelle.
L'erreur entre la CVaR optimale et l'itérée $\hat\theta_n$ obtenue par RM sur la grille se décompose :
Séparabilité. Les deux termes sont indépendants : le premier ne dépend que de $K$ (taille de la grille) et de la qualité du quantifieur (init kmeans++ vs random) ; le second ne dépend que du nombre $n$ d'itérations RM et de l'usage de Polyak-Ruppert.
Stratégie pratique. Augmenter $K$ jusqu'à ce que l'erreur quadrature passe sous l'erreur d'optim, puis augmenter $n$. Verdict empirique : $K = 200$ suffit pour atteindre la borne $\mathrm{CVaR}_{0.95} = 9{.}39$ qui domine toutes les autres approches.
| Stratégie | Taille $\mathcal{D}$ | Coût/itér | Variance | Erreur dominante |
|---|---|---|---|---|
| DH-MC | $M = 10^4$ | $O(M)$ | $\sigma^2_{\mathrm{MC}}/M$ | $1/\sqrt{M}$ (TCL) |
| DH-CLVQ-S (sampling) | $K \in [50, 500]$ | $O(B)$ | $\sigma^2/B$ | $\sqrt{D_K} + 1/\sqrt{B}$ |
| DH-CLVQ-B (full-batch) | $K \in [50, 500]$ | $O(K)$ | 0 | $\sqrt{D_K}$ |
Pour $K \leq 200$, on privilégie B (gradient exact, convergence déterministe). Pour $K \geq 500$, S devient nécessaire ($O(B)$ indépendant de $K$).
Évaluation hors-échantillon strictement séparée : $M_{\mathrm{test}} = 5\,000$ trajectoires (seed=100), moyennée sur $R=5$ seeds d'entraînement indépendantes ($s \in \{42,43,44,45,46\}$). Toutes les valeurs sont rapportées en moyenne ± demi-largeur d'IC à 95 % $= 1{.}96\,\hat\sigma_R/\sqrt{R}$, et les comparaisons paire-à-paire sont validées par test t apparié de Welch ($\nu = R-1 = 4$ ddl).
| Stratégie | $\sigma(\Pi_T)$ | MSE | CVaR$_{0{.}95}$ | $t$ moyen (s) | Gain CVaR$_{95}$ |
|---|---|---|---|---|---|
| Δ Black-Scholes (proxy) | 8.66 ± 0.00 | 102.49 ± 0.00 | 17.95 ± 0.00 | 0.0 | — |
| DH-MC MSE | 3.66 ± 0.31 | 41.59 ± 2.50 | 14.93 ± 0.97 | 5.8 | −16.8 % |
| DH-MC CVaR (pathologie ⚠) | 5.16 ± 0.43 | 55.40 ± 4.73 | 20.58 ± 1.52 | 6.2 | +14.7 % |
| DH-CLVQ-S ($K=200$) ★ | 2.95 ± 0.27 | 36.22 ± 1.85 | 11.15 ± 0.57 | 40.9 | −37.8 % |
| DH-CLVQ-B ($K=200$) | 3.07 ± 0.34 | 37.10 ± 2.26 | 11.83 ± 1.03 | 38.1 | −34.1 % |
Renversement multi-seed. Sur un seul seed (v3), DH-CLVQ-B atteignait 9.39 ; sur $R=5$ seeds, sa moyenne remonte à $11.83 \pm 1.03$, et c'est DH-CLVQ-S qui devient le meilleur en moyenne ($11.15 \pm 0.57$). Les deux sont statistiquement équivalents (cf. test t ci-dessous), mais S est plus stable d'un seed à l'autre — vraisemblablement parce que le sampling agit comme une régularisation contre l'overfitting aux 200 centroïdes fixes du full-batch B.
| Paire (A vs B) | $t$-stat | $p$-value | Verdict ($\alpha = 0.05$) |
|---|---|---|---|
| DH-CLVQ-B vs $\Delta$ BS proxy | −11.677 | 0.0003 | significatif |
| DH-MC MSE vs DH-CLVQ-B | +3.958 | 0.0167 | significatif |
| DH-MC CVaR vs DH-CLVQ-B | +8.571 | 0.0010 | significatif |
| DH-CLVQ-S vs DH-CLVQ-B | −1.067 | 0.3462 | non significatif |
Lecture honnête. Les trois verdicts robustes tiennent : (1) DH-CLVQ-B bat $\Delta$ BS, (2) DH-CLVQ-B bat DH-MC MSE, (3) DH-CLVQ-B bat DH-MC CVaR. La hiérarchie interne entre S et B, en revanche, n'est pas tranchée à $R=5$. Pour la départager il faudrait $R \geq 30$ (hors budget CPU). Ce n'est pas un problème : le verdict scientifique du projet est porté par la famille DH-CLVQ-* vs DH-MC, pas par le ranking individuel S vs B.
DH-CLVQ-S à $K=200$ atomes pondérés atteint $\sigma(\Pi_T) = 2{.}95 \pm 0{.}27$, comparable à DH-MC MSE entraîné sur $M=10\,000$ trajectoires brutes ($\sigma = 3{.}66 \pm 0{.}31$). Le ratio de compression effectif est $M/K = 50$ : la mesure quantifiée $\hat{\mathbb Q}_K = \sum_i w^i \delta_{\gamma^i}$ contient assez d'information sur $\mathcal L(S_{0:T})$ pour entraîner un hedger aussi performant — voire meilleur sur la queue. C'est le vrai produit méthodologique du projet, plus solide statistiquement que tout ranking individuel.
| Algorithme | Itérée $\theta_n$ | Champ moyen $h$ | Oracle bruité $H$ |
|---|---|---|---|
| SGD sur $f(\theta) = \mathbb E_Z[g(\theta,Z)]$ | poids MLP | $\nabla f(\theta)$ | $\nabla_\theta g(\theta,Z)$ |
| CLVQ (Pagès-Printems) | grille $\Gamma_K$ | $\tfrac{1}{2}\nabla D_K(\Gamma)$ | $(\gamma^{i^\star} - X)\,e_{i^\star}$ |
| Bardou-Frikha-Pagès CVaR | $(\theta, \xi)$ | $\nabla V(\theta,\xi)$ | sous-gradient RU |
| Rétropropagation MLP (fusion DH-CLVQ) | $(\theta, \xi)$ | $\nabla\mathcal L^w_{\mathrm{CVaR}}$ | backprop sur $\mathrm{Mult}(w)$ ou full-batch |
Tous convergent p.s. vers un point stationnaire du champ moyen, par la même chaîne : Robbins-Siegmund sur Lyapunov $V$ adaptée. Vitesse asymptotique optimale donnée par le théorème Polyak-Juditsky $\sqrt{n}\,(\bar\theta_n - \theta^\star) \xrightarrow{\mathcal L} \mathcal{N}(0, A^{-1}\Sigma A^{-\top})$.
| Symbole | Signification | Section |
|---|---|---|
| $\theta, \theta^*, \bar\theta_n$ | paramètre RM, zéro cible, moyenne PR | P1 |
| $\gamma_n$ | pas RM, $\gamma_n = c\,n^{-\alpha}$, $\alpha \in (1/2, 1]$ | P1 |
| $\Gamma_K = (\gamma^i)_{i=1..K}$ | grille CLVQ de taille $K$ | P3 |
| $V_i(\Gamma)$, $w^i$ | cellule de Voronoï, poids $\mathbb{Q}(S \in V_i)$ | P3 |
| $D_K(\Gamma)$ | distorsion quadratique $\mathbb{E}[\min_i \|S-\gamma^i\|^2]$ | P3 |
| $S_t, S_{t_k}, \bar S_t$ | sous-jacent BS, schéma log-Euler, moyenne courante | P2 |
| $r, \sigma_{\mathrm{BS}}, T, K_{\mathrm{strike}}$ | params BS et option | P2 |
| $\Pi_T, L = -\Pi_T$ | P&L terminal, perte | P4 |
| $\delta_\theta, \delta_{\theta, t_k}$ | MLP partagé, position au pas $k$ | P4 |
| $\xi, \alpha, \mathrm{CVaR}_\alpha$ | param Rockafellar-Uryasev, niveau, mesure de risque | P4 |
| $\hat{\mathbb{Q}}_K^{\mathrm{CLVQ}}$ | mesure compressée $\sum_i w^i \delta_{\gamma^i}$ | P5 |
| $M, N, K, B$ | taille MC, pas temps, taille grille, taille batch | — |
$S_0 = 100$, $K_{\mathrm{strike}} = 100$, $r = 0.02$, $\sigma_{\mathrm{BS}} = 0.20$, $T = 1$, $N = 50$ pas, $\Delta t = 0.02$. Schéma log-Euler exact (sans biais de discrétisation).
$M_{\mathrm{train}} = 10\,000$ ; $M_{\mathrm{val}} = 10\,000$ ; $M_{\mathrm{test}} = 5\,000$ (seed_test=100, strictement disjointe). Comparatif final multi-seed $R = 5$ : seeds train $\in \{42, 43, 44, 45, 46\}$.
$K \in \{50, 100, 200, 500\}$ (200 retenu) ; $\gamma_n = c\,n^{-0.75}$ avec $c=1.0$ ;
n_iter = 10\,000 ; init kmeans++ (verdict bench).
Dim. fonctionnelle d'enveloppe $d = N+1 = 51$ ; pente Zador naïve $-2/51 \approx -0.039$ ;
pente Zador effective $-2/d_{\mathrm{eff}}^{(99)} \approx -0.111$ avec
$d_{\mathrm{eff}}^{(99)} = 18$ et $d_{\mathrm{eff}}^{(95)} = 5$ par PCA (cf. Partie 3, audit T3).
MLP unique partagé sur les $N$ pas, features $(t_k/N, S_{t_k}, \bar S_{t_k}) \in \mathbb R^3$,
hidden_sizes = (32, 32), activation = ReLU, init Xavier (seed-dépendante),
weight_decay = 0.
Adam ; lr = 1e-3 (MLP), lr_xi = 1e-2 (param RU) ;
batch_size = 256 ; epochs = 30 ; scheduler cosine ;
grad_clip = 1.0 ; early_stopping_patience = None (forcé pour audit
T1). La v3 utilisait patience = 8, ce qui masquait la pathologie sparse-gradient en
coupant DH-MC CVaR à $\sim$ 15 epochs.
Adam mêmes lr ; S (sampling) : batch_size = 256, tirages iid
sous $w^i$, n_iter = 2000, gradient stochastique non biaisé ;
B (full-batch) : n_iter = 2000, forward complet sur les $K = 200$
atomes pondérés, gradient déterministe.
$\alpha = 0.95$ ; PR mesuré sur baseline SGD vanilla (pas Adam) à $M=5000$ : CVaR$_{0.95}$ brute = $16.165$, CVaR$_{0.95}$ après PR = $15.477$, gain $+4{.}25\,\%$. Cette expérience démontre l'effet théorique Polyak-Juditsky 1992 sur une baseline non-compétitive (SGD vanilla, beaucoup plus lent que les méthodes neuronales du tableau principal), pas une méthode opérationnelle pour le hedging. Adam casse la décroissance $\sum \gamma_n^2 < +\infty$ implicite, donc PR n'est pas applicable directement à DH-MC ou DH-CLVQ.
Taux MC (DH-MC). Théorique $-1/2$ en log-log de l'erreur en $M$. Empirique sur $M \in \{1\,000, 2\,000, 5\,000, 10\,000, 20\,000\}$ : pente sous-estimée par rapport à la théorie à cause de la sensibilité de la $\mathrm{CVaR}_{0.95}$ à la queue.
Taux CLVQ. Pente empirique mesurée $\boxed{-0{.}141}$ sur $K \in \{50, 100, 200, 500\}$. Comparée aux deux bornes Zador :
L'observation se situe entre les deux bornes effectives, plus proche de $-2/d_{\mathrm{eff}}^{(99)}$ — confirmant que la quantification quadratique « voit » surtout les directions principales de la mesure, et que la concentration brownienne réduit significativement la dimension intrinsèque vue par la quadrature.
Seeds : 42 (train), 43 (val), 100 (test), explicitement injectées via numpy.random.default_rng(seed)
et torch.Generator(seed). Exécution séquentielle complète : 30–45 min CPU sur machine
standard (Intel i5/i7, 16 GB RAM, sans GPU). Environnement : Python 3.11+, numpy 2.x, scipy 1.x,
pandas 2.x, matplotlib 3.x, seaborn 0.13+, torch 2.x (CPU), scikit-learn 1.5+, tqdm.