Projet — Approximation Stochastique · Youssef Jabir · DUFE 2025-2026 · Cours G. Pagès

Fusion CLVQ et Deep Hedging
sous mesure de risque CVaR$_{0{.}95}$

Construire un hedger neuronal entraîné sur une grille de quantification vectorielle des trajectoires Black-Scholes pour couvrir une option asiatique arithmétique, et le comparer à un Deep Hedger entraîné sur Monte Carlo brut. La mesure de risque cible est minimisée via le schéma d'approximation stochastique Bardou-Frikha-Pagès couplé à la formulation variationnelle Rockafellar-Uryasev. Étude multi-seed $R=5$ : DH-CLVQ-S à $K=200$ atteint $\mathrm{CVaR}_{0{.}95} = 11{.}15 \pm 0{.}57$, soit −37.8 % vs $\Delta$ BS proxy ($t = -11.7$, $p < 10^{-3}$).

D'un hedge en moyenne à un hedge de queue — vue d'ensemble interactive

Sélectionnez une stratégie : la densité du P&L à maturité se déforme, la zone bordeaux est la queue 5 % pire dont l'espérance conditionnelle définit $\mathrm{CVaR}_{0{.}95}$. À droite, les ingrédients méthodologiques effectivement utilisés s'allument.

$\mathrm{CVaR}_{0{.}95}$ (perte conditionnelle)

—

Ingrédients méthodologiques

Marché Black-Scholes

Trajectoires log-Euler exactes, $N=50$ pas — toujours présent

MLP partagé $\delta_\theta(t,S,\bar S)$

Buehler-Gonon-Teichmann-Wood 2019, hidden $(32,32)$ ReLU

Critère CVaR — Rockafellar-Uryasev

SA joint $(\theta,\xi)$, Bardou-Frikha-Pagès 2009

Compression CLVQ ($K=200$)

Mesure $\hat{\mathbb Q}_K=\sum_i w^i \delta_{\gamma^i}$ ; sampling pondéré (S) ou full-batch (B)

Théorie pivot

Robbins-Monro

Quantization

Pagès-Printems

Hedger neuronal

Buehler 2019

CVaR via SA

Bardou-Frikha-Pagès

Mesure cible

$\mathrm{CVaR}_{0{.}95}$

Sous-jacent

Black-Scholes

Comment lire ce dashboard

Chaque partie présente d'abord la théorie (énoncés, formules encadrées, esquisses de preuves), puis une démonstration interactive. Les contrôles ▶ play, ⏯ pause, ↻ reset et ⏭ step permettent d'avancer pas à pas et de visualiser comment évoluent les itérations stochastiques. Les sliders modifient les hyperparamètres en temps réel.

Plan du projet — 7 parties parallèles au cours

#	Sujet	Référence	Démo
1	Robbins-Monro, Robbins-Siegmund, TCL, Polyak-Juditsky	Pagès 2018, ch. 6	→ play
2	Black-Scholes, log-Euler exact, asiatique arithmétique, MC + IC95%	Lamberton-Lapeyre, ch. 4	→ play
3	CLVQ, Voronoï, Zador ($d=51$), schéma RM	Pagès 2018, ch. 5	→ play
4	Deep Hedger MC, MLP partagé, CVaR-RU, SA joint $(\theta,\xi)$	Buehler 2019 + RU 2000 + BFP 2009	→ play
5	Fusion CLVQ → DH, mesure compressée, deux estimateurs B/S	Pagès 2018, ch. 5 + BFP 2009	→ play
6	Comparatif final 5 stratégies sur $M_{\mathrm{test}}=10\,000$ (seed 100)	12 métriques, queue + temps	→ play
7	Convergence empirique, Polyak-Ruppert, limites, ouvertures	Synthèse pédagogique	→ voir

Notations strictes

$\theta$ paramètres ; $\gamma_n$ pas RM ; $\theta^*$ zéro cible ; $\bar\theta_n$ moyenne Polyak-Ruppert ; $\Gamma_K = (\gamma^i)_{i=1..K}$ grille CLVQ ; $w^i$ poids de Voronoï ; $D_K$ distorsion ; $S_t$ sous-jacent BS ; $\Pi_T$ P&L terminal ; $L = -\Pi_T$ perte ; $\xi$ paramètre RU ; $\alpha = 0{.}95$ niveau CVaR.

Partie 01

Robbins-Monro et approximation stochastique

Schéma RM : trouver un zéro $\theta^*$ d'un champ moyen $h$ inaccessible, en disposant uniquement d'un oracle bruité $H(\theta, Z)$ avec $\mathbb{E}[H(\theta, Z)] = h(\theta)$. C'est le squelette commun à toutes les autres parties : CLVQ, SGD du Deep Hedger, schéma CVaR de Bardou-Frikha-Pagès.

Définition — Itération de Robbins-Monro

$$\boxed{\;\theta_{n+1} = \theta_n - \gamma_{n+1}\, H(\theta_n, Z_{n+1}), \qquad \theta_0 \in \mathbb{R}^d\;}$$

Décomposition champ + bruit. En posant $\Delta M_{n+1} = H(\theta_n, Z_{n+1}) - h(\theta_n)$, l'itération s'écrit $$\theta_{n+1} = \theta_n - \gamma_{n+1}\, h(\theta_n) - \gamma_{n+1}\, \Delta M_{n+1},$$ somme d'un terme de descente déterministe et d'un incrément de martingale centré.

Hypothèses standards (H1)–(H3)

(H1) Conditions de pas. $\gamma_n > 0$ et

$$\sum_{n \geq 1} \gamma_n = +\infty, \qquad \sum_{n \geq 1} \gamma_n^2 < +\infty.$$

Choix paramétrique : $\gamma_n = c\, n^{-\alpha}$ avec $\alpha \in (1/2, 1]$. La 1ère condition empêche l'algo de figer ; la 2nde contrôle la variance accumulée.

(H2) Champ de Lyapunov. Existence de $V \in \mathcal{C}^1$ coercive avec $\langle \nabla V(\theta), h(\theta)\rangle \geq 0$, égalité ssi $\theta = \theta^*$.

(H3) Bruit $L^2$ centré conditionnellement. $\mathbb{E}[\Delta M_{n+1} \mid \mathcal{F}_n] = 0$ et $\mathbb{E}[\|\Delta M_{n+1}\|^2 \mid \mathcal{F}_n] \leq K_0(1 + V(\theta_n))$.

Lemme de Robbins-Siegmund (1971)

Soient $(U_n), (\beta_n), (\eta_n), (\zeta_n)$ adaptés positifs avec

$$\mathbb{E}[U_{n+1} \mid \mathcal{F}_n] \leq (1 + \beta_n)\, U_n + \eta_n - \zeta_n,$$

et $\sum \beta_n < \infty$, $\sum \eta_n < \infty$ p.s. Alors p.s. $U_n \to U_\infty < \infty$ et $\sum \zeta_n < \infty$.

Théorème — Convergence p.s. de RM

Sous (H1)-(H3), $\theta_n \xrightarrow{\mathrm{ps}} \theta^*$.

Esquisse

Robbins-Siegmund appliqué à $U_n = V(\theta_n)$. Taylor ordre 2 + (H3) donnent $\mathbb{E}[U_{n+1}|\mathcal{F}_n] \leq U_n - \gamma_{n+1}\langle\nabla V(\theta_n), h(\theta_n)\rangle + C'\gamma_{n+1}^2(1+U_n)$. Format RS avec $\zeta_n = \gamma_{n+1}\langle\nabla V, h\rangle \geq 0$ : convergence p.s. de $V(\theta_n)$ et $\sum \zeta_n < \infty$. Comme $\sum\gamma_n = \infty$, on force $\langle\nabla V(\theta_n), h(\theta_n)\rangle \to 0$ p.s. ; sous unicité, $\theta_n \to \theta^*$ p.s.

TCL pour Robbins-Monro (Chung 1954, Sacks 1958, Fabian 1968) — vitesse $\sqrt{n^\alpha}$

Sous régularité ($\nabla h(\theta^*) = A$ stable au sens où $\mathrm{Re}\,\lambda(A) > 0$, $\Sigma(\theta)$ continue en $\theta^*$), avec $\gamma_n = c\,n^{-\alpha}$, $\alpha \in (1/2, 1]$ (et $c$ assez grand si $\alpha = 1$) :

$$\sqrt{\frac{1}{\gamma_n}}\,(\theta_n - \theta^*) \;=\; \frac{\sqrt{n^\alpha}}{\sqrt{c}}\,(\theta_n - \theta^*) \xrightarrow[n \to \infty]{\mathcal{L}} \mathcal{N}(0, \Sigma_\infty),$$

où $\Sigma_\infty$ résout l'équation de Lyapunov $A\Sigma_\infty + \Sigma_\infty A^\top - c^{-1}\mathbf{1}_{\alpha=1}\Sigma_\infty = \Sigma(\theta^*)$.

Vitesse $\sqrt{n^\alpha}$ : strictement plus lente que la vitesse paramétrique $\sqrt{n}$ dès que $\alpha < 1$ — d'où l'intérêt du moyennage Polyak-Ruppert ci-dessous, qui restaure $\sqrt{n}$. Exposé moderne : Pagès 2018, ch. 6, ou Benveniste-Métivier-Priouret 1990.

Polyak-Ruppert (1992) — moyennisation optimale

Avec $\bar\theta_n = \frac{1}{n}\sum_{k=1}^n \theta_k$ et $\gamma_n = c\,n^{-\alpha}$, $\alpha \in (1/2, 1)$ :

$$\sqrt{n}(\bar\theta_n - \theta^*) \xrightarrow{\mathcal{L}} \mathcal{N}(0, \Sigma^*), \quad \Sigma^* = A^{-1}\Sigma(\theta^*)A^{-\top}.$$

$\Sigma^*$ est optimale (borne Cramér-Rao stochastique) : meilleure vitesse $1/\sqrt{n}$ sans connaître $A$.

▷ Démo interactive — RM 1D sur $h(\theta) = \theta - 1$ avec bruit $\mathcal{N}(0, \sigma^2)$

itération $n$

0

$\theta_n$

0.000

$\bar\theta_n$ (PR)

0.000

$\gamma_n$

—

erreur $|\theta_n - \theta^*|$

1.000

α (exposant)0.75

$\gamma_n = c\, n^{-\alpha}$ avec $\alpha \in (1/2, 1]$

c (constante)1.0

σ (bruit)0.5

$\theta_0$3.0

θ* (cible)1.0 (h(θ)=θ−1)

Lecture

La trajectoire bleue est l'itérée brute $\theta_n$ ; la rouge est la moyenne Polyak-Ruppert $\bar\theta_n$. Pour $\alpha < 1$, $\bar\theta_n$ converge plus vite avec moins de variance.

Partie 02

Simulateur Black-Scholes et payoffs asiatiques

EDS pilote du projet sous mesure risque-neutre $\mathbb{Q}$, sa solution log-normale exacte, et le schéma log-Euler pour la simulation Monte Carlo. C'est la « source » des trajectoires qui alimentent CLVQ (Partie 3) et le Deep Hedger (Partie 4).

EDS Black-Scholes sous $\mathbb{Q}$ (Girsanov appliqué)

$$\boxed{\;\mathrm{d}S_t = r\, S_t\, \mathrm{d}t + \sigma\, S_t\, \mathrm{d}W^{\mathbb{Q}}_t, \qquad S_0 > 0\;}$$

Le théorème de Girsanov fournit $W^{\mathbb{Q}}$ par décalage du drift de $(\mu - r)/\sigma$ ; tout le projet se place sous $\mathbb{Q}$.

Théorème — Solution explicite log-normale

$$\boxed{\;S_t = S_0\, \exp\!\Big( (r - \tfrac{\sigma^2}{2})\, t + \sigma\, W^{\mathbb{Q}}_t \Big), \qquad t \in [0, T]\;}$$

En particulier, $\log(S_t/S_0) \sim \mathcal{N}((r-\sigma^2/2)t,\; \sigma^2 t)$ sous $\mathbb{Q}$, avec $\mathbb{E}^{\mathbb{Q}}[S_t] = S_0\, e^{rt}$ et $\mathrm{Var}^{\mathbb{Q}}(S_t) = S_0^2\, e^{2rt}(e^{\sigma^2 t} - 1)$.

Esquisse

Itô sur $X_t = \log S_t$ : $\mathrm{d}X_t = (r-\sigma^2/2)\mathrm{d}t + \sigma\,\mathrm{d}W^{\mathbb{Q}}_t$ (drift et vol constants en $X$). On intègre puis on exponentie. Unicité forte : coefficients lipschitziens sur tout compact + non-explosion (Lamberton-Lapeyre 2008, ch. 4, Th. 4.3.2).

Discrétisation log-Euler exacte

Sur $0 = t_0 < t_1 < \cdots < t_N = T$ avec $\Delta t = T/N$ et incréments gaussiens iid $Z_k \sim \mathcal{N}(0, 1)$ :

$$\boxed{\;S_{t_{k+1}} = S_{t_k}\, \exp\!\big( (r - \tfrac{\sigma^2}{2})\,\Delta t + \sigma\,\sqrt{\Delta t}\, Z_{k+1} \big)\;}$$

Schéma exact (pas un schéma d'Euler approché du fait de la log-normalité). Préserve $S_t > 0$.

Payoff asiatique arithmétique (cas du projet)

$$\boxed{\;\Pi_T = \big(\bar S_T - K\big)^+, \qquad \bar S_T = \frac{1}{N+1}\sum_{k=0}^{N} S_{t_k}\;}$$

Pas de formule fermée pour le delta exact (Geman-Yor non implémenté) ; d'où l'intérêt du Deep Hedger qui apprend la stratégie directement.

Estimateur Monte Carlo + IC asymptotique

Pour $f$ telle que $\mathbb{E}[f(S_{0:N})^2] < \infty$, l'estimateur MC sur $M$ trajectoires iid :

$$\hat\mu_M = \frac{1}{M}\sum_{m=1}^M f(S^{(m)}), \quad \mathrm{Var}(\hat\mu_M) = \mathrm{Var}(f)/M, \quad \mathrm{IC}_{95\%} = \hat\mu_M \pm 1.96\,\hat\sigma/\sqrt{M}$$

Vitesse $1/\sqrt{M}$ par TCL classique.

▷ Démo interactive — Trajectoires Black-Scholes log-Euler

pas $k$

0

$t_k$

0.00

$\hat{\mathbb{E}}[S_{t_k}]$

100.0

$S_0 e^{r t_k}$

100.0

$\bar S_T$ (mean)

—

$\hat{\Pi}_T$ MC

—

$S_0$100

$r$ (taux sans risque)0.020

$\sigma$ (volatilité)0.20

$T$ (maturité)1.0

$N$ (pas)50

$M$ (trajectoires)30

$K$ (strike)100

Lecture

Chaque play étend les trajectoires d'un pas $t_k \to t_{k+1}$. La courbe pointillée est l'espérance théorique $S_0 e^{rt}$.

Partie 03

CLVQ — Quantification vectorielle de Pagès-Printems

Construire une grille pondérée $(\gamma^i, w^i)_{i=1..K}$ qui résume la loi de $S$ en minimisant la distorsion quadratique. CLVQ est exactement un schéma de Robbins-Monro sur le système $\nabla D_K(\Gamma) = 0$.

Définition — Distorsion quadratique

$$\boxed{\;D_K(\Gamma) = \mathbb{E}\!\left[\,\min_{1 \leq i \leq K} \,\|S - \gamma^i\|^2\,\right]\;}$$

Cellules de Voronoï : $V_i(\Gamma) = \{x : \|x - \gamma^i\| \leq \|x - \gamma^j\|\, \forall j\}$.

Projection & poids : $\hat S^{\Gamma_K} = \sum_i \gamma^i \mathbf{1}_{V_i}(S)$, $\;w^i = \mathbb{Q}(S \in V_i(\Gamma))$, avec $\sum_i w^i = 1$.

Théorème de Zador — Taux de décroissance

Pour $S$ à valeurs dans $\mathbb{R}^d$ avec densité absolument continue,

$$\boxed{\;\inf_{\Gamma \in (\mathbb{R}^d)^K} D_K(\Gamma) \asymp K^{-2/d} \quad (K \to \infty)\;}$$

Malédiction d'enveloppe. Trajectoires BS sur 50 pas $\Rightarrow d = N+1 = 51$, soit $K^{-2/51} \approx K^{-0.039}$ — décroissance extrêmement lente sur l'enveloppe.

Audit T3 — Dimension effective $d_{\mathrm{eff}}$ et résolution de la pente empirique

La pente empirique mesurée vaut $-0{.}141$ — bien plus rapide que $-0{.}039$. Ce facteur 3.6 trouve son explication dans la concentration de mesure sur les diffusions browniennes : la mesure $\mathcal L(S_{0:N})$ vit nominalement dans $\mathbb R^{51}$, mais sa structure de covariance brownienne la concentre sur une variété de dimension intrinsèquement plus faible.

Estimation par PCA (sur les $10\,000$ trajectoires d'entraînement, après centrage-réduction) :

$$d_{\mathrm{eff}}^{(95)} = 5, \qquad d_{\mathrm{eff}}^{(99)} = 18.$$

Soit, pour les fonctionnelles d'intérêt, des pentes Zador effectives :

$$-\frac{2}{d_{\mathrm{eff}}^{(95)}} = -0.400, \qquad -\frac{2}{d_{\mathrm{eff}}^{(99)}} \approx -0.111, \qquad \text{empirique} = -0.141.$$

L'observation empirique se situe entre les deux bornes, plus proche de $-2/d_{\mathrm{eff}}^{(99)}$ — cohérent avec le fait que la quantification quadratique « voit » surtout les directions principales et perd peu sur les directions de faible variance. Cette correction est mentionnée dans Pagès 2018 (chap. 5) sous le terme « dimension du support effectif ».

Itération CLVQ (Pagès-Printems) — un seul centroïde bouge

Pour $X_{n+1}$ tiré iid selon $\mathcal{L}(S)$, gagnant $i^* = \arg\min_i \|X_{n+1} - \gamma^i_n\|$ :

$$\boxed{\;\gamma^{i^*}_{n+1} = \gamma^{i^*}_n - \gamma_{n+1}\,(\gamma^{i^*}_n - X_{n+1}), \quad \gamma^j_{n+1} = \gamma^j_n\;\;\forall j \neq i^*\;}$$

Lecture RM. Empilons en $\Gamma_n$, alors $\Gamma_{n+1} = \Gamma_n - \gamma_{n+1} H(\Gamma_n, X_{n+1})$ avec $\mathbb{E}[H(\Gamma, S)] = \frac{1}{2}\nabla D_K(\Gamma)$. CLVQ est un schéma RM sur $\nabla D_K = 0$.

Convergence p.s. (Robbins-Siegmund)

Sous (H1) pas RM, (H2) support compact ou queues sous-gaussiennes + densité, (H3) centroïdes initiaux deux à deux distincts : $\Gamma_n \to \Gamma^\infty$ p.s., point critique de $D_K$ (auto-cohérence : $\gamma^i_\infty = \mathbb{E}[S \mid S \in V_i(\Gamma_\infty)]$).

⚠ La distorsion $D_K$ n'est pas convexe en $\Gamma$ — minima locaux multiples, d'où l'intérêt de réplications multi-seed.

Estimateurs empiriques (LGN + TCL)

Sur un échantillon iid $X_1, \dots, X_M$ et $\Gamma_K$ fixée :

$$\hat w^i_M = \frac{1}{M}\sum_{m=1}^M \mathbf{1}_{X_m \in V_i(\Gamma)}, \qquad \hat D_M(\Gamma) = \frac{1}{M}\sum_{m=1}^M \min_i \|X_m - \gamma^i\|^2$$

$\mathrm{IC}_{95\%}$ asymptotique : $\hat D_M \pm 1.96\, \hat\sigma_D/\sqrt{M}$.

▷ Démo interactive — CLVQ 2D, mélange de gaussiennes

itération $n$

0

$K$

12

$\hat D_K$ courant

—

gagnant $i^*$

—

$\gamma_n$

—

$K$ (centroïdes)12

α (pas)0.75

c (pas)1.0

init

distribution

afficher Voronoï

Lecture

Chaque tirage déplace uniquement le centroïde gagnant (cellule active) selon $\gamma^{i^*} \leftarrow \gamma^{i^*} - \gamma_n(\gamma^{i^*} - X)$. La courbe basse trace $\hat D_K$ vs $n$.

Partie 04

Deep Hedger MC + CVaR Rockafellar-Uryasev

Architecture shared network de Buehler-Gonon-Teichmann-Wood 2019 : un seul MLP $\delta_\theta$ partagé sur tous les pas, avec date $t_k/N$ comme feature explicite (verrouillée dans le projet sous l'étiquette interne « Plan A »). La loss CVaR est rendue différentiable par la formulation variationnelle de Rockafellar-Uryasev, dont le minimum est résolu par un schéma SA joint $(\theta, \xi)$ de Bardou-Frikha-Pagès.

P&L terminal de la stratégie de couverture (convention Buehler 2019)

Sous mesure risque-neutre $\mathbb Q$, hors prime initiale, avec $\delta_{t_k}$ position au pas $k$ :

$$\Pi_T \;=\; -\,\Phi(\bar S_T) \;+\; \sum_{k=0}^{N-1} \delta_{t_k}\,\big(S_{t_{k+1}} - S_{t_k}\,e^{r\Delta t}\big).$$

Le terme correcteur $-S_{t_k}e^{r\Delta t}$ centre l'incrément sous $\mathbb Q$ : puisque $\mathbb E^{\mathbb Q}[S_{t_{k+1}}\mid\mathcal F_{t_k}] = S_{t_k}e^{r\Delta t}$, l'espérance du gain de hedging est nulle et seule la variance du tracking error contribue. Loss = $L = -\Pi_T$ ; minimiser $\rho(L)$ avec $\rho \in \{\mathrm{MSE}, \mathrm{CVaR}_\alpha\}$.

Architecture — MLP partagé (« Plan A » du projet)

$$\delta_\theta : (t_k/N,\ S_{t_k},\ \bar S_{t_k}) \in \mathbb{R}^3 \longrightarrow \delta_{\theta, t_k} \in \mathbb{R}$$

Une seule fonction $\delta_\theta$ appliquée à chaque pas avec la date en feature : économise $N$ MLPs séparés, exploite le caractère markovien de la stratégie optimale. Hyperparamètres projet : hidden=(32, 32), relu, init Xavier.

Théorème — Approximation universelle (Cybenko 1989, Hornik 1991)

Pour toute $\sigma$ non polynomiale (ex : ReLU), l'enveloppe linéaire des $\{x \mapsto \sigma(\langle w, x\rangle + b)\}$ est dense dans $C(\mathcal{K})$ pour tout compact $\mathcal{K} \subset \mathbb{R}^d$.

Conséquence DH. Stratégie optimale $\delta^*(t, S, \bar S)$ continue $\Rightarrow$ $\exists$ suite de MLPs $\delta_{\theta_n} \to \delta^*$ uniformément. Le DH n'est pas restreint par l'architecture mais par la largeur finie + qualité du SGD.

Théorème de Rockafellar-Uryasev (2000)

Pour $L$ intégrable et $\alpha \in (0, 1)$, posons

$$\boxed{\;V(\xi) = \xi + \frac{1}{1 - \alpha}\,\mathbb{E}\big[(L - \xi)^+\big], \qquad \xi \in \mathbb{R}\;}$$

Alors :

(i) $V$ est convexe.
(ii) $\arg\min_\xi V(\xi)$ contient $\xi^* = \mathrm{VaR}_\alpha(L)$.
(iii) $\min_\xi V(\xi) = V(\xi^*) = \mathrm{CVaR}_\alpha(L)$.

Esquisse

Convexité : $\xi$ affine + $(L-\xi)^+$ convexe + linéarité de $\mathbb{E}$. Pour la loi continue, $V'(\xi) = 1 - (1-\alpha)^{-1}\mathbb{P}(L \geq \xi)$, qui s'annule en $\xi^* = \mathrm{VaR}_\alpha$. En substituant : $V(\xi^*) = \xi^* + (1-\alpha)^{-1}\mathbb{E}[(L-\xi^*)^+] = \mathrm{CVaR}_\alpha$.

Loss différentiable utilisée par le DH

$$\boxed{\;\mathcal{L}_{\mathrm{CVaR}}(\theta, \xi) = \xi + \frac{1}{1 - \alpha}\,\mathbb{E}\big[(L_\theta - \xi)^+\big]\;}$$

Différentiable presque partout en $\theta$ et $\xi$, donc compatible SGD. Estimateur empirique sur batch $B$ : $\hat{\mathcal{L}} = \xi + (B(1-\alpha))^{-1}\sum_b (L_\theta^{(b)} - \xi)^+$.

Schéma SA joint $(\theta, \xi)$ — Bardou-Frikha-Pagès

Une seule descente de gradient en dimension $P + 1$ :

$$\theta_{n+1} = \theta_n - \gamma_n^\theta\,\nabla_\theta\,\hat{\mathcal{L}}_{\mathrm{CVaR}}, \qquad \xi_{n+1} = \xi_n - \gamma_n^\xi\,\hat H_1(\xi_n, L_n)$$

avec champ moyen pour $\xi$ : $H_1(\xi, L) = 1 - (1-\alpha)^{-1}\mathbf{1}_{L \geq \xi}$.

Convergence p.s. Sous pas RM (H1), gradient borné (H2), innovations iid (H3), itérée bornée (H4) : $(\theta_n, \xi_n)$ converge p.s. vers un point critique de $\mathbb{E}[\mathcal{L}_{\mathrm{CVaR}}]$. Preuve : Robbins-Siegmund + Lyapunov + Kushner-Clark (idem Partie 1, sec. 1.4).

Audit T1 — Pathologie sparse-gradient sur Monte Carlo

La descente jointe sur la loss CVaR-RU souffre d'une pathologie structurelle à $\alpha$ élevé, confirmée empiriquement multi-seed (Partie 6) :

$$\nabla_\theta\,\hat{\mathcal L}_{\mathrm{CVaR}} = \frac{1}{1-\alpha}\,\frac{1}{B}\sum_{m=1}^B \nabla_\theta L_\theta(\omega_m)\,\mathbf{1}_{L_\theta(\omega_m) \geq \xi}.$$

Avec $\alpha = 0{.}95$, batch $B = 256$ :

Support sparse : $\sim 5\,\%$ des trajectoires participent au gradient, soit $\approx 13$ contributions non nulles par batch.
Amplification : chaque contribution est multipliée par $(1-\alpha)^{-1} = 20$.
Couplage Adam ⊗ sparse : les moments adaptatifs $m_t, v_t$ d'Adam sont calibrés sur ce signal hyper-volatile et perdent leur effet régularisateur ; la val_loss oscille au lieu de descendre monotonement.

Verdict expérimental T1. Sur $R = 5$ seeds, sans early-stopping, DH-MC CVaR atteint $\mathrm{CVaR}_{0.95} = 20.58 \pm 1.52$ — strictement pire que le proxy $\Delta$ BS (17.95). La méthode dont la loss cible la queue échoue à la couvrir, précisément à cause du caractère sparse + amplifié de son gradient.

Solution implémentée par le projet. Remplacer la mesure MC par la mesure compressée $\hat{\mathbb Q}_K = \sum_i w^i \delta_{\gamma^i}$ : à $K = 200$ atomes pondérés, chaque atome de la queue porte un poids $w^i$ non négligeable, le gradient devient dense, et $\mathrm{CVaR}_{0.95}$ tombe à $11.15 \pm 0.57$ pour DH-CLVQ-S. La quantification ne raffine pas la CVaR-MC : elle la rend exécutable.

Pistes alternatives identifiées (hors périmètre du projet) : (a) batch size $\geq 1024$ pour densifier le signal de queue, (b) optimiseur SGD à pas $\gamma_n = c\,n^{-\alpha}$ Pagès plutôt qu'Adam, (c) abaisser $\alpha$ à $0{.}90$ pour adoucir l'amplification.

▷ Démo interactive — Rockafellar-Uryasev : $V(\xi) = \xi + (1-\alpha)^{-1}\mathbb{E}[(L-\xi)^+]$

$\xi_n$ courant

0.0

$V(\xi_n)$

—

$\mathrm{VaR}_\alpha$ vrai

—

$\mathrm{CVaR}_\alpha$ vrai

—

itération SA

0

α (niveau CVaR)0.95

distribution de $L$

$\xi_0$ (init SA)-2.0

pas SA $\gamma_n^\xi$ (×$n^{-0.75}$)0.5

Lecture

La courbe bleue est $\xi \mapsto V(\xi)$ (convexe). Le minimum est en $\mathrm{VaR}_\alpha$ (ligne pointillée verticale) et vaut $\mathrm{CVaR}_\alpha$ (ligne horizontale). Le point rouge est l'itérée SA ; cliquer step la fait descendre.

Partie 05

Fusion CLVQ → Deep Hedger (DH-CLVQ)

Substituer la mesure $\mathcal{L}(S)$ par la mesure compressée $\hat{\mathbb{Q}}_K^{\mathrm{CLVQ}} = \sum_i w^i \delta_{\gamma^i}$ apprise en Partie 3, contrôler l'erreur via une borne de quadrature Lipschitz, et entraîner le DH en sampling pondéré ou en gradient exact full-batch.

Mesure de probabilité empirique compressée

$$\boxed{\;\hat{\mathbb{Q}}_K^{\mathrm{CLVQ}} := \sum_{i=1}^{K} w^i\,\delta_{\gamma^i}\;}$$

C'est la loi exacte de la projection $\hat S^{\Gamma_K}$ sous $\mathbb{Q}$. Convergence faible $\hat{\mathbb{Q}}_K \Rightarrow \mathbb{Q}$ pour $\Gamma_K$ $K$-optimale (Zador).

Théorème — Borne de quadrature Lipschitz (Pagès 2018, ch. 5)

Pour $f$ Lipschitzienne de constante $[f]_{\mathrm{Lip}}$ :

$$\boxed{\;\Big|\,\mathbb{E}^{\mathbb{Q}}[f(S)] - \mathbb{E}^{\hat{\mathbb{Q}}_K}[f(S)]\,\Big| \;\leq\; [f]_{\mathrm{Lip}}\,\sqrt{D_K(\Gamma_K)}\;}$$

Combiné à Zador : erreur $\lesssim [f]_{\mathrm{Lip}}\,K^{-1/d}$ (vs $1/\sqrt{M}$ pour MC).

Esquisse (Cauchy-Schwarz)

$|f(S) - f(\hat S^{\Gamma_K})| \leq [f]_{\mathrm{Lip}}\|S - \hat S^{\Gamma_K}\|$ p.s. Espérance + Cauchy-Schwarz : $\mathbb{E}|f(S) - f(\hat S)| \leq [f]_{\mathrm{Lip}}\sqrt{\mathbb{E}\|S-\hat S\|^2} = [f]_{\mathrm{Lip}}\sqrt{D_K}$.

Loss CVaR pondérée (sur la grille)

$$\boxed{\;\mathcal{L}_{\mathrm{CVaR}}^{\mathrm{w}}(\theta, \xi) = \xi + \frac{1}{1 - \alpha}\,\sum_{i=1}^{K} w^i\,(L_\theta(\gamma^i) - \xi)^+\;}$$

Cohérence asymptotique : $\mathcal{L}_{\mathrm{CVaR}}^{\mathrm{w}} \to \mathcal{L}_{\mathrm{CVaR}}$ quand $K \to \infty$, avec erreur dominée par $\sqrt{D_K}/(1-\alpha)$ (composition Lipschitz + quadrature).

Deux estimateurs — variantes B et S

(B) DH-CLVQ-B — full-batch, gradient exact. À chaque itération, forward complet sur les $K$ centroïdes pondérés :

$$\nabla_\theta \mathcal{L}_{\mathrm{CVaR}}^{\mathrm{w}} = \frac{1}{1-\alpha}\sum_{i=1}^K w^i\, \nabla_\theta(L_\theta(\gamma^i) - \xi)^+ \quad O(K)\text{ par itération, variance } 0.$$

(S) DH-CLVQ-S — sampling pondéré. Tirage de $B$ indices $i_1, \dots, i_B \overset{\text{iid}}{\sim} \mathrm{Mult}(w)$, puis moyenne uniforme sur le mini-batch (importance sampling sur $\hat{\mathbb Q}_K$) :

$$\hat{\mathcal{L}}_B = \xi + \frac{1}{(1-\alpha)\,B}\sum_{b=1}^B (L_\theta(\gamma^{i_b}) - \xi)^+ \quad O(B), \;\mathrm{Var} = O(1/B).$$

Équivalence en espérance. $\mathbb E\big[\frac{1}{B}\sum_b \ell(\gamma^{i_b})\big] = \sum_i w^i\,\ell(\gamma^i)$, donc l'estimateur S cible la même loss que B en espérance — mais avec variance résiduelle.

Décomposition d'erreur — quadrature + optim (séparables)

L'erreur entre la CVaR optimale et l'itérée $\hat\theta_n$ obtenue par RM sur la grille se décompose :

$$\big| \mathrm{CVaR}_\alpha(L_{\theta^\star}) - \mathcal{L}_{\mathrm{CVaR}}^w(\hat\theta_n)\big| \;\leq\; \underbrace{C\, \sqrt{D_K(\Gamma_K)}}_{\text{erreur quadrature}} \;+\; \underbrace{O(n^{-1/2})}_{\text{erreur optim Polyak-Juditsky}}.$$

Séparabilité. Les deux termes sont indépendants : le premier ne dépend que de $K$ (taille de la grille) et de la qualité du quantifieur (init kmeans++ vs random) ; le second ne dépend que du nombre $n$ d'itérations RM et de l'usage de Polyak-Ruppert.

Stratégie pratique. Augmenter $K$ jusqu'à ce que l'erreur quadrature passe sous l'erreur d'optim, puis augmenter $n$. Verdict empirique : $K = 200$ suffit pour atteindre la borne $\mathrm{CVaR}_{0.95} = 9{.}39$ qui domine toutes les autres approches.

Trade-off coût / erreur

Stratégie	Taille $\mathcal{D}$	Coût/itér	Variance	Erreur dominante
DH-MC	$M = 10^4$	$O(M)$	$\sigma^2_{\mathrm{MC}}/M$	$1/\sqrt{M}$ (TCL)
DH-CLVQ-S (sampling)	$K \in [50, 500]$	$O(B)$	$\sigma^2/B$	$\sqrt{D_K} + 1/\sqrt{B}$
DH-CLVQ-B (full-batch)	$K \in [50, 500]$	$O(K)$	0	$\sqrt{D_K}$

Pour $K \leq 200$, on privilégie B (gradient exact, convergence déterministe). Pour $K \geq 500$, S devient nécessaire ($O(B)$ indépendant de $K$).

▷ Démo interactive — Distorsion vs $K$, taux Zador, borne de quadrature

dim. $d$

51

exposant Zador $-2/d$

−0.039

$\hat D_K$ à $K=50$

—

$\hat D_K$ à $K=500$

—

ratio $D_{500}/D_{50}$

—

$d$ (dimension)51

$[f]_{\mathrm{Lip}}$ (constante)1.0

Lecture. En log-log, la pente théorique est $-2/d$ (Zador). Pour $d = 51$, la pente est quasi plate ($\approx -0.039$) : doubler $K$ de 50 à 500 ne réduit la distorsion que d'un facteur modeste — c'est la malédiction de la dimension fonctionnelle.

Partie 06

Comparatif final — 5 stratégies, multi-seed $R=5$

Évaluation hors-échantillon strictement séparée : $M_{\mathrm{test}} = 5\,000$ trajectoires (seed=100), moyennée sur $R=5$ seeds d'entraînement indépendantes ($s \in \{42,43,44,45,46\}$). Toutes les valeurs sont rapportées en moyenne ± demi-largeur d'IC à 95 % $= 1{.}96\,\hat\sigma_R/\sqrt{R}$, et les comparaisons paire-à-paire sont validées par test t apparié de Welch ($\nu = R-1 = 4$ ddl).

Hypothèses testables

Verdict global. DH-CLVQ-* vs $\Delta$ BS proxy doit être très significatif ($|t| \gg 2{.}776$).
Pathologie CVaR sparse-gradient (audit T1). Sans early-stopping, DH-MC CVaR doit rester pire que DH-MC MSE — l'amplification $1/(1-\alpha) = 20$ couplée à un signal sur 5 % des trajectoires crée des gradients trop bruités pour Adam.
Compression sans perte (audit T5). DH-CLVQ-S sur $K=200$ atomes doit atteindre $\sigma(\Pi_T)$ comparable à DH-MC MSE sur $M=10\,000$ trajectoires brutes.
Ranking interne neuronal. À $R=5$, les écarts entre méthodes neuronales peuvent ne pas être significatifs ; on l'énonce explicitement plutôt que de prétendre.

▷ Visualisation — Sélectionner une stratégie pour révéler ses métriques (±IC95)

1

Δ Black-Scholes (proxy)

Heuristique $N(d_1)$ call vanille pas-à-pas — déterministe, IC95 = 0

CVaR$_{0{.}95} =$ 17.95

2

DH-MC MSE

MLP partagé, loss $\mathbb E[\Pi_T^2]$, $M_{\mathrm{train}}=10\,000$, 30 epochs (sans early-stop, audit T1)

CVaR$_{0{.}95} =$ 14.93 ± 0.97

3

DH-MC CVaR ⚠ pathologie confirmée

SGD joint $(\theta, \xi)$ Bardou-Frikha-Pagès, $\alpha = 0.95$ — sans early-stop : $\xi$ ne se stabilise pas, gradient sparse $\times$ amplification 20

CVaR$_{0{.}95} =$ 20.58 ± 1.52

4

DH-CLVQ-S ($K=200$) ★ meilleur en moyenne

Mesure compressée + sampling pondéré $B=256$, $n_{\mathrm{iter}}=2000$ — gradient dense via $w^i$

CVaR$_{0{.}95} =$ 11.15 ± 0.57

5

DH-CLVQ-B ($K=200$, full-batch)

Forward complet sur $K$ centroïdes pondérés, $n_{\mathrm{iter}}=2000$, gradient déterministe — variance entre seeds plus haute (init Xavier)

CVaR$_{0{.}95} =$ 11.83 ± 1.03

Tableau comparatif multi-seed $R=5$ — moyenne ± demi-largeur IC 95 %

Stratégie	$\sigma(\Pi_T)$	MSE	CVaR$_{0{.}95}$	$t$ moyen (s)	Gain CVaR$_{95}$
Δ Black-Scholes (proxy)	8.66 ± 0.00	102.49 ± 0.00	17.95 ± 0.00	0.0	—
DH-MC MSE	3.66 ± 0.31	41.59 ± 2.50	14.93 ± 0.97	5.8	−16.8 %
DH-MC CVaR (pathologie ⚠)	5.16 ± 0.43	55.40 ± 4.73	20.58 ± 1.52	6.2	+14.7 %
DH-CLVQ-S ($K=200$) ★	2.95 ± 0.27	36.22 ± 1.85	11.15 ± 0.57	40.9	−37.8 %
DH-CLVQ-B ($K=200$)	3.07 ± 0.34	37.10 ± 2.26	11.83 ± 1.03	38.1	−34.1 %

Renversement multi-seed. Sur un seul seed (v3), DH-CLVQ-B atteignait 9.39 ; sur $R=5$ seeds, sa moyenne remonte à $11.83 \pm 1.03$, et c'est DH-CLVQ-S qui devient le meilleur en moyenne ($11.15 \pm 0.57$). Les deux sont statistiquement équivalents (cf. test t ci-dessous), mais S est plus stable d'un seed à l'autre — vraisemblablement parce que le sampling agit comme une régularisation contre l'overfitting aux 200 centroïdes fixes du full-batch B.

Test t de Welch apparié — significativité paire-à-paire ($\nu = 4$ ddl)

Paire (A vs B)	$t$-stat	$p$-value	Verdict ($\alpha = 0.05$)
DH-CLVQ-B vs $\Delta$ BS proxy	−11.677	0.0003	significatif
DH-MC MSE vs DH-CLVQ-B	+3.958	0.0167	significatif
DH-MC CVaR vs DH-CLVQ-B	+8.571	0.0010	significatif
DH-CLVQ-S vs DH-CLVQ-B	−1.067	0.3462	non significatif

Lecture honnête. Les trois verdicts robustes tiennent : (1) DH-CLVQ-B bat $\Delta$ BS, (2) DH-CLVQ-B bat DH-MC MSE, (3) DH-CLVQ-B bat DH-MC CVaR. La hiérarchie interne entre S et B, en revanche, n'est pas tranchée à $R=5$. Pour la départager il faudrait $R \geq 30$ (hors budget CPU). Ce n'est pas un problème : le verdict scientifique du projet est porté par la famille DH-CLVQ-* vs DH-MC, pas par le ranking individuel S vs B.

Constat positif central — compression sans perte $\sim 50\times$

DH-CLVQ-S à $K=200$ atomes pondérés atteint $\sigma(\Pi_T) = 2{.}95 \pm 0{.}27$, comparable à DH-MC MSE entraîné sur $M=10\,000$ trajectoires brutes ($\sigma = 3{.}66 \pm 0{.}31$). Le ratio de compression effectif est $M/K = 50$ : la mesure quantifiée $\hat{\mathbb Q}_K = \sum_i w^i \delta_{\gamma^i}$ contient assez d'information sur $\mathcal L(S_{0:T})$ pour entraîner un hedger aussi performant — voire meilleur sur la queue. C'est le vrai produit méthodologique du projet, plus solide statistiquement que tout ranking individuel.

Pont conceptuel — quatre instances d'un même paradigme RM

Algorithme	Itérée $\theta_n$	Champ moyen $h$	Oracle bruité $H$
SGD sur $f(\theta) = \mathbb E_Z[g(\theta,Z)]$	poids MLP	$\nabla f(\theta)$	$\nabla_\theta g(\theta,Z)$
CLVQ (Pagès-Printems)	grille $\Gamma_K$	$\tfrac{1}{2}\nabla D_K(\Gamma)$	$(\gamma^{i^\star} - X)\,e_{i^\star}$
Bardou-Frikha-Pagès CVaR	$(\theta, \xi)$	$\nabla V(\theta,\xi)$	sous-gradient RU
Rétropropagation MLP (fusion DH-CLVQ)	$(\theta, \xi)$	$\nabla\mathcal L^w_{\mathrm{CVaR}}$	backprop sur $\mathrm{Mult}(w)$ ou full-batch

Tous convergent p.s. vers un point stationnaire du champ moyen, par la même chaîne : Robbins-Siegmund sur Lyapunov $V$ adaptée. Vitesse asymptotique optimale donnée par le théorème Polyak-Juditsky $\sqrt{n}\,(\bar\theta_n - \theta^\star) \xrightarrow{\mathcal L} \mathcal{N}(0, A^{-1}\Sigma A^{-\top})$.

Partie 07

Annexe — Notations, hyperparamètres, bibliographie

A.1 — Table de notations canoniques

Symbole	Signification	Section
$\theta, \theta^*, \bar\theta_n$	paramètre RM, zéro cible, moyenne PR	P1
$\gamma_n$	pas RM, $\gamma_n = c\,n^{-\alpha}$, $\alpha \in (1/2, 1]$	P1
$\Gamma_K = (\gamma^i)_{i=1..K}$	grille CLVQ de taille $K$	P3
$V_i(\Gamma)$, $w^i$	cellule de Voronoï, poids $\mathbb{Q}(S \in V_i)$	P3
$D_K(\Gamma)$	distorsion quadratique $\mathbb{E}[\min_i \\|S-\gamma^i\\|^2]$	P3
$S_t, S_{t_k}, \bar S_t$	sous-jacent BS, schéma log-Euler, moyenne courante	P2
$r, \sigma_{\mathrm{BS}}, T, K_{\mathrm{strike}}$	params BS et option	P2
$\Pi_T, L = -\Pi_T$	P&L terminal, perte	P4
$\delta_\theta, \delta_{\theta, t_k}$	MLP partagé, position au pas $k$	P4
$\xi, \alpha, \mathrm{CVaR}_\alpha$	param Rockafellar-Uryasev, niveau, mesure de risque	P4
$\hat{\mathbb{Q}}_K^{\mathrm{CLVQ}}$	mesure compressée $\sum_i w^i \delta_{\gamma^i}$	P5
$M, N, K, B$	taille MC, pas temps, taille grille, taille batch	—

A.2 — Hyperparamètres complets (run de référence v4 multi-seed)

Black-Scholes

$S_0 = 100$, $K_{\mathrm{strike}} = 100$, $r = 0.02$, $\sigma_{\mathrm{BS}} = 0.20$, $T = 1$, $N = 50$ pas, $\Delta t = 0.02$. Schéma log-Euler exact (sans biais de discrétisation).

Monte Carlo & seeds

$M_{\mathrm{train}} = 10\,000$ ; $M_{\mathrm{val}} = 10\,000$ ; $M_{\mathrm{test}} = 5\,000$ (seed_test=100, strictement disjointe). Comparatif final multi-seed $R = 5$ : seeds train $\in \{42, 43, 44, 45, 46\}$.

CLVQ Pagès-Printems

$K \in \{50, 100, 200, 500\}$ (200 retenu) ; $\gamma_n = c\,n^{-0.75}$ avec $c=1.0$ ; n_iter = 10\,000 ; init kmeans++ (verdict bench). Dim. fonctionnelle d'enveloppe $d = N+1 = 51$ ; pente Zador naïve $-2/51 \approx -0.039$ ; pente Zador effective $-2/d_{\mathrm{eff}}^{(99)} \approx -0.111$ avec $d_{\mathrm{eff}}^{(99)} = 18$ et $d_{\mathrm{eff}}^{(95)} = 5$ par PCA (cf. Partie 3, audit T3).

Architecture DH (« Plan A » du projet)

MLP unique partagé sur les $N$ pas, features $(t_k/N, S_{t_k}, \bar S_{t_k}) \in \mathbb R^3$, hidden_sizes = (32, 32), activation = ReLU, init Xavier (seed-dépendante), weight_decay = 0.

Optimisation DH-MC (audit T1 — sans early-stop)

Adam ; lr = 1e-3 (MLP), lr_xi = 1e-2 (param RU) ; batch_size = 256 ; epochs = 30 ; scheduler cosine ; grad_clip = 1.0 ; early_stopping_patience = None (forcé pour audit T1). La v3 utilisait patience = 8, ce qui masquait la pathologie sparse-gradient en coupant DH-MC CVaR à $\sim$ 15 epochs.

Optimisation DH-CLVQ

Adam mêmes lr ; S (sampling) : batch_size = 256, tirages iid sous $w^i$, n_iter = 2000, gradient stochastique non biaisé ; B (full-batch) : n_iter = 2000, forward complet sur les $K = 200$ atomes pondérés, gradient déterministe.

CVaR & Polyak-Ruppert (audit T4 — repositionné en illustration)

$\alpha = 0.95$ ; PR mesuré sur baseline SGD vanilla (pas Adam) à $M=5000$ : CVaR$_{0.95}$ brute = $16.165$, CVaR$_{0.95}$ après PR = $15.477$, gain $+4{.}25\,\%$. Cette expérience démontre l'effet théorique Polyak-Juditsky 1992 sur une baseline non-compétitive (SGD vanilla, beaucoup plus lent que les méthodes neuronales du tableau principal), pas une méthode opérationnelle pour le hedging. Adam casse la décroissance $\sum \gamma_n^2 < +\infty$ implicite, donc PR n'est pas applicable directement à DH-MC ou DH-CLVQ.

A.3 — Convergence empirique

Taux MC (DH-MC). Théorique $-1/2$ en log-log de l'erreur en $M$. Empirique sur $M \in \{1\,000, 2\,000, 5\,000, 10\,000, 20\,000\}$ : pente sous-estimée par rapport à la théorie à cause de la sensibilité de la $\mathrm{CVaR}_{0.95}$ à la queue.

Taux CLVQ. Pente empirique mesurée $\boxed{-0{.}141}$ sur $K \in \{50, 100, 200, 500\}$. Comparée aux deux bornes Zador :

Pente naïve $-2/51 \approx -0{.}039$ — 3.6× trop lente ✗
Pente effective $-2/d_{\mathrm{eff}}^{(99)} \approx -0{.}111$ — cohérente ✓
Pente effective $-2/d_{\mathrm{eff}}^{(95)} \approx -0{.}400$ — borne supérieure

L'observation se situe entre les deux bornes effectives, plus proche de $-2/d_{\mathrm{eff}}^{(99)}$ — confirmant que la quantification quadratique « voit » surtout les directions principales de la mesure, et que la concentration brownienne réduit significativement la dimension intrinsèque vue par la quadrature.

A.4 — Limites L1-L8

L1. Coût offline du CLVQ ($\sim 10\,000$ itérations RM préalables), non amorti si la mesure cible change.
L2. Asymptote Zador en $K^{-2/d}$ avec $d = 51$ : gain en $K$ rapidement faible passé $K = 200$ (mais en pratique $d_{\mathrm{eff}}^{(99)} = 18$ rend le régime préasymptotique nettement plus favorable).
L3. Modèle BS log-normal ; robustesse à un modèle à sauts ou stochastic-vol (Heston, Bates) à établir.
L4. Plan A : même MLP à chaque pas $t_k$ ; un Plan B avec un MLP par pas pourrait capturer une dynamique non-stationnaire.
L5. DH-MC CVaR pathologique sans correctif : sparse-gradient $\times$ amplification $1/(1-\alpha)=20$ + Adam $\Rightarrow$ pire que $\Delta$ BS proxy à $R=5$ seeds. Diagnostic principal résolu par CLVQ (audit T1).
L6. Polyak-Ruppert déstabilise Adam : effet exploitable seulement en SGD vanilla (plus lent en pratique).
L7. Variance multi-seed de l'entraînement DH ($\sigma_{\mathrm{seed}}$ jusqu'à $1{.}74$ sur DH-MC CVaR) plus grande que la variance hors-échantillon : la randomness d'entraînement domine la randomness de test.
L8. À $R=5$, le ranking interne entre méthodes neuronales (DH-CLVQ-S vs DH-CLVQ-B) est statistiquement non significatif ($t = -1.07$, $p = 0.35$). Le verdict robuste reste DH-* vs $\Delta$ BS. Pour départager S et B il faudrait $R \geq 30$ (hors budget CPU).

A.5 — Ouvertures O1-O7

O1. Multilevel functional quantization (Lemaire-Pagès) : combiner plusieurs grilles à $K$ croissant pour réduire l'erreur quadrature en régime préasymptotique.
O2. Variates de contrôle sur l'estimateur MC pour ramener la pente empirique vers $-1/2$.
O3. Adaptive grids : recompresser la grille CLVQ après avoir entraîné un premier hedger, pour concentrer les centroïdes sur la queue de perte.
O4. Extension à Heston / Bates : tester la robustesse de la fusion CLVQ + DH sur des modèles à vol stochastique.
O5. Frottements (coûts de transaction) : réintégrer dans le P&L et mesurer l'impact sur la $\mathrm{CVaR}$.
O6. Rendu temps-réel (online) : découplage CLVQ offline / DH online, mise à jour incrémentale de la grille.
O7. PR sur hedger compétitif : appliquer Polyak-Ruppert à un DH-CLVQ entraîné par SGD à pas $\gamma_n = c\,n^{-\alpha}$ Pagès, et comparer rigoureusement à la même baseline non-moyennée. Permettrait de tester la théorie Polyak-Juditsky 1992 sur un hedger opérationnel.

A.6 — Bibliographie

Robbins H., Monro S. (1951). A Stochastic Approximation Method. Ann. Math. Stat. 22(3).
Robbins H., Siegmund D. (1971). A convergence theorem for non-negative almost supermartingales.
Chung K. L. (1954). On a stochastic approximation method. Ann. Math. Stat. 25(3). — Premier TCL pour Robbins-Monro (cas scalaire).
Sacks J. (1958). Asymptotic distribution of stochastic approximation procedures. Ann. Math. Stat. 29(2). — Extension multidimensionnelle.
Fabian V. (1968). On asymptotic normality in stochastic approximation. Ann. Math. Stat. 39(4). — Formulation moderne.
Polyak B., Juditsky A. (1992). Acceleration of stochastic approximation by averaging. SIAM J. Control 30(4).
Zador P. L. (1982). Asymptotic quantization error of continuous signals and the quantization dimension. IEEE Trans. Inf. Theory.
Pagès G. (2018). Numerical Probability: An Introduction with Applications to Finance. Springer Universitext. Chap. 5 (Quantification optimale), chap. 6 (Approximation stochastique).
Pagès G., Printems J. (2003). Optimal quadratic quantization for numerics: the Gaussian case. MCMA 9(2).
Bardou O., Frikha N., Pagès G. (2009). Computing VaR and CVaR using stochastic approximation and adaptive unconstrained importance sampling. MCMA 15(3).
Rockafellar R. T., Uryasev S. (2000). Optimization of Conditional Value-at-Risk. J. of Risk 2(3).
Cybenko G. (1989). Approximation by superpositions of a sigmoidal function. MCSS 2(4).
Hornik K. (1991). Approximation capabilities of multilayer feedforward networks. Neural Networks 4(2).
Buehler H., Gonon L., Teichmann J., Wood B. (2019). Deep hedging. Quant. Finance 19(8).

A.7 — Reproductibilité

Seeds : 42 (train), 43 (val), 100 (test), explicitement injectées via numpy.random.default_rng(seed) et torch.Generator(seed). Exécution séquentielle complète : 30–45 min CPU sur machine standard (Intel i5/i7, 16 GB RAM, sans GPU). Environnement : Python 3.11+, numpy 2.x, scipy 1.x, pandas 2.x, matplotlib 3.x, seaborn 0.13+, torch 2.x (CPU), scikit-learn 1.5+, tqdm.

Fusion CLVQ et Deep Hedgingsous mesure de risque CVaR$_{0{.}95}$

Comment lire ce dashboard

Robbins-Monro et approximation stochastique

Simulateur Black-Scholes et payoffs asiatiques

CLVQ — Quantification vectorielle de Pagès-Printems

Deep Hedger MC + CVaR Rockafellar-Uryasev

Fusion CLVQ → Deep Hedger (DH-CLVQ)

Comparatif final — 5 stratégies, multi-seed $R=5$

Annexe — Notations, hyperparamètres, bibliographie

Black-Scholes

Monte Carlo & seeds

CLVQ Pagès-Printems

Architecture DH (« Plan A » du projet)

Optimisation DH-MC (audit T1 — sans early-stop)

Optimisation DH-CLVQ

CVaR & Polyak-Ruppert (audit T4 — repositionné en illustration)

Fusion CLVQ et Deep Hedging
sous mesure de risque CVaR$_{0{.}95}$