174 48 6MB
French Pages 204 [203] Year 2012
Collection « Une Introduction à » dirigée par Michèle Leduc et Michel Le Bellac
Mathématiques des marchés financiers Modélisation du risque et de l’incertitude
Mathieu Le Bellac et Arnaud Viricel Préface de
Jean-Philippe Bouchaud
17, avenue du Hoggar Parc d’activités de Courtabœuf, BP 112 91944 Les Ulis Cedex A, France
Dans la même collection Les atomes froids Erwan Jahier, préface de M. Leduc Le laser Fabien Bretenaker et Nicolas Treps, préface de C. H. Townes Le monde quantique Michel Le Bellac, préface d’A. Aspect Les planètes : les nôtres et les autres Thérèse Encrenaz, préface de J. Lequeux Naissance, évolution et mort des étoiles James Lequeux La fusion thermonucléaire contrôlée Jean-Louis Bobin, préface d’E. Klein
Retrouvez tous nos ouvrages et nos collections sur http://www.edition-sciences.com
Imprimé en France. © 2012, EDP Sciences, 17, avenue du Hoggar, BP 112, Parc d’activités de Courtabœuf, 91944 Les Ulis Cedex A Tous droits de traduction, d’adaptation et de reproduction par tous procédés réservés pour tous pays. Toute reproduction ou représentation intégrale ou partielle, par quelque procédé que ce soit, des pages publiées dans le présent ouvrage, faite sans l’autorisation de l’éditeur est illicite et constitue une contrefaçon. Seules sont autorisées, d’une part, les reproductions strictement réservées à l’usage privé du copiste et non destinées à une utilisation collective, et d’autre part, les courtes citations justifiées par le caractère scientifique ou d’information de l’œuvre dans laquelle elles sont incorporées (art. L. 122-4, L. 122-5 et L. 335-2 du Code de la propriété intellectuelle). Des photocopies payantes peuvent être réalisées avec l’accord de l’éditeur. S’adresser au : Centre français d’exploitation du droit de copie, 3, rue Hautefeuille, 75006 Paris. Tél. : 01 43 26 95 35. ISBN 978-2-7598-0690-4
Mathieu LE BELLAC Ancien élève de l’École normale supérieure, Mathieu Le Bellac a travaillé dans le département d’audit quantitatif du groupe BPCE. Dans ce cadre, il a participé à plusieurs missions d’inspection sur les problématiques de contrôle des risques, de valorisation et de gestion d’actif au sein du groupe Banque Populaire et de Natixis. Il est actuellement Directeur des risques adjoint de la BRED, dont le périmètre de supervision comprend des activités de marchés, d’assurance et de banque de détail. Arnaud VIRICEL Membre de l’Institut des actuaires. Il a participé à la création de l’activité change et dérivés de la banque Natixis à New York en tant qu’opérateur de marché. Il a rejoint ensuite l’Autorité des Marchés Financiers, où il est en charge de la mise en place d’un système statistique de détection des abus de marché, avant de renforcer l’équipe d’audit quantitatif du groupe BPCE, dont il a pris la direction. Il est, depuis 2011, responsable des risques de marché de Natixis New York.
This page intentionally left blank
Table des matières
Préface
1
Avant-propos
3
1
Les taux d’intérêt 1.1 Composition des taux et actualisation . . . . . . . . . . . . . . . . 1.2 Constructions de la courbe de taux . . . . . . . . . . . . . . . . . . 1.3 Dynamiques de la courbe des taux . . . . . . . . . . . . . . . . . .
5 5 10 16
2
Risque de crédit et marché du crédit 2.1 Taux sans risque et spread de crédit . . . . . 2.2 Probabilités de défaut implicites . . . . . . 2.3 Un modèle structurel, le modèle de la firme 2.4 Corrélation entre les défauts . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
23 24 27 33 37
Théories d’aide à l’investissement 3.1 L’approche rendement-risque . . . . . . . . 3.2 La théorie de Markowitz . . . . . . . . . . . 3.3 Le modèle d’évaluation des actifs financiers 3.4 Corrélation contre cointégration* . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
45 46 49 53 59
. . . .
65 66 73 76 79
Le modèle de Black-Scholes 5.1 Le mouvement brownien . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Les processus lognormaux . . . . . . . . . . . . . . . . . . . . . . .
85 86 91
3
4
5
Théorie du non-arbitrage 4.1 Les arbres binomiaux . . . . . . . . . . . . . 4.2 Le théorème du non-arbitrage (cas discret) 4.3 La complétude . . . . . . . . . . . . . . . . . 4.4 Le cadre continu* . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
5.3 5.4
Valorisation sous le modèle de Black-Scholes . . . . . . . . . . . . 94 La volatilité implicite . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6
Modèles de volatilité 105 6.1 Valorisation avec les volatilités implicites* . . . . . . . . . . . . . . 106 6.2 Modélisation de la volatilité* . . . . . . . . . . . . . . . . . . . . . 112
7
Méthodes numériques 125 7.1 Simulations de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . 126 7.2 Méthode des différences finies* . . . . . . . . . . . . . . . . . . . . 140
8
La Value at Risk (VaR) 8.1 Principe général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 La VaR en pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Limites de la VaR . . . . . . . . . . . . . . . . . . . . . . . . . . . .
149 150 153 160
9
Modèles non gaussiens 9.1 Mise à l’épreuve des modèles gaussiens . . . . . . . . . . . . . . . 9.2 Les lois puissances . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Les processus de Lévy . . . . . . . . . . . . . . . . . . . . . . . . .
167 168 171 176
Conclusion
185
Bibliographie
189
Index
195
Les sections marquées d’une étoile (*) peuvent être un peu plus techniques que les autres, elles présentent des éléments d’approfondissement. Le lecteur qui le souhaite peut sauter ces sections sans perdre le fil du livre.
Table des matières
Préface L’ingénierie financière souffre depuis 40 ans d’un excès d’axiomatisation, de théorèmes inutiles et de modèles parfois tellement inadaptés qu’ils en deviennent source d’instabilités systémiques. La perfection de l’outil mathématique brouille l’intuition des mécanismes, la beauté des formules masque la complexité des phénomènes, la réalité disparaît derrière le formalisme. Les étudiants qui deviendront ingénieurs financiers, contrôleurs de risque ou traders se perdent souvent dans la démonstration de théorèmes et sont fascinés par l’esthétisme des résultats, au détriment de la critique des hypothèses et de la compréhension intuitive des modèles et de leurs limites. Plus encore que dans d’autres domaines, la modélisation en finance devrait être guidée, bridée même, par les observations empiriques. Bien sur, la dynamique des marchés est complexe et changeante, mais ce n’est pas une raison pour renoncer à inventer des modèles adaptés aux phénomènes, plutôt que de forcer des modèles mathématiques commodes mais invraisemblables, à coller aux données financières. Comme le dit le psychanalyste Gérard Haddad : « Il faut entrer dans le discours du patient et non tenter de lui imposer le nôtre ». Or la majorité des livres de finance mathématique – même ceux parus après la crise de 2008 – continuent, comme si de rien n’était, à parler de mouvement Brownien et de modèle de Black-Scholes, de « réplication parfaite » et de risque nul, ou même du « théorème fondamental de la finance », tout en s’abstenant de montrer des données empiriques et de comparer les modèles à la réalité. On se lance à corps perdu dans la calibration de modèles vides de sens, mais tellement flexibles qu’ils pourraient « reproduire un éléphant », comme on a coutume de le dire. Dans ce contexte, le livre de Mathieu Le Bellac et Arnaud Viricel est particulièrement précieux. Leur propos est de démystifier les modèles classiques de la finance, en insistant sur leur interprétation et leurs limites et en conservant du formalisme mathématique son strict minimum. Ils prennent grand soin d’illustrer leur discours par des graphiques, qui s’appuient sur des données empiriques,
ce qui leur permet de faire apparaître de façon flagrante certaines aberrations théoriques. Ils tentent de distiller, chez le lecteur, l’envie de comprendre en profondeur les mécanismes des marchés financiers, et d’en développer une intuition directe, presque charnelle, avant d’en faire une modélisation quantitative. Cette pédagogie du risque sera à coup sûr, pour qui s’en imprègne, très utile en situation de crise ou d’incertitude. Car comme le laisse entendre le sous-titre du livre, Modélisation du risque et de l’incertitude, la limitation essentielle de l’ingénierie financière actuelle – et le vrai défi des années à venir – c’est bien l’incertitude radicale, les « unknown unknowns » et les cygnes noirs qu’il faudra bien, d’une manière ou d’une autre, et tant bien que mal, tenter d’apprivoiser. J.-P. B OUCHAUD Paris, décembre 2011
2
Préface
Avant-propos Les mathématiques financières ont été dénoncées par nombre de spécialistes et amateurs comme étant responsables de la dernière crise financière. Loin de nous le projet d’infirmer ou de confirmer de tels soupçons. Nous nous proposons en revanche de revenir aux fondamentaux et de répondre à la question : que sont les mathématiques financières ? Notre ambition est d’aller au-delà d’une simple présentation descriptive et d’inviter le lecteur à pénétrer à l’intérieur de notre discipline : comprendre ses objets, les outils qu’elle utilise, les questions qu’elle se pose, ses problématiques, ses difficultés. À la racine des mathématiques financières sont les instruments financiers ; nous les présenterons au fur et à mesure des chapitres. Les produits les plus simples sont les biens et titres de propriété, tels que les actions, l’or, le pétrole, l’immobilier, les liquidités en euros ou autres devises. Les autres produits financiers peuvent être vus comme un ensemble de flux monétaires futurs, certains ou incertains. Par exemple, les titres de dette tels que les obligations sont simplement des prêts consentis à des entreprises ou des États. Ces titres peuvent être représentés comme un échange de flux financiers, le prêteur apporte au départ une somme d’argent à l’emprunteur qui rembourse à des dates fixées le principal et les intérêts du prêt. Les produits dérivés sont des instruments plus complexes dont les flux de paiement dépendent d’un événement prédéterminé, selon des modalités fixées à l’avance d’un commun accord entre les parties. Par exemple, les flux échangés suite à un « credit default swap » sont liés à l’éventuelle faillite d’une entité de référence ; autre exemple, les « options sur action » sont des instruments financiers qui génèrent des paiements dont le montant est lié à l’évolution de la valeur boursière d’une action de référence. Trois problématiques essentielles tournent alors autour de ces produits financiers : – Comment déterminer leur prix ? – Comment identifier les opportunités d’investissement ? – Comment quantifier et gérer leurs risques ?
Les mathématiciens et économistes ont construit, principalement depuis la seconde moitié du XXe siècle, un certain nombre de méthodes, de modèles et de théories mathématiques pour donner des éléments de réponse à ces questions. Cet arsenal d’outils mathématiques développés autour des instruments financiers constitue les mathématiques financières. Nous souhaitons qu’en fermant ce livre le lecteur soit familiarisé avec les notions théoriques de martingales, de structure de corrélation, de paramètres implicites mais aussi avec les méthodes et outils des praticiens, telles que les méthodes numériques de résolution. Comprendre les concepts, c’est évidemment connaître leurs limites. Nous accorderons donc une attention particulière aux hypothèses des modèles et à leurs domaines de validité. La responsabilité principale du quant – terme désignant les chargés de modélisation mathématique dans les banques – est justement de maîtriser les qualités et défauts de ses modèles et de savoir précisément ce dont ils rendent compte et ce qu’ils ne modélisent pas. Ce livre est un ouvrage de vulgarisation. Les principes qui sous-tendent les calculs seront détaillés mais pas les calculs eux-mêmes ; nous passerons du temps sur les implications et interprétations des équations, non sur les équations. Ainsi, autant que possible, nous fournirons une représentation intuitive ou physique des phénomènes et des modèles évoqués en nous extrayant du formalisme mathématique. Le livre doit être accessible aux non spécialistes ; une connaissance, même ancienne, des fonctions mathématiques élémentaires (logarithmes, exponentielles) et des probabilités est un bagage technique suffisant pour aborder l’ouvrage. Remerciements. L’aboutissement de notre projet doit beaucoup au soutien de nos épouses Laetitia et Ève ainsi qu’à Joséphine qui a eu l’excellente idée de faire rapidement ses nuits. Nos relecteurs ont su nous indiquer les voies sans issue, les embûches mais aussi les trésors cachés et les nouvelles voies à explorer. Que Vincent Calvet, Denys Dartigues, Rami Feghali, Samuel Launay, Michel Le Bellac, Laetitia Nouailhat et Bruno Trentini trouvent ici l’expression de notre reconnaissance pour avoir tant contribué à cet ouvrage. Nous remercions également Michèle Leduc pour sa confiance et son investissement dans notre projet. Enfin, les travaux de Jean-Philippe Bouchaud ont été pour nous une grande source d’inspiration. Nous sommes très reconnaissants de l’intérêt qu’il a porté à notre livre et lui exprimons notre plus grande gratitude pour sa disponibilité, ses remarques avisées et le temps précieux qu’il nous a consacré.
4
Avant-propos
1 Les taux d’intérêt « Le temps, c’est de l’argent. » Ce célèbre adage populaire s’applique en particulier au monde financier où il est matérialisé par les taux d’intérêt : il semble ainsi évident à chacun que tout argent prêté doit donner lieu à rétribution. Nous ne développerons pas les raisons de l’existence de ces taux d’intérêt ; il nous suffira de considérer que le paiement d’intérêts vise à compenser la perte, par le prêteur, de l’opportunité d’investissement sur d’autres placements rémunérateurs ou d’achats de biens de consommation. Les taux d’intérêt rendent également compte du risque de non-remboursement de la somme prêtée. Ce risque est appelé risque de crédit et sera abordé dans le deuxième chapitre. Au cours de ce chapitre, nous présenterons les notions de taux d’intérêt composé et d’actualisation (section 1) et montrerons l’existence d’une structure par maturité des taux d’intérêt (section 2). Nous étudierons ensuite l’évolution dans le temps de cette structure par maturité en nous appuyant notamment sur l’Analyse en Composantes Principales introduite par [Litterman et Scheinkman 1991] (section 3). 1
Composition des taux et actualisation
Les intérêts servent à rémunérer le prêteur, ou créancier, pour avoir mis à disposition de l’emprunteur une certaine somme d’argent, pendant un certain temps et selon certaines modalités de remboursement. Les cas de figure peuvent être très variés : la durée du prêt, généralement appelée maturité, peut aller de 24 heures au demi-siècle ; le remboursement du capital peut être progressif, comme dans un crédit immobilier classique, ou in fine comme c’est généralement le cas pour les emprunts sur les marchés financiers. Quel que soit le type de
prêt, l’emprunteur doit être capable de calculer un taux d’intérêt pour évaluer le coût de son emprunt et comparer les différentes configurations qui peuvent lui être proposées. S’il existe différentes méthodes de calcul des taux d’intérêt – beaucoup plus nombreuses que ce que l’on imagine en général – nous allons nous concentrer sur une convention particulièrement utile : le taux composé. Lorsque nous plaçons de l’argent sur un compte rémunéré, comme le Livret A, nous prêtons de l’argent à notre banque et percevons une rémunération en contrepartie. Ainsi, 1 000 e placés au taux d’intérêt annuel de 2 % capitalisent et deviennent 1 020 e à la fin de l’année de placement. Si la somme est entièrement réinvestie sur le même placement, après une deuxième année de capitalisation, elle vaudra 1 020 × (1 + 2 %) = 1 040,4 e, puis 1 000 × (1 + 2 %)3 e la troisième année, ..., et 1 000 × (1 + 2 %)n e la ne année. Ce calcul montre qu’au bout de 10 ans, nous avons près de 1 219 e : les intérêts annuels de 2 % nous ont rapporté plus de 10 fois le taux d’intérêt annuel car tous les intérêts ont été ré-investis et capitalisent à leur tour. C’est sur cette convention de calcul que reposent les taux d’intérêt composés : les intérêts non payés au prêteur à l’issue de la période d’application du taux génèrent des intérêts supplémentaires au même taux. Dans cette convention, un montant M qui capitalise au taux d’intérêt annuel r vaudra M × (1 + r )T au bout de T années. Ainsi, la théorie dit que si Platon avait placé 1 e en l’an 400 avant J.-C. au taux annuel de 1 %, il possèderait (1,01)2 412 e début 2012, soit plus de 25 milliards d’euros. Renversons notre point de vue et supposons que nous voulions 1 000 e dans 10 ans : quel montant faut-il investir ? Le calcul est très simple : la réponse est 1 000 e soit environ 820 e pour un taux d’intérêt r de 2 %. Cette propriété peut (1+r )10 être conceptualisée de la manière suivante : – Il est strictement équivalent d’avoir 820 e aujourd’hui ou d’avoir 1 000 e dans 10 ans. – Le prix à payer aujourd’hui pour avoir 1 000 e dans 10 ans est 820 e. – La valeur aujourd’hui de 1 000 e dans 10 ans est 820 e. Nous venons d’introduire la notion fondamentale de valeur actualisée, également appelée valeur présente. La valeur actualisée est simplement le prix à payer aujourd’hui pour recevoir un flux futur. Dans notre exemple, la valeur présente de 1 000 e à recevoir dans 10 ans est 820 e. Lorsque l’on se sert d’un taux d’intérêt pour calculer la valeur actualisée d’un paiement, on le nomme taux d’actualisation. Une grande part des mathématiques financières que nous allons découvrir dans les prochains chapitres est dédiée au calcul de la valeur présente de flux futurs, connus ou inconnus. Cette valeur est le prix de marché de ces flux, c’est-à-dire le prix auquel les acteurs de marché sont prêts à acheter ou vendre les flux. 6
Chapitre 1. Les taux d’intérêt
Encadré 1.1. L’actualisation.
L’actualisation est le calcul permettant de donner la valeur aujourd’hui d’un flux financier futur. Ce calcul dépend du niveau des taux d’intérêt : si le taux d’intérêt à un an est de 5 %, alors l’actualisation d’un flux de 105 e à recevoir dans un an nous donnera une valeur présente de 100 e. L’actualisation permet donc de rendre comparables des flux financiers versés à des dates différentes.
Récapitulons au travers d’un exemple plus élaboré. Vous êtes un État et souhaitez emprunter sur les marchés financiers. Vous êtes prêts à payer 5 Me (millions d’euros) pendant 2 ans et rembourser 105 Me au terme des 3 ans. Avec un taux d’actualisation de 2 %, combien la banque vous prêtera-t-elle ? En d’autres termes, quelle est la valeur présente des flux que vous proposez à la banque ? La réponse se calcule simplement : 5 5 105 + + ≈ 108,65 Me 2 1 + 2 % (1 + 2 %) (1 + 2 %)3
(1.1)
En effet, chaque flux à percevoir a un prix : le premier vaut 1+52 % = 4,9 Me, le second (1+25 %)2 = 4,8 Me et le troisième (1+105 = 98,95 Me ; le prix du total 2 %)3 est la somme du prix de chacun des flux. Il est très important de pouvoir calculer à tout moment cette valeur actualisée des flux que l’État verse, car le prêt consenti par la banque pourra être revendu sur les marchés financiers. Pour ce faire, le prêt de l’État prend souvent la forme d’une obligation. L’obligation fonctionne exactement comme un prêt dont l’avantage est de pouvoir s’échanger facilement sur les marchés financiers : c’est le détenteur de l’obligation qui perçoit les flux de remboursement de la part de l’emprunteur qui est l’émetteur de l’obligation. Tout un vocabulaire s’est développé autour de ces obligations : le montant du capital est appelé nominal de l’obligation et les intérêts versés sont les coupons. Généralement, les coupons sont connus à l’avance et fixés comme un pourcentage du nominal de l’emprunt (on parlera alors d’obligations à taux fixe) et sont versés à une fréquence donnée. Le nominal de l’emprunt est, quant à lui, remboursé avec le dernier coupon à la maturité de l’obligation. Encadré 1.2. Les obligations.
Une obligation est un titre de dette représentatif de la créance d’une entreprise envers le détenteur de l’obligation. Comme il s’agit d’un titre, l’obligation peut s’échanger sur les marchés financiers. Ainsi, l’acheteur d’une obligation acquiert le droit de recevoir à intervalles réguliers un montant d’intérêts appelé coupon et calculé en pourcentage du montant du capital (le nominal) que le créancier devra rembourser à la maturité de l’obligation.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
7
Dans l’exemple de l’équation (1.1), nous avons calculé la valeur présente, c’est-à-dire le prix, d’une obligation arrivant à maturité dans 3 ans, de nominal 100 Me et à coupons annuels de 5 %. Si les taux d’intérêt sont de 2 %, une banque achètera donc l’obligation au prix 108,65 Me, c’est-à-dire qu’elle versera à l’État 108,65 Me en échange du titre. La présentation que nous venons de faire peut surprendre le lecteur qui essaye d’associer les notions avec les prêts traditionnels aux particuliers. Dans notre exemple : – Le montant versé à l’État, 108,65 Me, n’est pas le montant du capital (le nominal) qui est quant à lui de 100 Me. – Le taux de coupon, 5 %, qui représente les intérêts versés, est différent du taux d’intérêt utilisé pour l’actualisation qui est 2 %. – Dans les obligations que nous avons présentées, le nominal est remboursé uniquement à la fin du prêt, il n’est pas remboursé au fur et à mesure. Si les taux d’intérêt étaient égaux au taux de coupon 5 %, le prix de l’obligation serait bien égal au nominal 100 Me. Mais, dans les faits, les taux d’intérêt évoluent de jour en jour sur les marchés (de la même manière que le taux du Livret A évolue en cours d’année). Supposons que l’obligation souveraine ait été émise à un moment où les taux d’intérêt étaient de 5 %. Les taux d’intérêt ont baissé, puisqu’ils sont à 2 % dans notre exemple. L’obligation souveraine apporte donc plus d’intérêts que les taux de marché : il est logique qu’elle se soit appréciée et qu’elle vaille plus que son nominal. La baisse des taux a donc accru le prix de notre obligation. Réciproquement, il semble évident que le droit à recevoir des intérêts fixes devienne d’autant moins intéressant que les taux montent et que les investisseurs ont l’opportunité d’investir dans des produits répercutant cette hausse des taux. Cela explique la fameuse règle qui veut que les prix des obligations baissent quand les taux montent et inversement. Formellement, l’équation qui lie taux d’actualisation, prix, coupons, maturité et nominal d’une obligation est : Prix =
maturité
∑
t =1
coupon nominal + t (1 + taux) (1 + taux)maturité
(1.2)
Le taux d’actualisation qui permet de vérifier l’égalité (1.2) représente ce qu’on appelle le taux de rendement de l’obligation. Par construction, il s’agit bien du rendement de l’obligation puisqu’il est strictement équivalent d’acheter l’obligation ou de placer le prix de l’obligation sur un compte qui capitalise à ce taux de rendement. En effet, nous avons déjà vu qu’il était strictement équivalent 1 de recevoir (1+taux aujourd’hui ou 1 au temps t. )t 8
Chapitre 1. Les taux d’intérêt
F IGURE 1.1. Variation des prix d’obligations en fonction du taux d’intérêt. Il faut remarquer que : (i) pour un même taux et une même maturité, le prix des obligations croît avec la valeur des coupons (si le taux de rendement est fixé, plus le coupon est élevé, plus l’obligation est intéressante) (ii) le prix des obligations décroît avec le niveau des taux d’intérêt (iii) les courbes de prix ne sont pas rectilignes et leurs pentes s’accentuent lorsque les taux diminuent.
Pour finir de s’en convaincre, plutôt que de s’intéresser à la valeur actualisée, calculons l’argent disponible à la maturité de l’obligation. Si nous placions le prix de l’obligation sur un livret offrant le même taux de rendement, nous obtiendrions à maturité la somme : Prix × (1 + taux)maturité . Si nous achetions l’obligation et replacions chacun des coupons perçus sur le même livret, nous obtiendrions à maturité la somme : ∑maturité coupon × (1 + taux)maturité−t + nominal. L’équat =1 tion (1.2) énonce précisément que ces deux quantités sont égales. On peut aussi bien calculer le prix d’une obligation connaissant son taux de rendement que déduire le taux de rendement du prix d’une obligation. Un investisseur n’achètera une obligation à un prix donné que si celle-ci lui garantit un taux de rendement en ligne avec les rendements des autres opportunités d’investissement. C’est grâce à cela qu’il existe une forme d’équilibre sur le niveau général des taux d’intérêt à un instant donné, et que tous les placements doivent être en ligne avec ce taux de rendement général. La notion d’inflation n’a pas encore été abordée dans ce chapitre alors qu’elle peut sembler, de prime abord, très liée aux taux d’intérêt. L’inflation exprime l’évolution de la valeur de la monnaie, elle est généralement mesurée comme l’évolution du nombre d’unités monétaires nécessaires pour acheter des biens de consommation et des services. Ainsi, il s’agit d’une notion permettant de MATHÉMATIQUES DES MARCHÉS FINANCIERS
9
lier un monde où la référence absolue est l’unité monétaire à un monde où la référence est la capacité à consommer des biens et services. Une inflation positive indique que la valeur de la monnaie baisse dans le temps, c’est-à-dire qu’avec une somme d’argent constante dans le temps, la capacité à consommer diminue. Dans la même logique, si le taux d’intérêt d’un placement est exactement égal au taux d’inflation, la valeur du placement en termes de capacité à consommer sera constante dans le temps. Cela explique que les taux d’intérêt et l’inflation peuvent paraître liés et corrélés. Cependant, il s’agit bien de concepts distincts et qui peuvent d’ailleurs évoluer en sens contraire. En effet, les taux d’intérêt rémunèrent notamment le prix de la liquidité, autrement dit le fait de disposer d’une somme d’argent aujourd’hui et pas demain. Il semble évident que même dans un monde sans inflation, il est plus intéressant de jouir d’une somme d’argent immédiatement que 10 ans plus tard. De manière générale, les prêts et emprunts sont soumis à intérêts même en l’absence d’inflation. Le lien entre l’inflation et les taux d’intérêt est donc avéré mais non systématique, les théories économiques qui conceptualisent ces interactions sortent du cadre classique des mathématiques financières et ne seront pas abordées dans cet ouvrage. 2
Constructions de la courbe de taux
La section précédente a permis d’établir la relation liant les prix des obligations au niveau global des taux d’intérêt. À ce stade, nous ne savons pas encore comment calculer en pratique ce taux d’intérêt : comment détermine-t-on quels sont les taux d’intérêt à utiliser pour actualiser un flux ? Les grandeurs observables sur les marchés financiers sont les prix : les prix des transactions sur les marchés organisés sont publics, nous pouvons par exemple tous consulter les cours de toutes les actions du CAC 40 sur Internet. Les prix des obligations sont plus difficiles à obtenir pour les particuliers, mais beaucoup d’obligations sont quotidiennement échangées entre les différents acteurs de marché, dans des volumes conséquents et dans des conditions qui sont publiées auprès des professionnels des marchés. Ainsi, nous pouvons déduire de ces obligations de référence les niveaux des taux d’intérêt. Étudions le résultat d’une telle analyse sur des obligations de l’État français (appelées Obligations Assimilables du Trésor ou OAT) dans le graphique 1.2. Cette figure met en évidence le fait que les taux sont globalement croissants avec la maturité. Ce constat s’interprète assez naturellement si l’on considère qu’un prêt d’argent sur une durée donnée implique que l’accès à la liquidité investie ne sera pas possible durant tout ce laps de temps. Il semble normal que 10
Chapitre 1. Les taux d’intérêt
F IGURE 1.2. Taux de rendement d’OAT de maturités différentes. Le taux paraît d’autant plus élevé que la maturité de l’obligation est longue. Ce phénomène est souvent constaté, mais ce n’est pas une loi générale (voir différentes formes de la courbe des taux dans la figure 1.5).
l’investisseur soit rétribué pour ce risque dit de liquidité qui est d’autant plus grand que la durée d’investissement est longue. De ce fait, la valeur d’un taux d’intérêt dépend de la maturité du placement sur lequel il s’applique. Le taux d’intérêt associé à un emprunt de six mois n’est pas le même que le taux d’intérêt associé à un emprunt de 25 ans ; un particulier qui a dû négocier le taux de son crédit immobilier avec sa banque est d’ailleurs normalement bien au fait de ce phénomène. Il explique pourquoi nous parlons de courbe des taux : la courbe des taux est la fonction qui associe à chaque maturité le taux d’intérêt correspondant. Cette construction de la courbe des taux mérite attention, c’est à elle que nous allons consacrer la présente section. Tout d’abord, il nous faut être vigilant dans sa définition : nous noterons r ( T ) le taux associé à la maturité T. Par définition, lorsque nous calculerons des valeurs présentes, chaque flux devra donc être actualisé au taux associé à la date de versement du flux. Le prix d’une obligation est donc par définition, en adaptant l’équation (1.2) : Prix =
maturité
∑
t =1
coupon nominal + t (1 + r (t)) (1 + r (maturité))maturité
(1.3)
Cette équation est importante car elle montre que le prix d’une obligation, et donc son taux de rendement, qui reste défini par l’équation (1.2), est sensible non MATHÉMATIQUES DES MARCHÉS FINANCIERS
11
seulement au taux d’intérêt r (maturité) associé à la date de maturité mais aussi à tous les taux r (t) associés aux dates de paiement des coupons. Le seul cas où le taux de rendement d’une obligation est égal au taux r (maturité) est lorsque l’obligation ne verse pas de coupon (taux de coupon égal à 0 %). Ces obligations s’appellent les Zéro Coupon et existent réellement sur les marchés financiers. Pour cette raison, les taux d’actualisation r (t) sont appelés les taux Zéro Coupon que nous noterons taux ZC dans la suite du texte. Encadré 1.3. Les Zéro Coupons.
Un zéro coupon est une obligation ne donnant droit qu’au versement du nominal à la maturité de l’obligation. Cette obligation ne verse ainsi aucun coupon, d’où son nom. De ce fait, le prix d’un zéro coupon est nécessairement inférieur à son nominal.
L’équation (1.3) montre également que si l’on connaît le prix d’une obligation et les taux ZC antérieurs à sa maturité, nous pouvons calculer le taux ZC associé à la date de maturité de l’obligation. En d’autres termes, nous retiendrons qu’à partir d’un jeu d’obligations de maturités différentes nous pouvons recalculer de proche en proche les taux ZC. Illustrons cela par un exemple dont le lecteur pourra reproduire les calculs. Admettons que nous disposons du prix de 2 obligations, de nominal 100 e chacune : – L’obligation A, de maturité 1 an et de coupon annuel 5 e, vaut 102 e ; – L’obligation B, de maturité 2 ans et de coupons annuels 6 e, vaut 104 e. L’équation (1.3) appliquée à l’obligation A permet de calculer r (1) ≈ 2,94 %. Appliquée à l’obligation B, cette même équation permet dans un second temps de calculer r (2) à partir de la valeur de r (1) : r (2) ≈ 3,91 %. À ce stade, l’objectif fixé, la construction de la courbe des taux, paraît acquis puisque nous pouvons observer le prix d’obligations de référence et en déduire les taux ZC ainsi que nous l’avons fait dans l’exemple précédent. Toutefois nous avons négligé plusieurs aspects importants. Premièrement, la construction de notre courbe des taux ZC repose sur un nombre limité d’obligations dont les maturités ne sont pas nécessairement bien réparties : la question se pose donc de savoir comment construire les taux ZC pour une maturité comprise entre deux maturités consécutives des obligations pour lesquelles nous disposons des prix. Deuxièmement, les obligations d’État sont des produits de marché dont les prix sont sensibles au niveau des taux d’intérêt, bien sûr, mais aussi à d’autres facteurs comme le risque de défaillance des États, les incidences fiscales, la rareté d’une maturité influant sur le prix par le jeu de l’offre et de la demande, la difficulté à trouver des acheteurs ou des vendeurs pour certaines obligations 12
Chapitre 1. Les taux d’intérêt
dites illiquides... Enfin, la plupart des produits dérivés de taux qui nécessitent le recours aux courbes des taux ZC pour leur valorisation sont des produits traités entre banques. De ce fait, la courbe des taux ZC utilisée devrait refléter le niveau des taux interbancaires (c’est-à-dire les taux auxquels les banques se prêtent entre elles) et non le niveau des taux des obligations d’État. C’est pour ces raisons qu’afin de construire leurs courbes des taux ZC les banques utilisent généralement d’autres produits financiers, négociés sur les marchés interbancaires, sur lesquels nous ne nous attarderons pas. Pour approfondir le sujet, le lecteur curieux pourra s’intéresser aux dépôts interbancaires court terme, aux futures de taux et aux swaps de taux (ces produits financiers sont par exemple présentés dans [Hull 2011]). Nous retiendrons que ces produits comportent de nombreux avantages : – les maturités disponibles sont nombreuses et bien réparties ; – les cotations de ces instruments sont fréquentes et partagées par l’ensemble des acteurs du marché des taux ; – ces produits n’étant pas des titres et pouvant donc être générés à l’infini, ils sont moins soumis aux contraintes de liquidité que les obligations. De ce fait, leurs cotations sont réputées plus pures. Comme l’illustre la figure 1.3, les méthodes appliquées dans le cadre des produits interbancaires nous permettent de disposer d’un maillage assez fin et cohérent de taux ZC tandis que leur application aux obligations est susceptible de générer un nuage de points plus difficile à interpréter et à exploiter.
(a) : Exemple d’échantillon de taux ZC observés sur le marché interbancaire
(b) : Exemple d’échantillon de taux ZC issus des prix d’obligations
F IGURE 1.3. Exemple illustratif d’échantillons de base pour la construction de courbes des taux ZC. Les données pouvant être observées sur le marché interbancaire sont plus nombreuses et régulières.
Quelle que soit la densité du maillage obtenu, il est nécessaire de développer des méthodes d’interpolation ou de lissage pour calculer les taux ZC entre deux MATHÉMATIQUES DES MARCHÉS FINANCIERS
13
taux ZC observés. Les méthodes d’interpolation viseront à relier les taux ZC existants entre eux alors que les méthodes de lissage n’imposeront pas à la courbe des taux de passer par les taux ZC observés. L’interpolation d’un nombre important de points par une unique fonction est inapplicable. En effet, soit la fonction ne comporte pas suffisamment de degrés de liberté et l’interpolation n’est pas possible, soit le nombre de degrés de liberté est suffisant mais la contrainte des points de passage obligés impose alors une forme erratique à notre courbe. Les méthodes usuellement retenues font donc appel à des fonctions définies par morceaux. Pour chaque intervalle de maturité (c’est-àdire entre deux maturités de nos taux ZC observés) est construite une fonction définie uniquement sur cet intervalle, cette dernière est en général choisie à partir de contraintes de continuité et de dérivabilité. La fonction d’interpolation résultante est la juxtaposition de ces fonctions individuelles. Des techniques de lissage peuvent également être utilisées. Dans ce cas, il s’agit généralement de faire coïncider au mieux des courbes dites paramétriques avec les taux ZC observés. Ces formes de courbe sont : – soit construites spécifiquement afin de répliquer au mieux les diverses configurations de courbe des taux (courbes paramétriques de Nelson-Siegel et Nelson-Siegel augmentée) ; – soit déduites de modèles utilisés pour simuler l’évolution des taux d’intérêt dans le temps (modèles de Vasiceck, Cox Ingersol Ross...). Ces modèles définissent implicitement les formes admissibles que peut prendre la courbe des taux Zéro Coupon. Le choix de ces méthodes doit être cohérent avec l’objectif recherché, par exemple : – Une banque utilisant une courbe de taux ZC pour valoriser des dérivés de taux qui seront vendus ou achetés à d’autres acteurs du marché recourra à une méthode d’interpolation afin de s’assurer que les taux ZC observés sont conservés dans la courbe des taux finale. En effet, les prix des produits achetés ou vendus doivent être cohérents avec les prix affichés par le marché. – Une société de gestion d’actifs désireuse de repérer des titres obligataires sous-cotés dans le cadre d’une décision d’investissement cherchera plutôt une méthode de lissage apte à donner un sens économique aux résultats obtenus. En effet, dans ce cas, répliquer parfaitement les prix des obligations ne lui fournirait aucune information exploitable en vue de l’identification d’obligations sous-cotées. Le graphique 1.4 présente la construction de courbes de taux ZC à partir de taux ZC interbancaires observés. Le graphe de gauche utilise les taux de maturités 14
Chapitre 1. Les taux d’intérêt
(a) : Interpolation et lissage d’une courbe interbancaire [1mois-6mois] [1an-20ans]
(b) : Interpolation et lissage d’une courbe interbancaire [1mois-6mois] [11mois] [1an-20ans]
F IGURE 1.4. Exemples d’interpolation et de lissage d’une courbe de taux ZC interbancaire. Les interpolations par morceaux peuvent créer des perturbations techniques (creux observé sur le graphique (b)) indésirables. Les interpolations paramétriques ([Nelson et Siegel 1987]) sont plus robustes (courbes bleues) mais elles présentent l’inconvénient de ne pas passer par tous les taux observés (points rouges).
s’échelonnant tous les mois entre 1 mois et 6 mois puis tous les ans entre 1 an et 20 ans. Le graphe de droite utilise les mêmes taux observés auxquels a été rajouté un taux ZC de maturité 11 mois. Cet exemple est riche d’enseignements puisqu’il permet de constater que la méthode paramétrique est insensible à l’ajout du taux ZC de maturité 11 mois tandis que la méthode d’interpolation par morceaux y est très sensible. Nous pouvons considérer que l’ajout du taux ZC 11 mois a compromis le sens économique de l’interpolation : le creux observé entre les maturités 1 an et 2 ans n’a pas de sens économique puisqu’il n’est que la résultante du choix arbitraire d’une méthode d’interpolation. L’innocuité supposée des méthodes d’interpolation n’est qu’un leurre et celles-ci devraient donc être contrôlées continûment avant utilisation. La construction des courbes de taux Zéro Coupon est fondamentale, qu’il s’agisse de l’utiliser comme outil de calcul de la valeur présente des dérivés de taux ou comme outil d’aide à la décision dans le cadre d’investissements obligataires. Elle est l’étape préalable à toute modélisation financière car c’est elle qui définit les taux d’actualisation des flux. Dès cette étape, des choix de modélisation s’imposent, que ce soit dans la sélection des produits financiers à utiliser pour placer les points de la courbe ou dans les règles de construction d’une courbe continue à partir des points observés ; ces choix conduiront naturellement à des prix différents dont aucun ne sera meilleur que les autres dans l’absolu mais qui pourront être plus ou moins adaptés aux objectifs recherchés.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
15
3
Dynamiques de la courbe des taux
Dans le présent chapitre, nous avons introduit les taux d’intérêt et le principe essentiel d’actualisation. Nous avons ensuite remarqué qu’il n’existait non pas un unique taux d’intérêt mais un taux associé à chaque maturité, l’ensemble de ces taux formant la courbe des taux. Nous verrons dans cette troisième section que cette courbe évolue dans le temps et tenterons d’identifier les principales composantes de ce mouvement. Premier élément de cette étude, l’échantillon de courbes des taux en figure 1.5 montre que l’histoire mouvementée des marchés financiers modernes a pu déboucher sur des configurations de taux d’intérêt variées.
F IGURE 1.5. Différentes configurations de courbes des taux au fil de l’histoire. La courbe des taux peut prendre des formes très diverses.
Nous constatons ainsi qu’au moins cinq formes de courbes sont possibles : – courbe croissante (Courbe interbancaire Euro du 03/02/2010) ; – courbe plate (Courbe interbancaire Euro du 05/10/2006) ; – courbe décroissante (Courbe d’État britannique du 11/01/2001) ; – courbe décroissante puis croissante (Courbe interbancaire Euro du 07/12/2007) ; – courbe croissante puis décroissante puis croissante (Courbe interbancaire Euro du 03/11/2008). Le graphique 1.5 permet de formuler une première constatation : les taux court terme semblent plus volatils que les taux long terme. Cette hypothèse est 16
Chapitre 1. Les taux d’intérêt
d’ailleurs confirmée par la variance des taux de la courbe du trésor britannique entre 2000 et 2009 : 3,6 10−7 pour le taux 2 ans contre 2,5 10−7 pour le taux 20 ans (variance de l’évolution quotidienne des taux). Cela étant dit, ces cinq configurations ne nous donnent que peu de renseignements sur la dynamique réelle de la courbe des taux. Si chaque point de la courbe évoluait indépendamment des autres, nous serions confrontés à une infinité de sources de variabilité. Heureusement, l’histoire montre que la dynamique de la courbe des taux est guidée par quelques mouvements caractéristiques ; cela simplifie et structure grandement les analyses de risque. Nous allons montrer dans cette section comment identifier ces mouvements principaux. Pour ce faire, plaçons-nous dans le cas théorique où la courbe des taux est restreinte à deux points de maturité, par exemple les maturités 2 ans et 7 ans. L’ensemble des déformations peut alors être représenté sur le plan constitué, en abscisses, des variations des taux ZC 2 ans et, en ordonnées, des variations des taux ZC 7 ans. Cette représentation appliquée aux variations quotidiennes des taux de la courbe du trésor britannique entre 2000 et 2009 figure sur le graphe 1.6. L’objectif est de trouver le mouvement de courbe s’approchant le plus de la plupart des déformations observées sur le graphe. Ce mouvement peut être par exemple : – une hausse parallèle des taux ZC de maturités 2 et 7 ans ; – une hausse du taux ZC de maturité 2 ans deux fois plus importante que celle du taux ZC 7 ans ; – une baisse du taux ZC de maturité 2 ans d’une amplitude équivalente à celle de la hausse du taux ZC 7 ans. Chacun de ces mouvements peut être représenté sur le plan par une droite. Ainsi, une hausse parallèle des taux ZC sera représentée par la droite d’équation y = x par exemple. Il est évident qu’une droite unique ne pourra décrire l’intégralité du plan et donc du nuage, cependant, nous allons chercher la droite permettant de s’approcher le plus de chacun des points. Intuitivement, il s’agit de la droite indiquant la direction de la plus grande largeur de notre nuage. Mathématiquement, il s’agit de la droite minimisant la somme des distances au carré entre les points du nuage et cette même droite. Le lecteur intéressé pourra vérifier que le critère utilisé revient à maximiser la variance des projections orthogonales des points du nuage sur la droite (en utilisant le théorème de Pythagore par exemple). L’axe rouge en trait plein tracé sur la figure 1.6 est la droite ainsi définie, elle est approximativement la droite d’équation y = x. Compte tenu du critère retenu pour sa construction, nous sommes assurés que la variance portée par cet axe sera la plus grande possible et que la variance MATHÉMATIQUES DES MARCHÉS FINANCIERS
17
F IGURE 1.6. Représentation conjointe des variations de taux ZC 2 ans et 7 ans : chaque point représente une variation quotidienne enregistrée sur les taux ZC 2 ans et 7 ans. Les points se concentrent autour de la droite rouge en trait plein proche de la diagonale y = x, cela signifie que les cas où les variations des taux 2 ans et 7 ans sont à peu près d’égale proportion constituent un axe de variation privilégié. Au contraire, les variations proches de l’axe en trait pointillé perpendiculaire au premier axe (variations opposées des taux 2 ans et 7 ans) semblent les moins probables.
résiduelle sera portée par l’axe orthogonal (droite en traits pointillés sur la figure 1.6). Dans notre exemple, le premier axe explique 79 % de la variance totale contre 21 % pour l’axe en pointillé. En synthèse, nous avons appris que la variation des taux 2 ans et 7 ans est constituée à 79 % de mouvements parallèles et de même amplitude, alors que les 21 % restants s’expliquent par des variations de sens opposés. La méthodologie évoquée dans l’exemple précédent s’appelle Analyse en Composantes Principales (ACP). Elle est classiquement utilisée pour identifier les axes principaux (ou vecteurs principaux) de déformation de la courbe des taux. Dans notre exemple, nous avions deux dimensions de déformations possibles, 2 ans et 7 ans, et nous avons identifié un axe de déformation principal, la variation parallèle des taux 2 et 7 ans, et un axe de déformation secondaire, la variation en sens contraire des deux taux. Cette construction se généralise à l’intégralité des points de maturité de la courbe, en dimension N si la courbe est constituée 18
Chapitre 1. Les taux d’intérêt
de N points de maturité. Dans ce cas, l’ACP identifie N axes de déformations qui peuvent être ordonnés du plus important au plus marginal. En ne retenant que les axes principaux, nous pouvons donc réduire les dimensions d’analyse des déformations de la courbe en nous concentrant sur les déformations les plus importantes. Le graphique 1.7 présente les trois premiers vecteurs maximisant la part de variance expliquée dans le cadre de l’application d’une ACP aux variations quotidiennes des taux de la courbe du trésor britannique entre 2000 et 2009.
F IGURE 1.7. Les trois principaux vecteurs de déformation de la courbe des taux. Chacun de ces vecteurs est associé à une déformation de la courbe des taux représentée dans la figure 1.8.
Reste désormais à interpréter ces résultats : – La forme du premier vecteur peut être assimilée à une droite horizontale. Cela signifie que les déformations proportionnelles à ce facteur correspondront à une translation de la courbe vers le haut ou vers le bas, comme l’indique la figure 1.8. – La forme du second vecteur peut être assimilée à une droite décroissante coupant l’axe des abscisses au point de maturité 11,5 ans. Cela signifie que les déformations proportionnelles à ce facteur correspondront à une rotation centrée autour du point de maturité 11,5 ans, comme l’indique la figure 1.8. On parlera alors de pentification ou d’aplatissement de la courbe des taux. – La forme du troisième facteur peut être assimilée à une parabole dont le minimum se situe au point de maturité 7,5 ans. Cela signifie que les MATHÉMATIQUES DES MARCHÉS FINANCIERS
19
déformations proportionnelles à ce facteur correspondront à l’accroissement des taux aux extrémités de la courbe et à la diminution des taux situés à proximité de la maturité 7,5 ans. On dira alors que la courbe subit un accroissement de sa convexité. Dans le sens contraire, le mouvement sera une atténuation de la convexité.
1er facteur : Translation
2e facteur : Pentification
3e facteur : Augmentation de la convexité
F IGURE 1.8. Illustration des déformations de la courbe des taux induites par les trois vecteurs principaux de l’ACP. Les graphiques illustrent l’impact sur la courbe des taux d’une variation des taux alignée sur l’un des trois vecteurs identifiés dans la figure 1.7.
Nous avons donc identifié les trois principaux types de déformation de la courbe des taux : translation (à la hausse ou à la baisse), pentification (ou aplatissement dans le sens contraire) et augmentation de la convexité (ou atténuation dans le sens contraire). Ces trois facteurs concentrent, dans notre exemple, 92 % de la variance du nuage de points. L’essentiel des mouvements peut désormais être exprimé à partir de trois vecteurs alors qu’il était nécessaire, avant la mise en œuvre de l’ACP, d’utiliser chaque point de la courbe. Cependant, il est important de s’interroger sur le sens de ces résultats. En premier lieu, cette méthode repose sur la variance. Ainsi, les facteurs identifiés comme étant principalement responsables de la déformation de la courbe des taux ne seront pas nécessairement les plus fréquents, mais uniquement ceux qui génèrent les plus importantes variations dans l’historique d’étude. En second lieu, la question de la stabilité temporelle des résultats obtenus se pose. Les diverses études de décomposition de la dynamique de la courbe des taux par le biais de l’ACP ont pu conclure à une grande stabilité, temporelle et géographique, de la décomposition sur les trois premiers facteurs (translation, pentification et convexité). La figure 1.9 illustre ce constat en présentant des résultats comparables pour deux périodes distinctes (2003 à 2006 puis 2006 à 2009). La plupart des éléments présentés dans ce chapitre sont fondés sur l’hypothèse que toute variation dans les taux zéro coupon est due à une modification de la structure des taux d’intérêt purs. Or, dans la pratique, d’autres éléments 20
Chapitre 1. Les taux d’intérêt
F IGURE 1.9. Stabilité des trois facteurs principaux de déformation de la courbe des taux. Les trois principaux vecteurs de déformation identifiés se retrouvent quelle que soit la période étudiée, l’analyse semble robuste dans le temps.
interfèrent avec cette notion de taux d’intérêt et en particulier le risque de crédit que nous verrons dans le prochain chapitre. Ainsi, il est impossible de distinguer dans les variations de prix des obligations la part imputable au seul risque de variation des taux d’intérêt. La prise de conscience de cette impossibilité a d’ailleurs été renforcée récemment par la crise des dettes souveraines qui a contribué à fragiliser l’hypothèse de l’existence de taux sans risque. Il n’en demeure pas moins que cette construction est indispensable à la modélisation des produits financiers et à la compréhension de leur fonctionnement.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
21
This page intentionally left blank
2 Risque de crédit et marché du crédit Nous avons étudié au précédent chapitre les taux d’intérêt purs rémunérant la perte d’opportunité d’investissement par le prêteur. L’identité de l’emprunteur n’avait alors que peu d’importance puisque nos raisonnements présupposaient que tous les flux futurs étaient versés de manière certaine. Dans la pratique, et ainsi que nous avions commencé à l’évoquer en filigrane, cette hypothèse est loin d’être acquise ; il suffit de discuter quelques instants avec les ex-créanciers de Worldcom, Enron ou encore Lehman Brothers pour s’en convaincre. En réalité, tout prêt ou emprunt d’argent est soumis à au moins deux risques : – le risque de variation des taux d’intérêt que nous avons vu lors du chapitre précédent ; – le risque de non-versement des flux d’argent prévus dans les termes du contrat, suite à la faillite ou au défaut de paiement d’une contrepartie ; c’est ce que l’on appelle le risque de crédit. L’existence de ce risque supplémentaire va conduire les prêteurs, comme c’est toujours le cas en finance, à demander un surcroît de rémunération visant à compenser le risque pris. Les théories du risque de crédit modélisent ce risque supporté par le prêteur, elles le quantifient par la notion de spread de crédit que nous aborderons dans la première partie. Le cas des Credit Default Swaps nous permettra dans un second temps d’illustrer comment le développement des produits dérivés de crédit a nécessité la construction de modèles cohérents avec les prix de marché et dont quelques exemples simples seront présentés ([Jarrow et Turnbull 1995]). Le modèle de [Merton 1974], appartenant à la famille des modèles dits structurels – modélisant le risque réel de défaut et les événements conduisant au défaut – sera ensuite évoqué. La modélisation des corrélations entre les défauts sera abordée dans le dernier volet de ce chapitre.
1
Taux sans risque et spread de crédit
Il semble assez simple de dégager intuitivement une hiérarchie grossière du risque de crédit en fonction de l’emprunteur ou de l’émetteur d’une obligation. Ainsi, un fonctionnaire semblera un emprunteur plus sûr qu’un chômeur en fin de droit ; un État de la zone Euro, un émetteur plus fiable qu’une PME russe. La justification et le raffinement de cette hiérarchie constitue en revanche une question bien plus épineuse. C’est ce à quoi s’emploient les agences de notation de crédit comme Standard & Poor’s (S&P), Moody’s ou Fitch à partir d’une analyse fondamentale de la structure et du fonctionnement des émetteurs notés. À l’issue de ces travaux, les agences de notation publient une note censée être représentative de la qualité de crédit de l’entité. Durant la crise dite des subprime, ces agences ont révélé leurs limites sur certaines typologies d’investissement. Toutefois, elles restent à ce jour les référents les plus indépendants et sérieux permettant de qualifier la qualité de crédit des émetteurs d’obligations. Les formats des notes diffèrent légèrement selon les agences et nous présentons ici une nomenclature simplifiée fondée sur celle de S&P : – AAA est la note maximale représentative de la meilleure qualité de crédit. Cette note regroupe certains États, entreprises ou organisations parapubliques. – de AA à BBB (AA puis A puis BBB selon un ordre de qualité de crédit décroissant) les émetteurs sont considérés comme étant Investment Grade (dits « catégorie d’investissement » en français), c’est-à-dire relativement sûrs. – de BB à D (BB puis B puis CCC et ainsi de suite, D signifiant que l’émetteur est en défaut) les émetteurs sont considérés comme étant Non Investment Grade (dits « investissements spéculatifs » en français), c’est-à-dire faisant état d’une situation fragile. La répercussion du niveau de risque de crédit sur les prix des obligations n’est pas identifiable immédiatement. En effet, le prix des obligations dépend de différents facteurs (montant des coupons, maturité, etc.) et il est difficile d’en isoler la composante rémunérant le risque de crédit. Il est donc nécessaire de passer par les taux de rendement des obligations. La figure 2.1 présente par exemple certaines obligations dont les prix sont supérieurs à d’autres obligations pourtant a priori moins risquées. La représentation de leurs taux de rendement permet, en revanche, de rendre compte des différences de niveaux de risques de crédit attendus : les taux de rendement des obligations les plus risquées sont plus élevés, les investisseurs demandent bien un rendement supplémentaire en contrepartie du risque pris. 24
Chapitre 2. Risque de crédit et marché du crédit
(a) Prix des obligations
(b) Taux de rendement des obligations
(c) Spread de crédit des obligations
F IGURE 2.1. Les différentes étapes de construction du spread de crédit. Les graphiques présentent six obligations identifiées par le nom de l’émetteur, la notation de l’émetteur, le coupon de l’obligation et sa maturité. La représentation des prix sur le graphique (a) ne permet pas de rendre compte de la hiérarchie du risque de crédit, les prix ne sont pas ordonnés en fonction de la qualité de crédit. Le recours aux taux de rendement sur le graphique (b) permet de rétablir cette hiérarchie pour peu que l’on se place sur une même maturité. Enfin, le calcul du spread de crédit, écart entre le taux sans risque et le taux de rendement, sur le graphique (c) isole la part du rendement de l’obligation associée au risque de crédit.
Le graphique 2.1b ne permet toutefois que de comparer deux obligations de même maturité. En effet, le taux de rendement rémunère tant la perte d’opportunité d’investissement (le taux d’intérêt pur) que le risque de crédit. Or, les taux d’intérêt purs dépendent de la maturité – ils croissent en général avec la maturité – cela explique pourquoi l’obligation EDF notée A et de maturité 11 ans offre un taux de rendement plus élevé que l’obligation Lafarge notée BB de maturité 2 ans alors qu’elle est mieux notée et donc supposée moins risquée. Pour cette raison, nous devons introduire la notion de taux sans risque qui est un taux non soumis au risque de crédit, c’est-à-dire pour lequel les versements d’intérêts futurs sont certains. Ce taux sans risque comporte une structure par MATHÉMATIQUES DES MARCHÉS FINANCIERS
25
maturité qui peut être déduite d’obligations non risquées au sens du risque de crédit. Ainsi pour chaque point de maturité, il est désormais possible de déterminer, pour chaque obligation risquée, la part de rendement imputable au risque de crédit. Il s’agit de la différence entre le taux de rendement de l’obligation risquée et le taux sans risque correspondant à la même maturité. On appelle cette différence le spread de crédit de l’obligation risquée. Par exemple, si le taux de rendement d’une obligation est η et que le taux sans risque est r, le spread de crédit est par définition s = η − r. Comment construit-on en pratique la courbe des taux sans risque ? Traditionnellement, il était considéré que les grands États occidentaux (États-Unis, Allemagne, France...) étaient peu susceptibles de faire défaut et que, par conséquent, les taux de rendement de leurs obligations pouvaient être assimilés à des taux sans risque. Or, sans remettre en cause le principe selon lequel les États comme l’Allemagne ou la France sont plus sûrs que la plupart des entreprises privées, la récente crise des dettes souveraines a pu montrer la fragilité de certains États comme la Grèce, le Portugal et l’Italie ; même les notes financières des États-Unis et de la France ont été dégradées par S&P en 2011/2012. Le graphique 2.2 présentant l’historique des taux de rendement d’obligations d’États de la zone Euro de maturité 10 ans illustre parfaitement ces événements.
F IGURE 2.2. Historique des taux de rendement des obligations de maturité 10 ans émises par différents États de la zone Euro. Les résultats de la crise bancaire consécutive au défaut de la banque Lehman Brothers sont manifestes à partir de la fin d’année 2008. Les écarts de rendement s’amplifient durant la crise des dettes souveraines au cours de l’année 2010.
26
Chapitre 2. Risque de crédit et marché du crédit
Il existe par ailleurs des mécanismes de collatéralisation qui permettent au prêteur de recevoir des titres en garantie de l’argent versé ; ceux-ci réduisent fortement le risque de crédit de certaines transactions effectuées sur les marchés interbancaires. Les taux d’intérêt en vigueur pour de telles opérations de marché peuvent donc également prétendre à la qualité de taux sans risque. Il n’existe pas à l’heure actuelle de référence absolue pour le taux sans risque. S’il est possible d’inférer par des études empiriques des références de taux sans risque à privilégier, il reste toutefois important de comprendre que le taux sans risque reste une notion théorique et non observable dans la pratique. 2
Probabilités de défaut implicites
Nous avons jusqu’ici présenté le risque de crédit comme une notion intuitive et relativement vague : le risque de non-versement de sommes dues. En réalité, la source du risque se manifeste à deux niveaux. Tout d’abord, la situation de trésorerie d’une entreprise peut la conduire à ne pas être en mesure d’honorer certains des paiements dus ; on dira alors que l’entreprise est en situation de défaut. Il s’agit du premier niveau de risque, qui peut être représenté par la probabilité que l’émetteur fasse défaut. Pour autant, cette probabilité n’est pas suffisante pour quantifier le risque de perte finale. En pratique les entreprises en défaut possèdent un reliquat de richesses suffisant pour faire face, en partie au moins, aux engagements qu’elles ont contractés. La perte sera ainsi limitée pour l’investisseur : certes l’entreprise aura fait défaut, mais au final, la perte issue du défaut sera partiellement compensée par la liquidation des actifs de l’entreprise. On parlera alors du risque de perte conditionnée au défaut, ou de perte en cas de défaut. La perte en cas de défaut est, en général, exprimée en pourcentage du nominal de l’obligation de même que son complémentaire, le taux de recouvrement (taux de recouvrement = 1 − perte en cas de défaut). La figure 2.3 illustre cette dualité dans le cadre d’une obligation zéro coupon risquée (valant initialement ZC) versant 100 à maturité si l’émetteur n’a pas fait défaut ou 100 × R (taux de recouvrement) sinon. Le défaut intervient avec une probabilité Pdef ( T ). Supposons que nous soyons en mesure d’estimer les deux paramètres Pdef ( T ) et R, peut-on retrouver le prix de marché ZC de l’obligation ? La réponse intuitive est qu’il faut calculer la valeur actualisée moyenne des flux, de la même manière que recevoir 1 000 avec 50 % de chance est à peu près comme recevoir 500. Si l’expérience était infiniment renouvelable, cette réponse serait rigoureuse car au bout d’un certain nombre de tirages, le flux versé serait bien en moyenne très voisin de 500 par tirage. Dans le cas de l’achat d’une obligation, l’expérience MATHÉMATIQUES DES MARCHÉS FINANCIERS
27
F IGURE 2.3. Représentation du risque de défaut dans le cadre d’une obligation zéro coupon. Le défaut se produit avec une probabilité Pdef et, dans ce cas, le détenteur de l’obligation ne touchera pas le nominal de 100 mais le recouvrement 100 × R qui sera inférieur à 100.
n’est pas renouvelable : l’entreprise fait défaut ou ne fait pas défaut. Un investisseur demandera alors à recevoir une rémunération supérieure à la moyenne probabilisée des flux à percevoir (sinon, il n’a pas de prime de risque) : ZC >
100 × [(1 − Pdef ( T )) + Pdef ( T ) × R] (1 + r ) T
(2.1)
Dans cette équation, r est le taux sans risque associé à la maturité T. Cependant, les mathématiciens de la finance ne calculent généralement pas un prix à partir de paramètres économiques mais recherchent les paramètres économiques qui rendent compte du prix de marché. Dans ce cadre, nous ne travaillerons donc pas sur les probabilités de défaut et taux de recouvrement réels qui satisfont l’inégalité (2.1) mais sur des données dites implicites : ce sont des paramètres Pdef ( T ) et R qui sont les solutions de l’équation : ZC =
100 × [(1 − Pdef ( T )) + Pdef ( T ) × R] (1 + r ) T
(2.2)
Cette manière de voir le monde peut surprendre le lecteur. C’est un aspect essentiel des mathématiques financières, sur lequel nous reviendrons régulièrement. Notre objectif n’est pas de calculer des prix de marché ex nihilo mais de partir d’un ensemble de prix de marché constatés pour en déduire le prix d’autres produits similaires mais non cotés sur les marchés. C’est exactement ce que nous avons fait au premier chapitre lorsque nous avons interpolé les courbes de taux. 28
Chapitre 2. Risque de crédit et marché du crédit
À ce sujet, [Derman 2003] explique « If you want to know the value of a security, use the price of another security that’s as similar to it as possible. All the rest is modelling. » 1 L’équation (2.2) pose cependant un problème : il existe deux inconnues (Pdef ( T ) et R) pour une seule équation. Afin de contourner ce problème, le taux de recouvrement R peut être fixé forfaitairement : une probabilité de défaut Pdef ( T ) est alors déduite de l’équation et se nomme probabilité de défaut implicite. Il y aura ainsi autant de probabilités de défaut implicites qu’il y aura de façon de fixer forfaitairement le taux de recouvrement. Nous avons vu précédemment que le risque de crédit d’une obligation pouvait se mesurer par son spread de crédit que nous notons ici s. Par définition du spread, le taux de rendement de l’obligation est r + s (r est le taux sans risque). On peut donc calculer ce spread, en remplaçant ZC dans l’équation (2.2) par l’expression idoine : 100 100 = × [(1 − Pdef ( T )) + Pdef ( T ) × R] (1 + r + s ) T (1 + r ) T
(2.3)
Au premier ordre (en considérant que Pdef ( T ) et r sont petits devant 1), nous obtenons l’expression du spread : s≈
Pdef ( T ) (1 − R ) T
(2.4)
Le spread peut ainsi être interprété doublement : c’est par définition l’excès de rendement sur le taux sans risque rémunérant le risque de défaut, c’est également, au premier ordre, la probabilité de défaut implicite annualisée et pondérée par la perte en cas de défaut. Une autre manière de le formuler est de considérer qu’il s’agit de la perte moyenne annuelle que l’investisseur peut attendre. En ce sens il devrait représenter, au premier ordre également, la prime annuelle qu’un investisseur est prêt à payer pour acheter une protection en cas de défaut. Ce type de protection existe réellement sur le marché du crédit, il s’agit d’un dérivé de crédit qui peut par exemple prendre la forme d’un Credit Default Swaps (CDS) et que nous introduirons ci-dessous.
1
Si vous voulez connaître le prix d’un titre, partez d’un titre qui lui est le plus proche possible. Le reste n’est que de la modélisation.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
29
Encadré 2.1. Les Credit Default Swaps (CDS).
Un credit default swap, ou CDS, est un contrat signé entre deux contreparties, l’acheteur et le vendeur. Par ce contrat, le vendeur s’engage à verser à l’acheteur la perte générée en cas de défaut de l’émetteur d’une obligation donnée. En contrepartie, l’acheteur paye une prime fixe. Ainsi, le CDS peut être utilisé comme une protection sur le risque de crédit issu d’une obligation. Toutefois, l’acheteur ne détient pas nécessairement l’obligation de référence, il peut simplement spéculer sur le risque de défaut de l’émetteur de l’obligation. Les CDS font partie de la famille des dérivés de crédit.
Les dérivés de crédit sont des produits financiers prévoyant le versement de flux financiers futurs dont le montant et la date de versement dépendent d’un événement de crédit comme le défaut d’un émetteur d’obligation par exemple. Parmi ceux-ci, les Credit Default Swaps (CDS) sont les plus répandus. Un contrat de CDS est un instrument financier offrant à son détenteur une protection sur le risque de crédit d’un émetteur donné contre le versement, à une fréquence régulière, de primes au vendeur du CDS. En cas de défaut, le vendeur du CDS compensera l’écart entre le recouvrement sur l’obligation et la valeur du nominal. Le détenteur du CDS ne perdra ainsi pas le montant investi : seuls les intérêts non encore perçus seront perdus. Naturellement, le raisonnement n’est valide qu’à condition que le vendeur de CDS ne fasse pas faillite à son tour. La crise récente a montré que la corrélation entre le risque de faillite du fournisseur de protection, le vendeur de CDS, et le risque de faillite de l’entité sur laquelle porte la protection pouvait être forte : la protection apportée par le CDS est d’autant plus illusoire que le vendeur de protection risque de faire faillite si l’entité de référence fait faillite (par exemple, si le vendeur de CDS a vendu plus de CDS qu’il ne pouvait honorer). Les financiers parlent dans cette situation de wrong way risk. Les CDS initialement prévus pour fournir de la protection aux détenteurs d’obligations sont devenus très rapidement des produits très liquides, c’est-àdire qu’ils ont connu de forts volumes de transaction. Ce faisant, ils sont même devenus la référence utilisée par les marchés pour quantifier le risque de crédit des émetteurs d’obligation. Le développement du marché des CDS a permis aux trader d’investir sur le risque de crédit en s’exonérant des contraintes physiques liées au marché des obligations. La prime à payer pour la protection est, au premier ordre, le spread de crédit de l’émetteur de référence (celui sur lequel porte le risque de défaut). Après cette parenthèse sur les dérivés de crédit, revenons à notre exemple initial (figure 2.3 et équation (2.3)). Le marché nous propose des prix d’obligations et de CDS sur différentes maturités T1 , T2 , etc., ce qui nous permet de calibrer les probabilités de défaut implicites pour ces maturités. Les modèles de crédit 30
Chapitre 2. Risque de crédit et marché du crédit
doivent permettre de calculer cette probabilité de défaut implicite pour n’importe quelle maturité T. Prenons l’exemple présenté dans le tableau ci-dessous. Supposons que nous connaissons les prix ZC ( Ti ) de 5 obligations zéro coupon d’un même émetteur et de maturités (Ti ) s’échelonnant de 1 à 5 ans. Supposons également connaître les prix ZC ∗ ( Ti ) de 5 obligations zéro coupon réputées sans risque. En faisant, par exemple, l’hypothèse que le taux de recouvrement R est nul, nous pouvons déduire de ces 10 instruments un vecteur de 5 probabilités de défaut implicites Pdef ( Ti ) : Prix de
Taux sans
Prix de
Probabilité
Maturité
l’obligation
risque
l’obligation
Spread
de défaut
(Ti )
sans risque
associé (r)
risquée
de crédit (s)
implicite
(ZC∗ (Ti ))
(ZC (Ti ))
(Pdef (Ti ))
1 an
97,1 %
3,0 %
96,6 %
0,50 %
0,48 %
2 ans
92,5 %
4,0 %
90,7 %
1,00 %
1,90 %
3 ans
87,6 %
4,5 %
85,4 %
0,90 %
2,54 %
4 ans
83,2 %
4,7 %
80,5 %
0,87 %
3,26 %
5 ans
78,4 %
5,0 %
75,3 %
0,85 %
3,95 %
Afin de déduire de ces données une structure des probabilités de défaut implicites par maturité, nous allons désormais introduire le principe général des modèles à intensité qui constituent la base des modélisations du risque de défaut déduites des données de marché. Ces modèles introduits par [Jarrow et Turnbull 1995] reposent sur l’hypothèse fondamentale que la probabilité de défaut d’un émetteur sur un court intervalle de temps est proportionnelle à la longueur dt de cet intervalle. Le coefficient de proportionnalité, appelé intensité du défaut et généralement représenté par λ(t), peut prendre plusieurs formes : – il peut être constant (λ(t) = λ) ; – il peut être constant par morceaux (λ(t) = λi pour t compris entre Ti et Ti+1 ) ; – il peut être une fonction déterministe quelconque du temps ; – il peut varier aléatoirement et être ainsi corrélé à d’autres facteurs économiques. L’hypothèse de proportionnalité de la probabilité de défaut à l’intervalle de temps ne peut être valide (au premier ordre) que sur de très courtes durées. En outre, il faut avoir à l’esprit qu’il s’agit d’une probabilité s’appliquant à des MATHÉMATIQUES DES MARCHÉS FINANCIERS
31
intervalles de temps futurs et qui n’a de sens que si l’émetteur n’a pas fait défaut avant le début de l’intervalle. C’est pourquoi la probabilité modélisée n’est pas une probabilité absolue mais conditionnelle au fait que l’émetteur n’ait pas fait défaut avant le début de l’intervalle. La transposition rigoureuse en langage mathématique de cette hypothèse de proportionnalité ainsi que les calculs qui permettent d’en déduire la structure des probabilités de défaut par maturité est expliquée dans [Schönbucher 2003] et n’est pas détaillée ici. Nous constaterons simplement que cette hypothèse mène au résultat suivant dans le cas où λ est constant : (2.5) Pdef ( T ) = 1 − e−λT
F IGURE 2.4. Probabilités implicites de défaut d’un émetteur entre l’instant présent et une maturité future dans un modèle à intensité. Ces probabilités sont données par l’équation (2.5), elles sont d’autant plus élevées que l’intensité λ est forte.
L’intérêt des modèles à intensité réside dans le fait qu’ils permettent, partant des prix de marché des obligations ou des CDS, de déduire une structure cohérente des probabilités de défaut permettant de valoriser presque tous les dérivés de crédit. La figure 2.5 montre que le modèle à intensité constante ne permet pas de rendre compte de la réalité des prix de marché. En effet, ce dernier ne comporte qu’un seul paramètre et est trop rigide pour approcher les prix de marché. Le modèle à intensité constante par morceaux comporte quant à lui autant de degrés de liberté qu’il y a de maturités disponibles pour le calcul. De ce fait, il permet d’approcher parfaitement leurs prix. À ce sujet, toutes les problématiques que nous avons abordées sur l’interpolation de la courbe des taux se posent également pour l’interpolation des intensités de défaut. 32
Chapitre 2. Risque de crédit et marché du crédit
F IGURE 2.5. Probabilités implicites de défaut calculées sur un jeu d’obligations zéro coupon risquées dans deux modèles à intensité : un modèle à intensité constante et un modèle à intensité constante par morceaux. Le modèle à intensité constante par morceaux permet de mieux ajuster la structure par maturité des probabilités de défaut aux probabilités déduites des prix de marché observés.
Avant de clore cette section, retenons que : – le risque de crédit est dual et dépend de la probabilité de défaut et de la perte en cas de défaut ; – les modèles à intensité permettent de calculer une structure par maturité des probabilités de défaut implicites, cohérente avec les prix de marché, et permettant de valoriser d’autres produits dérivés ; – le caractère prédictif des jeux de paramètres calculés doit être considéré avec circonspection.
3
Un modèle structurel, le modèle de la firme
Les modèles à intensité présentent la particularité de ne pas s’intéresser à la nature réelle du risque de crédit mais uniquement de déduire, à partir des prix des obligations, une représentation de la perception du risque par le marché. Ainsi leur utilisation à des fins de mesure du risque de crédit ou d’interprétation économique de la structure financière d’une entreprise n’est pas pertinente. L’approche retenue par les modèles de risque de crédit dits structurels est toute autre. En effet, ces derniers visent à répliquer la structure du bilan des émetteurs pour en déduire notamment une mesure du risque de crédit. MATHÉMATIQUES DES MARCHÉS FINANCIERS
33
Comment une information issue de la comptabilité des entreprises peut-elle être utilisée pour mesurer un risque de crédit ? [Black et Scholes 1973] puis [Merton 1974] répondent à cette question par la construction du modèle dit de la firme qui s’appuie sur une des caractéristiques fondamentales de la comptabilité : l’équilibre du bilan comptable. Cette notion n’étant sans doute pas familière à l’ensemble des lecteurs, une incursion brève et simplificatrice dans le domaine de la comptabilité s’impose. Le bilan d’une entreprise est supposé recenser l’état de ses richesses et de ses engagements à un instant donné. Parmi les richesses, que l’on appellera par la suite l’actif, figurent notamment la trésorerie, les valeurs des moyens de production, des matières premières, du parc immobilier... Les engagements, que l’on appellera par la suite le passif, comprennent quant à eux le montant des dettes qu’a contractées l’entreprise (découvert bancaire ou émissions obligataires par exemple), le capital, le résultat à distribuer aux actionnaires... Le passif peut donc être subdivisé en deux sous-catégories : les dettes et les engagements de l’entreprise envers ses actionnaires (capital et résultats). En théorie, en cas de liquidation instantanée de l’entreprise, les actionnaires devraient se partager le capital et le résultat. Ainsi, la valeur de la totalité des actions de l’entreprise, c’est-à-dire la capitalisation boursière de l’entreprise, peut être théoriquement considérée comme étant égale à la somme du capital et des résultats. Nous n’irons pas plus loin dans la description du bilan qui sera donc modélisé par ces trois valeurs : – la valeur des richesses de l’entreprise, ou de l’actif (At ) ; – la valeur de la dette (Dt ) ; – la valeur des engagements de l’entreprise envers les actionnaires qui est assimilée à la capitalisation boursière (St ). Le bilan comptable d’une société doit être équilibré, c’est-à-dire que la valeur de l’actif doit être égale à la valeur du passif. Ce principe comptable découle du fait que le résultat comptable absorbera les variations de valeur de la dette et des actifs. Ainsi, il existe une relation valable à tout instant entre valeur des actifs, valeur de la dette et capitalisation boursière : A t = S t + Dt
(2.6)
Le modèle structurel de la firme repose également sur le principe qu’il existe, dans le cas où une entreprise fait défaut, une priorité de remboursement des créanciers en fonction de leur nature. En France, à titre d’exemple, l’État et les salariés seront remboursés en priorité, les fournisseurs puis les porteurs d’obligations seront ensuite servis tandis que les actionnaires se partageront le 34
Chapitre 2. Risque de crédit et marché du crédit
résidu des actifs non encore distribués. Pour simplifier, nous supposerons par la suite que toute la dette peut être représentée par des obligations. Dans notre modélisation, cela signifie que si l’entreprise fait défaut, les actifs seront vendus pour rembourser d’abord le nominal des obligations puis éventuellement les actionnaires. Plus généralement, que l’entreprise ait fait défaut ou non, si l’on suppose que le nominal N des obligations émises doit être remboursé en T, le même principe s’appliquera : le montant des actifs (A T ) sera affecté en priorité au remboursement du nominal, et le résidu, s’il y en a, sera la propriété des actionnaires. Mathématiquement, cela se traduira par les formules suivantes 2 : ST = max(0; A T − N )
(2.7)
DT = min( N; A T ) La capitalisation boursière est proportionnelle à la valeur d’une action puisqu’elle est égale au nombre d’actions multiplié par leur valeur. L’équation (2.7) montre que l’action peut être assimilée à un produit financier qui verserait, au temps T, 0 si la valeur de l’actif est en dessous d’un certain seuil N et la différence A T − N sinon. Cette catégorie de produits est très répandue, ce sont les options d’achat, appelées call en anglais. Nous reviendrons aux chapitres 4 et 5 sur ces options et sur la manière de calculer leur prix. Il suffit pour l’heure de comprendre que la modélisation du bilan comptable de l’entreprise permet de lier les valeurs de sa dette avec celles de ses actions et de ses actifs. À partir d’hypothèses relatives à l’évolution de la valeur des actifs de l’entreprise – nous étudierons de tels modèles à partir du chapitre 5 – plusieurs exploitations de cette relation sont alors possibles, en particulier : – identifier des incohérences entre le prix des obligations de l’entreprise et le prix de ses actions ; – estimer la probabilité de défaut de l’entreprise, ainsi que nous allons le voir dans le paragraphe suivant. Le modèle de Merton suppose ainsi que les lois d’évolution de la valeur des actifs de l’entreprise est défini. Cela ne signifie pas que toutes ses valeurs futures sont déterministes et connues mais uniquement que l’on connaît la probabilité que l’actif atteigne une valeur donnée à chaque instant dans le futur. Si l’on connaît ces probabilités, cela signifie que l’on peut lier l’occurrence du défaut à la valeur de l’actif de l’entreprise puis en déduire une probabilité de défaut. En effet, l’équation (2.7) induit une première définition du défaut : les actionnaires 2
La fonction max( x; y) renvoie le plus grand des arguments x ou y ; la fonction min( x; y) renvoie le plus petit. Par exemple, max(0; −1) = 0 et min(2; 1) = 1.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
35
déposeront le bilan de l’entreprise si son actif A T est insuffisant pour rembourser le nominal N. Dans ce cas, les créanciers perçoivent le résultat de la liquidation de l’actif A T (inférieur à N). Partant de ce principe, il est possible de choisir des modélisations plus élaborées où le défaut peut survenir à d’autres moment qu’à T : – Le défaut ne peut survenir qu’aux dates de remboursement des emprunts lorsque la valeur de l’actif est inférieure au nominal. – Le défaut peut survenir à tout moment dès que la valeur des actifs est inférieure à un seuil constant fixé ou dépendant du temps. Une telle modélisation du défaut conduit à un modèle à intensité, dont l’intensité du défaut est une variable dépendant du temps (cf. illustration graphique 2.6).
F IGURE 2.6. Intensité du défaut et probabilité de défaut dans un modèle de Merton (défaut intervenant lorsque l’actif passe en dessous d’un seuil de référence). Le modèle structurel de Merton conduit à un modèle à intensité, dont l’intensité est une fonction de la maturité. Par rapport à un modèle à intensité constante, les défauts du modèle de Merton sont moins probables à court terme et à long terme et plus probables à moyen terme.
Le modèle de la firme est séduisant car il rend compte de la structure réelle des comptes de l’entreprise et de son impact sur la qualité de crédit. En revanche, les hypothèses et approximations qui ont été nécessaires pour parvenir à la déduction des probabilités de défaut sont légion : modélisation du bilan comptable de l’entreprise, hypothèses d’évolution de la valeur de l’actif, modélisation de l’occurrence du défaut... Aux premières approximations frustes présentées brièvement dans ce chapitre peuvent être substituées des modélisations plus fines 36
Chapitre 2. Risque de crédit et marché du crédit
rendant compte plus fidèlement du mode de fonctionnement de l’entreprise dans la vie réelle. Malheureusement, cette complexification a pour contrepartie un accroissement des paramètres à estimer, ce qui est préjudiciable à la fiabilité des modèles dans un contexte où les caractéristiques des phénomènes que l’on cherche à modéliser sont difficilement observables. Il n’existe en effet pas d’information explicite disponible permettant de déduire à tout instant la valeur des paramètres. Conséquence de cette accumulation d’hypothèses, les informations déduites de ce type de modèles n’ont, là encore, pas vocation à être prédictives ni même à être compatibles avec les prix de marché. Il semble en revanche acquis qu’ils permettent une classification assez fiable et robuste de la qualité de crédit, permettant par exemple d’attribuer une note de crédit à une entreprise.
4
Corrélation entre les défauts
Nous nous sommes jusqu’ici intéressés au risque de crédit selon un critère de risque individuel : l’objectif que nous nous étions fixé était de proposer une mesure du risque de perte sur une créance donnée indépendamment de l’état de l’économie ou de tout autre critère exogène à la vie de l’émetteur de la dette. Or, il est communément admis et abondamment démontré que les défauts d’entreprises surviennent en grappe au fil du temps ainsi que le présente le graphique 2.7. Cela signifie qu’il existe une relation de dépendance liant l’occurrence des défauts : en simplifiant à l’extrême, si plusieurs entreprises ont fait défaut dans un passé récent, il est probable que l’on observe d’autres défauts dans un futur proche. Ce phénomène de dépendance des défauts impose donc une attention particulière dans l’analyse du risque de crédit attaché à un portefeuille de plusieurs créances. En effet, la connaissance des probabilités de défaut individuelles ne permet pas de mesurer la propension qu’auront les émetteurs à faire défaut simultanément. Or, le risque d’accumulation des défauts est justement le risque principal auquel les établissements financiers doivent faire face. La prise en compte de ce risque est donc un enjeu crucial pour les banques. Imaginons-nous un instant à la tête d’une banque comptant 1 000 clients détenteurs, chacun, d’un prêt de 1 000 000 e. Le risque maximum que prend la banque est donc que la totalité de ses 1 000 clients fasse défaut ce qui représenterait une perte de 1 milliard d’euros ; nous considérons, dans cet exemple, que si un client fait défaut, la totalité de sa créance est perdue. En tant que dirigeants de cette banque, nous souhaitons estimer le risque que la banque fasse faillite dans l’année sachant qu’elle ne pourra pas supporter de pertes supérieures à 500 Me. Ce phénomène se produira si au moins 50 % des clients font défaut : MATHÉMATIQUES DES MARCHÉS FINANCIERS
37
F IGURE 2.7. Historique du taux de défaut des émetteurs de la zone Euro. Les défauts surviennent généralement par grappes en fonction des cycles de l’économie : des pics sont observés autour de 1991, 2002 et 2009 tandis que les périodes entre chaque crise ne présentent que peu de défauts.
comment peut-on calculer la probabilité d’occurrence de cet événement ? Comment connaître les probabilités du défaut conjoint de plusieurs émetteurs alors que nous avons vu combien il était délicat d’estimer une simple probabilité de défaut individuelle ? Ce problème illustre parfaitement la nécessité de réduire le champ des dimensions possibles, autrement dit d’éviter la multiplication des paramètres à estimer ou à fixer, notamment sur les règles définissant la relation de dépendance entre les défauts. Une solution simple, traditionnelle et cohérente avec le constat issu du graphique 2.7, est de lier l’occurrence des défauts à une unique variable d’état : la conjoncture économique. L’idée sous-jacente à ce modèle est de considérer que l’état de l’économie est représenté par le tirage aléatoire d’un nombre réel X. Plus X sera grand, plus la conjoncture économique sera favorable. Inversement, si X est petit, l’économie pourra être considérée comme étant en récession. Bien évidemment, toutes les valeurs de X possibles ne se produiront pas avec la même probabilité : bien que la répétition récente des crises économiques soit de nature à ébranler ces certitudes, les périodes d’euphorie ou de crise économiques sont moins fréquentes que les états intermédiaires. C’est pourquoi il est nécessaire que la modélisation retenue rende compte de cette caractéristique. Il devra ainsi être plus probable que X prenne des valeurs proches de 0 plutôt que des valeurs extrêmes. La probabilité associée à chaque valeur possible de X est traditionnellement modélisée par une loi normale, également appelée loi gaussienne, dont la fonction de densité est 38
Chapitre 2. Risque de crédit et marché du crédit
présentée en figure 2.8a. Ce choix de modéliser la conjoncture économique par une loi normale est pratique, car les statisticiens connaissent bien les propriétés des lois normales, mais il est arbitraire.
(a) : Densité de la loi normale
(b) : Impact de la moyenne (variance fixée à 1)
(c) : Impact de la variance (moyenne fixée à 0)
F IGURE 2.8. Modélisation de l’état de l’économie par une loi normale. L’aire en bleu sous la courbe (a) peut être interprétée comme la probabilité que X prenne une valeur comprise entre 1 et 2. Ainsi, la fonction de densité permet de déterminer toutes les probabilités de tirage d’une variable aléatoire. La moyenne est un paramètre qui permet de définir l’abscisse autour de laquelle sera centrée la courbe comme le montre le graphe (b). La variance contrôle l’écartement de la courbe par rapport à sa moyenne ainsi que l’illustre le graphe (c). La loi normale est entièrement définie par ces deux paramètres que sont la moyenne et la variance.
Notre objectif est de lier le risque de défaut d’un ensemble d’émetteurs à l’état de l’économie, c’est-à-dire à la valeur de la variable X (c’est notre consigne 1). Nous souhaitons également que ce modèle soit cohérent avec les probabilités i que nous supposons déjà estimées (consigne 2). La de défaut individuelles Pdef démarche présentée dans la section précédente consacrée au modèle de la firme va nous y aider. Pour répondre à la consigne 2, nous allons construire pour chacun de nos émetteurs i une variable aléatoire Yi , qui suit une loi normale de moyenne nulle et de variance égale à 1, représentative de l’état de santé de l’émetteur i. Ces variables seront utilisées d’une façon similaire à la valeur de l’actif des entreprises que nous avions modélisée dans la section précédente : si MATHÉMATIQUES DES MARCHÉS FINANCIERS
39
Yi est inférieure à un seuil Ki alors l’émetteur i fait défaut. De façon à respecter la consigne 2, les seuils Ki doivent être bien calibrés : la probabilité que Yi Ki i . Reste désormais à lier ces variables Y à la variable X doit être exactement Pdef i afin de respecter la consigne 1. Les propriétés de la loi normale permettent de résoudre cette ultime étape : il est possible de définir Ni , une variable aléatoire suivant une loinormale de moyenne 0 et de variance 1 indépendante 3 de X, telle que Yi = 1 − ρ2 Ni + ρX. Le paramètre ρ, qui doit être compris entre −1 et 1, est appelé la corrélation entre X et Yi . Ce paramètre contrôle l’intensité de la dépendance entre l’état de l’économie et le caractère probable du défaut de l’émetteur i, ainsi que l’illustre le graphique 2.9 : – Si ρ est proche de 1 ou −1, la probabilité de défaut de l’émetteur i sera très influencée par le niveau de X. i sera insensible au niveau de X. – Si ρ est proche de 0, Pdef Encadré 2.2. Variable aléatoire, espérance, et variance.
Une variable aléatoire peut prendre différentes valeurs selon une certaine loi de probabilité. Par exemple, le résultat d’un lancer de dés équilibré est une variable aléatoire qui vaut 1 avec une probabilité de 1/6, 2 avec une probabilité de 1/6 également, ..., jusqu’à 6. L’espérance d’une variable aléatoire n’est autre que sa valeur moyenne, 3,5 pour notre lancer de dés. La variance d’une variable aléatoire mesure la variabilité autour de cette espérance : plus elle est élevée plus les valeurs de la variable aléatoire sont dispersées. Parmi les lois que peuvent suivre les variables aléatoires, les lois normales, nommées également lois gaussiennes, tiennent une place particulière dans le monde mathématique. Comme l’illustre la figure 2.8, ces lois sont entièrement définies par deux paramètres : leur espérance et leur variance.
En résumé, l’état de santé global d’un émetteur i est représenté par une variable aléatoire Yi . Si l’état de santé est inférieur à un seuil Ki , l’émetteur fait défaut. Cet état de santé se décompose en la somme pondérée de deux variables aléatoires, X, qui est l’état de la conjoncture économique et Ni qui représente la santé spécifique de l’émetteur, indépendante du reste de l’économie. La pondération de la somme est paramétrée par une variable ρ, la corrélation, qui mesure à quel point la santé globale de l’émetteur est influencée par l’état de l’économie globale. L’application de cette modélisation à chaque émetteur permet donc de bâtir une structure de dépendance entre leurs probabilités de défaut par le biais d’une variable théorique reflétant, selon notre interprétation, l’état de santé de l’économie. Dans la formulation du modèle, le paramètre ρ aurait pu être indexé par les numéros des émetteurs (i). En effet, rien n’indique que tous les 3
Cela signifie que les valeurs de Ni ne sont aucunement liées aux réalisations de X.
40
Chapitre 2. Risque de crédit et marché du crédit
F IGURE 2.9. Impact du paramètre de corrélation ρ entre l’état de l’économie X et la probabilité de défaut de l’émetteur i. Si ρ est proche de 1, la probabilité de défaut de l’émetteur i sera très influencée par le niveau de i sera très élevée, c’est-à-dire proche X . Pour des réalisations de X faibles, par exemple proches de −3, Pdef i sera très faible, c’est-à-dire de 1. Pour des réalisations de X plus élevées, par exemple proches de 1, Pdef
i sera insensible au niveau de X et donc constante proche de 0. Si ρ est nul (courbe orange), la probabilité Pdef et égale à 10 % dans notre exemple.
émetteurs connaissent la même sensibilité aux états de l’économie. En pratique, le choix d’une corrélation unique pour tous les émetteurs est souvent privilégié : il est en effet très difficile d’estimer statistiquement cette corrélation à partir de données historiques. Les effets d’une corrélation unique seront mieux maîtrisés que dans le cas où chaque émetteur est affecté d’une corrélation particulière fixée arbitrairement. Il est bien évident que ce choix générera en contrepartie une vision simpliste et manquant de souplesse qui s’est déjà avérée préjudiciable durant la crise que connaissent les marchés du crédit depuis 2007. Nous disposons maintenant d’un modèle, certes imparfait, mais qui nous permet de répondre à notre mandat initial : quelle est la probabilité que la banque dont nous assurons la direction fasse faillite ? Par souci de simplification, nous supposerons que les probabilités individuelles de défaut de chacun des clients sont identiques et égales à 10 %. Le graphique présenté en figure 2.10 illustre la réponse à cette question pour différentes valeurs de la corrélation. Il présente, en ordonnées, la probabilité que le nombre de défauts du portefeuille soit égal à la valeur en abscisses. Ce modèle que nous venons de construire est la base des formules de calcul des exigences en capitaux propres des banques telles que spécifiées par les normes internationales Bâle 2 et, bientôt, Bâle 3. MATHÉMATIQUES DES MARCHÉS FINANCIERS
41
F IGURE 2.10. Ce graphique présente en ordonnées la probabilité que le nombre de défauts d’un portefeuille de 1 000 créances soit égal à la valeur en abscisses, pour différentes valeurs de la corrélation. L’augmentation de la corrélation ne rend pas le portefeuille plus risqué en moyenne mais il déforme la densité de probabilité du défaut en rendant plus probables les cas extrêmes et moins probables les cas intermédiaires.
Dans le graphique 2.10, lorsque la corrélation est nulle, la perte se concentre autour de 10 %. Chaque individu ayant une probabilité d’entrer en défaut de 10 % et chaque individu étant indépendant des autres, il est naturel, qu’en moyenne, un individu sur dix fasse défaut. Lorsque la corrélation s’approche de 100 %, il n’y a que deux modes possibles : – Soit tous les clients sont en défaut, auquel cas la perte est de 1 milliard d’euros (100 % des prêts). La probabilité de cet événement est 10 %. – Soit personne n’est en défaut, auquel cas la perte est nulle. La probabilité de cet événement est 90 %. Dans tous les cas la perte moyenne est 10 millions d’euros, soit 10 % de l’investissement. La modélisation du risque de crédit demeure un enjeu crucial de la sphère bancaire et financière, qu’il s’agisse de modéliser le comportement d’un portefeuille de créanciers à des fins de mesure des risques ou de fournir des outils de valorisation cohérents pour les produits dérivés de crédit. La crise financière des années 2007 à 2009 a, à tort ou à raison, jeté le discrédit sur une catégorie de modèles utilisés jusqu’alors comme des standards de marché. En particulier, la modélisation de la dépendance des défauts a cristallisé la plupart des critiques formulées à l’encontre des dérivés de crédit. Ces dernières pointaient des défauts 42
Chapitre 2. Risque de crédit et marché du crédit
dont certains ont été évoqués au cours de ce chapitre : – amalgames entre des paramètres extraits des prix de marché (probabilités de défauts implicites, corrélations implicites) et l’estimation des paramètres réels ; – manque de souplesse dans le nombre de degrés de libertés pour la modélisation de la corrélation ; – absence de possibilité de variation dans le temps de la relation de dépendance (corrélation constante) alors que sont observés des phénomènes d’augmentation de la dépendance en période de crises... Toutefois, certaines de ces faiblesses sont endémiques au risque de crédit car liées au caractère inobservable des comportements que l’on cherche à modéliser. Le défi majeur des praticiens à l’avenir ne sera donc pas tant de raffiner les modèles existants que de veiller avec vigilance à leur bonne utilisation et de prévenir et informer quant à leurs limites.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
43
This page intentionally left blank
3 Théories d’aide à l’investissement Nous abordons ce chapitre du point de vue d’un investisseur qui doit choisir entre toutes les possibilités de placement qu’offre le marché. Cet investisseur peut être un particulier, un gérant de fonds réglementés (fonds d’assurance vie notamment) ou non (hedge fund) ; son objectif est de constituer un portefeuille, c’est-à-dire d’acheter un certain nombre d’actifs qui peuvent être des actions, des obligations, des parts de titrisations, des immeubles, etc. Cette activité s’appelle la gestion d’actif, asset management en anglais. À titre d’exemple, AXA Investment Manager, Natixis Asset Management, Amundi (issue de la fusion de Crédit Agricole Asset Management et de Société Générale Asset Management) sont des filiales de grands groupes français chargées de la gestion des OPCVM 1 , des fonds de retraite complémentaire, des plans d’épargne entreprise... Diverses théories d’aide à l’investissement ont été élaborées. Parmi elles, celle de Markowitz, appelée théorie moderne du portefeuille, occupe une place prépondérante. Développée dans les années 1950 – voir [Markowitz 1952], [Tobin 1958] et [Markowitz 1959] – la théorie définit une notion d’optimalité d’investissement : l’efficience. Nous expliquerons cette notion de base dans la première section et le détail de la théorie dans la deuxième section. Dans les années 1960, [Sharpe 1964], [Lintner 1965] et [Mossin 1966] ont indépendamment utilisé la théorie de Markowitz pour bâtir un modèle d’équilibre économique, dénommé modèle d’évaluation des actifs financiers, qui est l’objet de notre troisième section. Ce modèle a ensuite été largement étudié, raffiné et étendu. Parmi les développements 1
Organisme de Placement Collectif en Valeurs Mobilières ; il s’agit de fonds d’investissements de droit français ouverts aux particuliers et dont l’organisation doit répondre à des contraintes visant à protéger les investisseurs.
plus récents, nous nous arrêterons dans la quatrième section sur la notion de cointégration, introduite par [Engle et Granger 1987], qui est notamment à la base de stratégies de trading actuelles comme le pair trading.
L’approche rendement-risque
1
Avant d’entrer dans le cœur du sujet, il est nécessaire de s’attarder quelque peu sur le principe fondamental de toute stratégie d’investissement : l’équilibre rendement-risque. Plaçons-nous dans le cas théorique où les opportunités d’investissement sont restreintes à quatre actifs A, B, C et D. Ces quatre actifs possèdent chacun : 1. un niveau de risque attendu ; 2. un rendement attendu.
F IGURE 3.1. Représentation théorique de 4 actifs sur le plan risque (abscisses) / rendement (ordonnées). Dans cette configuration, les actifs A et B sont efficients alors que C et D ne le sont pas.
On considère par ailleurs que les actifs sont entièrement décrits par ces deux caractéristiques comme sur le graphique 3.1. Selon toute logique, ce graphique impose deux constats à tout investisseur : – A devrait être préféré à D car, pour un même niveau de risque, le rendement de A est supérieur au rendement de D. – B devrait être préféré à C car, pour un même rendement, le niveau de risque de B est inférieur à celui de C. Le principe sous-jacent de cette observation est que l’investisseur cherche à maximiser son rendement à un niveau de risque donné ou, inversement, à minimiser le niveau de risque sous la contrainte d’un objectif de rendement. Les actifs C et D ne présentent pas d’intérêt dans cette configuration, on dit qu’ils sont inefficients. Qu’en est-il maintenant du choix entre A et B ? Compte tenu des 46
Chapitre 3. Théories d’aide à l’investissement
informations dont nous disposons, il nous est impossible de nous prononcer. Il faudrait, pour ce faire, connaître la préférence individuelle de notre investisseur, son profil d’aversion au risque. Les deux actifs A et B sont dits efficients. Revenons maintenant sur les notions de rendement attendu et de risque. En pratique, quelles données peut-on choisir pour les représenter ? Le rendement est mesuré comme le taux de croissance attendu du prix de l’actif, ce point est relativement consensuel. Le risque peut, quant à lui, être appréhendé de multiples façons. Il doit être représentatif de l’incertitude autour du rendement attendu. La mesure de risque la plus utilisée dans les théories du portefeuille est la volatilité. Elle représente la variabilité des rendements autour de leur moyenne ; le lecteur statisticien notera que cette volatilité n’est autre que l’écart-type des rendements ou encore la racine de la variance. D’autres mesures sont cependant souvent étudiées, citons en particulier : – La Value at Risk, que nous présenterons plus en détail au chapitre 8, qui représente le montant de perte maximal à un horizon de confiance donné (par exemple, dans 95 % des cas, la perte sera inférieure à x). – La perte moyenne, qui est simplement la moyenne des rendements négatifs. En toute rigueur, les rendements et risques prévisionnels devraient être utilisés. Toutefois, ces données sont difficilement prévisibles et les praticiens sont en général contraints d’utiliser l’hypothèse selon laquelle les mesures du passé sont prédictives des mesures du futur. Le graphique 3.2 place ainsi quelques actions françaises sur le plan constitué des rendements 2 et de leurs volatilités calculés sur la période allant de novembre 1993 à novembre 2008. On constate sur cette figure une diagonale efficiente constituée des actions de Danone, Total et Sanofi. Celle-ci est représentative des choix optimaux selon le critère rendement-risque tel que nous l’avons mesuré. Les actions Société Générale, Saint Gobain et BNP ne présentent-elles pour autant aucun intérêt pour un investisseur ? Trois arguments permettent de répondre à cette question d’ordre purement illustratif. Premier argument, l’estimation des rendements et des volatilités, telle que conduite dans la figure 3.2, est très délicate. Les périodes d’estimation doivent être très longues pour que les moyennes mesurées soient les plus fiables possibles. Cependant, sur une longue période d’estimation, les résultats sont pollués par le biais des survivants : les entreprises qui restent en vie longtemps sont probablement les plus solides, ce qui biaise l’échantillon d’estimation. En outre, 2
Par simplicité, les rendements sont bruts et ne prennent pas en compte les dividendes et autres opérations sur titre (augmentation de capital, etc.). Leur prise en compte serait susceptible de modifier la répartition des actifs sur le plan.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
47
F IGURE 3.2. Représentation de quelques actions françaises sur le plan risque (en abscisses) / rendement (en ordonnées)
plus la période d’observation est longue, plus les paramètres économiques sont susceptibles de changer. À ce titre, le graphique 3.3 montre que l’analyse est très sensible au choix de la période d’observation : la Société Générale qui est efficiente sur la période 1998-2003 ne l’est absolument plus sur la période 20032008. Il faut donc garder constamment à l’esprit que définir la bonne fenêtre d’historique est un problème difficile, voire insoluble.
F IGURE 3.3. Représentation de quelques actions françaises sur le plan risque (en abscisses) / rendement (en ordonnées) pour différentes périodes. La hiérarchisation des couples rendement-risque est très sensible à la période d’étude.
À ce sujet, l’estimation du rendement moyen est, de notre point de vue, le talon d’Achille de tous les modèles s’appuyant sur une approche rendementrisque. En effet, l’erreur moyenne autour de l’estimation du rendement est donnée 48
Chapitre 3. Théories d’aide à l’investissement
par la formule √σ où σ est la volatilité des rendements et N le nombre de périodes N d’observation. La leçon à tirer est alors la suivante : si nous voulons connaître les rendements avec une précision de 1 %, sachant que la volatilité annuelle d’une action est souvent proche de 25 % (c’est un ordre de grandeur), le nombre d’années d’observation nécessaires se calcule ainsi : 25 % 1 % = √ ⇒ N = 625 ans ! N
(3.1)
Deuxième argument, la mesure de risque choisie, en l’occurrence la volatilité, n’est pas nécessairement adaptée. L’utilisation de la Value at Risk pourrait, par exemple, modifier la perception du risque associé aux actions et donc leur degré d’efficience. Enfin, dernier argument, seules les caractéristiques individuelles des actifs ont été utilisées jusqu’ici. Nous n’avons pas considéré la possibilité de les combiner pour bénéficier, par exemple, des effets de diversification. Markowitz a précisément bâti un modèle dans lequel on peut calculer explicitement les portefeuilles qui utilisent au mieux les possibilités de diversification.
2
La théorie de Markowitz
La diversification est un concept fondamental de la gestion de portefeuille. La théorie et l’expérience concourent à démontrer son intérêt dans la construction d’un portefeuille d’investissement. Pour aborder la théorie, nous modéliserons les rendements des actifs par une structure de probabilité et de corrélation gaussiennes. Précisons que, dans ce cadre, la dépendance entre deux actifs est décrite par un unique paramètre, la corrélation ρ (rho). Ce modèle nous permet de calculer le profil rendement-risque d’un portefeuille de deux actifs : les courbes de la figure 3.4 montrent ce profil lorsque l’on fait varier la proportion de la richesse investie sur l’actif S1 dans différentes configurations de corrélation. Encadré 3.1. Modélisation gaussienne des rendements.
De nombreux modèles mathématiques partent de l’hypothèse que les rendements des actifs suivent une loi normale. S’il existe des justifications de cette hypothèse, que nous verrons ultérieurement, elle est le plus souvent posée par commodité pour simplifier les calculs. La modélisation permet de limiter à deux paramètres la caractérisation des rendements : leur moyenne et leur volatilité. Les manières de lier des variables aléatoires entre elles, pour tenir compte de leur dépendance, sont également multiples. Là encore, pour simplifier, les modélisations traditionnelles supposent que les dépendances entre les variables aléatoires suivent une structure de corrélation gaussienne. Nous évoquerons le sujet plus en détail au chapitre 8.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
49
Retenons pour l’instant que cette structure de dépendance est un modèle parmi d’autres et qu’il présente l’avantage d’être caractérisé par une unique grandeur, comprise entre −1 et 1 : la corrélation.
F IGURE 3.4. Variation des profils rendement-risque d’un portefeuille en fonction de la corrélation des deux actifs qui le composent. Par exemple, chaque point de la courbe rouge représente le profil rendement-risque d’un portefeuille d’actifs pouvant être construit en investissant dans S1 et S2, dans le cas où la corrélation entre les rendements de S1 et S2 est −0,5. La réduction du risque apportée par la diversification est d’autant plus marquée que la corrélation entre les actifs est faible. Dans le cas limite où Rho = −1, il est même possible de construire un portefeuille sans risque en investissant dans les deux actifs.
Dans le cas ρ = 1 le risque et le rendement du portefeuille évolueront sur le segment borné par les actifs S1 et S2. Lorsque la corrélation diminue, la courbe se déforme vers la gauche ce qui témoigne d’une réduction du risque : c’est l’effet de la diversification. Le cas limite d’une corrélation égale à −1 est intéressant : le fait que les rendements futurs des actifs évoluent de façon contraire permet de construire un portefeuille sans risque, avec une volatilité nulle. La théorie de Markowitz exploite ce résultat en le systématisant et le généralisant à un univers d’investissement composé d’un nombre quelconque d’actifs risqués. L’objectif de cette théorie est de résoudre le problème d’optimisation suivant : déterminer l’ensemble des portefeuilles dont la volatilité est minimale étant donné un rendement attendu. On parle alors de portefeuilles efficients. La théorie permet de mettre ces portefeuilles en équation, mais nous n’entrerons pas dans ces détails. Il suffit d’admettre que la méthode détermine une courbe 50
Chapitre 3. Théories d’aide à l’investissement
appelée frontière efficiente. Chaque point de cette courbe représente la volatilité la plus faible pouvant être obtenue pour l’ensemble des portefeuilles dont le rendement est égal à la valeur en ordonnées. La méthode permet également de connaître la composition de ces portefeuilles efficients. Nous savons qu’il existe, pour chaque valeur de rendement en ordonnées, un portefeuille se situant sur cette courbe. Sa composition ne peut être représentée explicitement sur le plan rendement-risque, mais sera néanmoins calculée par la méthode d’optimisation. Le graphe 3.5a présente les résultats de l’application de la théorie à notre univers d’actions françaises. L’apport du modèle est flagrant : la courbe des portefeuilles efficients – la frontière efficiente – domine largement les actions individuelles constitutives des portefeuilles. Nous avons réussi à exploiter au maximum les effets de la diversification.
(a) Frontière efficiente d’un univers d’actifs risqués
(b) Frontière efficiente avec ajout d’un actif sans risque
F IGURE 3.5. Le graphique de gauche montre la frontière efficiente d’un univers d’actif risqués. Elle représente les meilleurs couples rendement-risque pouvant être obtenus par une combinaison linéaire des différents actifs risqués. Le point à l’extrême gauche de la frontière représente le portefeuille de variance minimum pouvant être obtenu. Lorsqu’un actif sans risque est ajouté à l’univers, dans le graphique de droite, la frontière efficiente devient une droite (représentée en pointillés dans le graphique). Le seul point de cette nouvelle frontière efficiente commun avec l’ancienne représente le seul profil rendement-risque efficient pouvant être obtenu à partir d’actifs risqués uniquement. Le portefeuille d’actifs risqués qui possède ce profil est nommé « portefeuille tangentiel ».
L’introduction dans l’univers d’investissement d’un actif non risqué, c’est-àdire de volatilité nulle, apporte un élément nouveau. Là encore, nous demandons au lecteur d’admettre que le problème d’optimisation évoqué plus haut produit une nouvelle frontière efficiente. Comme présenté sur le graphique 3.5b, cette nouvelle frontière efficiente est la droite qui part de l’actif sans risque et qui est tangente à la frontière efficiente des actifs risqués. Le point d’intersection entre la droite et la parabole représente un portefeuille que l’on appelle portefeuille tangentiel. Ce résultat montre que les nouveaux portefeuilles efficients seront constitués d’une combinaison de l’actif sans risque et du portefeuille tangentiel. MATHÉMATIQUES DES MARCHÉS FINANCIERS
51
En pratique, l’actif non risqué peut être assimilé à un placement au taux sans risque défini au chapitre précédent. Acheter l’actif sans risque est donc équivalent à placer au taux sans risque tandis que sa vente correspond à un emprunt. Notons que la demi-droite continuant en haut et à droite du portefeuille tangentiel représente les portefeuilles construits en empruntant au taux sans risque dans le but d’investir une somme plus importante dans le portefeuille tangentiel. C’est ce que l’on appelle l’effet de levier. Les résultats apportés par cette théorie sont séduisants. Cependant, ils demeurent très théoriques. Tout d’abord, nous avons vu que les paramètres utilisés, en particulier les rendements, sont très instables voire inobservables. En outre, Markowitz suppose que les actifs peuvent être modélisés par une structure de probabilité et de corrélation gaussiennes. Nous aurons l’occasion de revenir sur cette hypothèse qui est fondamentale en finance de marché mais largement invalidée. Autre hypothèse : il n’y a aucune restriction à l’échange d’actifs. Il n’y a pas de coûts de transaction ni de taxes, il est possible de détenir n’importe quelle proportion d’un actif même négative. De prime abord, cette hypothèse semble être une approximation de la réalité sans grandes conséquences. Les impacts des taxes et réglementations peuvent au contraire être très structurants. La limitation de l’efficacité des marchés constitue, d’ailleurs, un des leviers des régulateurs pour éviter ou contrôler leurs emballements. Encadré 3.2. Les ventes à découvert.
Les ventes à découvert consistent à vendre un actif que l’on ne possède pas encore, de la même manière qu’emprunter de l’argent consiste à s’engager à rembourser une somme que l’on ne possède pas encore. Une vente à découvert de titres représente donc une dette, que l’on traduit mathématiquement par la détention d’une quantité négative de titres. Par exemple, vendre à découvert 3 actions suppose : – d’emprunter 3 actions auprès d’une contrepartie A possédant ces titres ; – de vendre les 3 actions à une autre contrepartie B et recevoir une somme d’argent en échange de cette vente. Étant donné qu’il sera nécessaire, à terme, de racheter 3 actions afin de les rendre à la contrepartie A, nous perdons 3 e si le cours de l’action augmente de 1 e. Tout se passe comme si nous détenions −3 actions.
Aussi, la fiabilisation de la théorie et son adaptation aux réalités des marchés présentent un grand intérêt. À ce titre, l’intégration de contraintes sur les investissements permet de mieux rendre compte de la réalité. Par exemple, les ventes à découvert peuvent être difficiles à mettre en œuvre en pratique, voire interdites sur certains actifs. Le graphique 3.6 montre comment l’interdiction 52
Chapitre 3. Théories d’aide à l’investissement
des ventes à découvert change les équilibres de la théorie. La résolution de ce type de problèmes d’optimisation sous contrainte est en général plus délicate et nécessite le recours à des algorithmes d’optimisation numérique. L’utilisation de mesures alternatives du risque (Value at Risk en particulier), l’utilisation d’autres structures de corrélation et la désensibilisation des portefeuilles efficients aux erreurs d’estimation des rendements attendus comptent également parmi les nouvelles voies explorées autour de la théorie de Markowitz.
F IGURE 3.6. Impact de la contrainte d’interdiction des ventes à découvert sur la frontière efficiente. L’interdiction des ventes à découvert réduit le spectre des portefeuilles pouvant être constitués ; les portefeuilles pouvant être construits sans vente à découvert offrent un profil rendement-risque moins intéressant.
3
Le modèle d’évaluation des actifs financiers
Nous venons de voir que les portefeuilles efficients peuvent tous être structurés à partir de deux investissements, l’un dans l’actif sans risque et l’autre dans le portefeuille tangentiel. La seule caractéristique permettant de distinguer les différents portefeuilles efficients est la proportion investie dans chacun de ces deux actifs. Le capital asset pricing model (CAPM), en français « modèle d’évaluation des actifs financiers » (MEDAF), exploite au maximum cette observation. Schématiquement, notre raisonnement sera le suivant : 1. Tous les portefeuilles efficients peuvent être représentés comme une combinaison linéaire de deux fonds (l’actif sans risque et le portefeuille tangentiel). MATHÉMATIQUES DES MARCHÉS FINANCIERS
53
2. Les investisseurs étant rationnels, tous les acteurs du marché doivent posséder un portefeuille efficient. 3. Les prix des actifs s’équilibrent par l’offre et la demande. 4. L’équilibre entre l’offre et la demande peut être déduit de (1) et (2). 5. Grâce à cet équilibre, il doit être possible d’évaluer le prix et le rendement des actifs. Les hypothèses qui seront nécessaires pour mener à bien le raisonnement précédent sont particulièrement contraignantes. Tout d’abord, le modèle se place dans le cadre de la théorie de Markowitz, il utilise donc les hypothèses que nous avons vues dans la section précédente : structure gaussienne des rendements, absence de restriction à l’investissement. L’hypothèse supplémentaire, essentielle au CAPM, est que tous les investisseurs ont les mêmes analyses des couples rendement-risque. Cette hypothèse est à la fois la grande force du modèle, car elle permet de pousser jusqu’au bout le raisonnement de Markowitz, et sa grande faiblesse car elle est très restrictive. Les investisseurs peuvent en effet avoir notamment : – différentes anticipations de rendement et de volatilité ; – différents modèles d’évaluation des risques ; – différents horizons d’investissement ; – différentes restrictions d’investissement, comme l’impossibilité ou non de vendre à découvert. Les résultats que nous allons exposer ne sont donc valables que dans un cadre théorique très idéalisé. On peut donc d’ores et déjà prévoir que ces résultats ne seront pas directement utilisables pour définir des stratégies d’investissement ; ce n’est pas pour autant qu’ils n’apportent pas des clés de lecture structurantes pour la compréhension des marchés financiers. Revenons au modèle. Notons, pour chaque action a, wa sa contribution au portefeuille tangentiel. Par exemple, si le portefeuille tangentiel est constitué de 10 e d’actions LVMH et de 20 e d’actions Total, nous aurons wLVMH = 33 % et wTotal = 67 %. Rappelons qu’en vertu des hypothèses précédentes, tous les investissements sur les marchés sont proportionnels au portefeuille tangentiel. C’est pourquoi, dorénavant, nous privilégierons l’expression « portefeuille de marché » à « portefeuille tangentiel ». La demande globale pour l’action a, en proportion de la demande totale, ne peut ainsi être que wa . Or, la capitalisation boursière de a, c’est-à-dire la somme de la valeur de toutes les actions de a, doit justement être guidée par cette demande globale (plus il y a de demande pour une action, plus son prix monte). En d’autres termes, wa ne peut être que la proportion de la capitalisation boursière de a dans la capitalisation totale (la 54
Chapitre 3. Théories d’aide à l’investissement
somme de toutes les capitalisations boursières). Dans notre exemple précédent, cela signifie que si le portefeuille de marché est bien constitué de 10 e d’actions LVMH et de 20 e d’actions Total, cela implique d’une part que Total et LVMH sont les seules entreprises cotées et d’autre part que la capitalisation boursière de Total est deux fois celle de LVMH. La première leçon du CAPM est donc que le portefeuille de marché est construit en détenant toutes les actions du marché proportionnellement à leur capitalisation boursière respective. Nous venons de réussir à court-circuiter tous les calculs de Markowitz nécessaires à la construction du portefeuille tangentiel. La définition du portefeuille de marché comme combinaison linéaire de toutes les actions pondérées par leur capitalisation boursière est plus simple, plus intuitive et moins sujette à l’instabilité des paramètres. En revanche, cette équivalence reste très théorique, le CAPM ne permettant pas de construire le portefeuille tangentiel en présence de contraintes d’investissement non universellement partagées par les investisseurs. Avant de passer à un second résultat, il nous faut définir la sensibilité des actions au portefeuille de marché. Nous notons β a cette sensibilité, sa définition est la suivante 3 : pour une variation de 1 % du marché, l’action a varie en moyenne de β a %. Par cette définition du β a et en utilisant l’hypothèse de la structure gaussienne des rendements, le rendement de l’action que nous notons A est une variable aléatoire qui peut se décomposer de la manière suivante : A = β a Πm + ˜ a
(3.2)
où Πm est le rendement du portefeuille de marché et ˜ a est une variable aléatoire indépendante du portefeuille de marché. Nous retrouvons bien la définition du β a : si β a = 50 %, alors le rendement de l’action sera 50 % du rendement du marché plus un chiffre aléatoire indépendant ; si β = 150 %, le rendement de l’action sera 150 % du rendement du marché auquel il faut ajouter un chiffre aléatoire indépendant. Quelle est alors l’espérance de rendement de l’action ? Nous n’expliciterons pas les calculs qui mènent au résultat suivant : si R a est le rendement moyen attendu de l’action (R a est l’espérance de A), R M celui du marché et R0 le rendement sans risque, alors : R a = R0 + β a ( R M − R0 ) 3
(3.3)
Formellement, β a est le rapport entre la covariance de l’action et du portefeuille de marché et la variance du portefeuille de marché : β a =
Cov( A, Πm ) . Cov(Πm , Πm )
MATHÉMATIQUES DES MARCHÉS FINANCIERS
55
Cette équation permet de tracer ce que l’on appelle la droite d’évaluation des actifs financiers (Security Market Line, cf. graphique 3.7). Ce graphique exhibe les quantités R a − R0 et R M − R0 que l’on appelle les primes de risque : c’est l’excédent de rendement attendu par rapport au taux sans risque en contrepartie du risque pris. Le résultat principal du CAPM que nous venons d’exposer dans l’équation (3.3) affirme que la prime de risque de l’action est égale à la prime de risque du marché pondérée par la sensibilité de l’action au risque de marché. Ainsi, le rendement escompté d’un actif ne dépend que de son β, c’est-à-dire de sa dépendance au risque systémique. Le risque propre à l’actif, que l’on appelle traditionnellement risque idiosyncratique, n’apporte aucun rendement supplémentaire au-delà du taux sans risque.
F IGURE 3.7. Droite d’évaluation des actifs financiers
Que constate-t-on dans les faits ? Nous avons vu qu’il y a peu de chances, au regard des hypothèses nécessaires, que les résultats présentés soient effectivement observés dans la réalité. Le modèle prédit que le risque spécifique d’une action ne doit pas apporter de rendement en moyenne. Pour le vérifier, il suffit de mesurer ce rendement idiosyncratique que nous noterons α. Avec les notations précédentes, l’excès de rendement de A par rapport à la somme du taux sans risque et de la prime de risque systémique se calcule par la formule A − ( R0 + β a (Πm − R0 )), la moyenne de cette variable est donc α. Dans le cadre théorique du CAPM, le α d’un actif doit être nul. À titre indicatif, précisons que la quantité α est très importante dans la pratique de la gestion d’actif. Elle mesure, en théorie, le surplus de rentabilité apporté par un actif (une action ou un fonds par exemple) par rapport au rendement apporté par le marché. La capacité pour un gérant de générer du α, 56
Chapitre 3. Théories d’aide à l’investissement
c’est-à-dire de gérer un fonds avec un α > 0, est souvent considérée comme la preuve que le gérant est capable de sur-performer le marché, c’est-à-dire que l’intervention du gérant permet un surplus de rentabilité par rapport au marché. Cela contredit le CAPM qui impose que tous les acteurs n’investissent que dans le portefeuille de marché et l’actif sans risque. Les résultats de ces calculs sur des données françaises sont présentés dans le graphique 3.8 où nous avons simplement utilisé l’indice CAC 40 comme référence de marché et l’EONIA comme taux sans risque. Les résultats sont désastreux par rapport aux prédictions du modèle : le α est loin d’être nul – il n’est négligeable ni devant les taux d’intérêt, ni devant les rendements et les primes de risque – le β n’est pas proportionnel à la prime de risque.
F IGURE 3.8. Droite d’évaluation des actifs financiers (rendement en fonction du β) : exemple de mise en œuvre du CAPM sur des données françaises 1999-2010. Les calculs numériques contredisent les prédictions du CAPM : le α n’est pas nul, la prime de risque n’est pas proportionnelle au β. La droite théorique du graphique 3.7 n’est ainsi pas reproduite dans les faits.
Il faut toutefois prendre quelques précautions avant de conclure que nous avons réussi à trouver un α de 5 % grâce à l’action d’Air Liquide (cf. graphique 3.8). Tout d’abord certaines de nos hypothèses de travail devraient être validées précisément : l’utilisation du CAC 40 comme portefeuille de marché, l’utilisation de l’EONIA comme taux sans risque de référence, l’absence de prise en compte des opérations sur titre. Ensuite, il nous faudrait vérifier que l’instabilité temporelle des paramètres (cf. à ce sujet le graphique 3.3) ne perturbe pas trop nos résultats. Enfin, nous avons utilisé la même période pour estimer le β et le rendement, ce MATHÉMATIQUES DES MARCHÉS FINANCIERS
57
qui constitue une hérésie pour un statisticien. En effet, le CAPM se veut prédictif : il aurait fallu utiliser les β du passé (par exemple sur la période 1999-2005) pour prédire les rendements du futur (sur la période 2006-2010). La vérification du CAPM est donc un exercice délicat qui a fait l’objet de nombreuses recherches depuis les années 1960. Appuyons-nous sur une célèbre étude de Fama & French de 1992 pour étayer nos propos. Cette étude approfondit les liens entre β, rendements, capitalisation boursière et autres agrégats financiers sur la période 1963-1990. La conclusion de l’article est sans appel : le β n’explique aucunement les rendements observés sur la période (même si une relation entre β et rendement peut être identifiée avant 1969). Le β est essentiellement corrélé à la capitalisation boursière, cette dernière est, quant à elle, corrélée aux rendements. En revanche, le β n’est pas directement lié aux rendements. Nous voyons en effet dans la figure 3.9, réalisée à partir des données publiées par Fama & French, que : – Graphique (a) : Si l’on segmente les entreprises par classe de capitalisation boursière (le portefeuille 1A correspondant aux plus petites capitalisations et 10B aux plus grandes), on constate que les entreprises les plus importantes possèdent un β plus faible et un rendement plus faible, laissant ainsi apparaître un lien quasi-linéaire entre β et rendement. – Graphique (b) : Si l’on segmente les entreprises par classe de β (le portefeuille 1A correspondant aux plus petits β et le 10B aux plus élevés), le lien entre β et rendement est complètement annulé.
(a) : segmentation des entreprises par taille
(b) : segmentation des entreprises par β
F IGURE 3.9. Représentation du rendement (en ordonnées) en fonction du β (en abscisses) sur 12 portefeuilles classés par taille ou par β (données Fama & French 1992).
Bien qu’inutilisables en pratique, les principes du CAPM restent cependant très attrayants et l’on pourra retenir malgré tout la leçon suivante : la prime de risque d’un actif se décompose en (i) une prime de risque liée au marché et (ii) une prime de risque spécifique. Cette analyse est généralement développée 58
Chapitre 3. Théories d’aide à l’investissement
dans ce que l’on appelle « le modèle à 1 facteur » que nous avons décrit au chapitre 2 lors de l’étude de la corrélation entre les défauts. Ce modèle s’écrit avec l’équation (3.2) : A = β a Πm + ˜ a où : – On ne fait aucune hypothèse sur le rendement de ˜ a , par opposition au résultat du CAPM qui prévoit que les rendements du risque spécifique sont nuls en moyenne. – On suppose, comme pour le CAPM, que ˜ a est indépendant de Πm . – On suppose en outre (cette hypothèse n’est pas nécessaire au CAPM) que les risques spécifiques ˜ a sont indépendants entre eux pour deux actions différentes. Ce modèle peut ensuite être étendu pour prendre en compte plusieurs facteurs de risque. Ainsi, le rendement d’une action peut, par exemple, être décomposé en un rendement général de marché, un rendement sectoriel et un rendement géographique, sans oublier le rendement sécifique ˜ a : nous sommes ici dans un modèle multi-facteurs. Cela constitue les bases de l’asset pricing theory (APT) introduite dans l’article [Ross 1976]. Le lecteur souhaitant approfondir le sujet peut par exemple consulter l’ouvrage [Sharpe et al. 1998]. 4
Corrélation contre cointégration*
Les modèles que nous venons de développer reposent très fortement sur la notion de corrélation. Or, comme le montre le graphique 3.10a, il s’agit d’une mesure très instable dont la variabilité se répercute naturellement sur les β. D’un autre point de vue, le graphique 3.10b est pourtant sans appel : il existe bien un lien entre les indices CAC et DAX, il ne fait aucun doute que les courbes se suivent. L’un des grands enjeux de la gestion de portefeuille est de rendre compte, par une méthode robuste, de ce lien entre actifs ; c’est l’exercice auquel nous allons nous livrer dans la présente section. Qu’entendons-nous par méthode robuste ? Notre objectif est d’exhiber une mesure qui soit stable dans le temps. Cette stabilité dans le temps est essentielle car c’est elle qui assure que les propriétés observées dans le passé seront valides dans le futur. Le graphique 3.10a est un excellent contre-exemple de la stabilité temporelle : il montre des corrélations qui passent de 40 % à 95 %. Dans ce cadre, il est évident que les corrélations du passé ne prédisent pas les corrélations du futur. Mathématiquement, la stabilité dans le temps des processus aléatoires MATHÉMATIQUES DES MARCHÉS FINANCIERS
59
(a) Corrélations entre les indices estimées g sur 1 an glissant
(b) Cours en base 100 en janvier 1988
F IGURE 3.10. Historiques du DAX (indice allemand) et du CAC (indice français) de janvier 1988 à juin 2010.
est exprimée par la notion de stationnarité. Une suite de variables aléatoires Xt , indexée par le temps par exemple, est dite stationnaire si : – Tous les Xt suivent une même loi : la loi ne dépend pas du temps t. – Les liens entre Xt et Xt−s ne dépendent que de s : les liens entre deux variables ne dépendent que du temps qui les sépare s mais ne dépendent pas de l’instant t auquel on constate le lien. En d’autres termes, les lois de probabilité de la série – c’est ainsi que l’on nomme la suite de variables aléatoires – sont homogènes dans le temps, elles ne se déforment pas. Si Xt représente le résultat de tirages indépendants de pile ou face, la série est bien stationnaire : – Xt vaut toujours pile avec 50 % de chance et face avec 50 % de chance (indépendamment du tirage t). – Xt et Xt−s sont égales si s = 0 et indépendantes sinon : la structure de corrélation entre les variables n’évolue pas avec le temps t. Un contre-exemple naturel de la stationnarité est la température journalière : il fait plus souvent froid en hiver, la série des températures présente une saisonnalité ; nous sommes en période de réchauffement climatique, la série présente une tendance long terme. Le graphique 3.10a a montré que les corrélations ne sont pas stationnaires non plus. À l’opposé, le graphique 3.11 montre l’évolution d’une série parfaitement stationnaire. On remarque en particulier que les valeurs d’une série stationnaire ne dérivent pas de la moyenne (3 dans le graphique 3.11) et que la variabilité autour de cette moyenne est très stable. Si l’on pouvait trouver un portefeuille d’actifs financiers stationnaire, cela nous permettrait d’avoir un portefeuille dont le prix est confiné autour d’une certaine moyenne, il ne pourrait s’en écarter que suivant une loi connue et 60
Chapitre 3. Théories d’aide à l’investissement
F IGURE 3.11. Exemple de série stationnaire. On observe notamment que la variabilité et la moyenne de la série sont constantes dans le temps.
toujours identique. Cela serait un outil de trading idéal. C’est exactement cette propriété qui définit la cointégration. Un ensemble de séries At , Bt , Ct , ..., est dit cointégré s’il est possible de créer une combinaison linéaire stationnaire des séries. En d’autres termes, les séries At , Bt et Ct sont cointégrées s’il existe a, b et c tels que la série Xt = aAt + bBt + cCt soit stationnaire. Nous avons peu de chance de trouver un jeu d’actifs stationnaires. En effet, les actifs possèdent une structure plus multiplicative qu’additive. Nous sommes plus intéressés par le rendement d’une action (gain de 10 % par exemple) que par son gain en valeur absolue (gain de 10 e par exemple). Cela est assez raisonnable dans la mesure où la valeur de l’action est assez arbitraire : il est équivalent d’émettre 10 actions de 50 e et 5 actions de 100 e. De la même manière, savoir que l’action LVMH a gagné 5,35 e entre le 20 et le 21 octobre 2010 et que l’action Total a gagné 0,095 e dans la même période ne permet pas de comparer les performances des actions : la valeur absolue du gain doit être pondérée par la valeur de l’action. Pour transformer une structure multiplicative en une structure additive, il suffit de passer au logarithme : on ne considère plus le prix St d’un actif mais son logarithme lt = ln(St ). Le rendement de l’actif St peut alors être approximé par l’incrément 4 des logarithmes lt : lt − lt−1 = ln(St ) − ln(St−1 ) ≈ 4
S t − S t −1 S t −1
(3.4)
Nous utiliserons toujours la convention suivante : le rendement est le taux de progression ( xt − xt−1 )/xt−1 et l’incrément est l’accroissement linéaire xt−1 − xt .
MATHÉMATIQUES DES MARCHÉS FINANCIERS
61
Grâce au logarithme, nous sommes bien passés à une structure additive. Il est maintenant plus raisonnable d’espérer que, étant donné une ensemble d’actifs St1 , St2 , ..., Stn , on puisse construire une série α1 ln(St1 ) + α2 ln(St2 ) + ... + αn ln(Stn ) qui soit stationnaire. Si l’on renomme lti = ln(Sti ), nous voulons que les séries lt1 , ..., ltn soient cointégrées. Nous avons désormais deux mesures distinctes de la dépendance entre actifs, la corrélation et la cointégration. La corrélation se mesure à partir des rendements ou, de manière équivalente, entre les incréments des logarithmes lt − lt−1 . La cointégration est évaluée directement à partir des logarithmes de la valeur des actifs. La corrélation entre les rendements se manifeste lorsque les mouvements des actifs sont synchrones. Pour que deux actions a et b soient corrélées, il faut que les jours où a baisse et ceux où b baisse se recoupent. La cointégration rend compte quant à elle d’un effet de retour à la moyenne. Pour que deux actions a et b soient cointégrées, il faut que les variations de a soient corrigées par des variations de b, mais pas nécessairement le même jour. En d’autres termes, lorsque deux actions a et b sont cointégrées, les mouvements d’une action permettent de prédire statistiquement les mouvements de l’autre : cela peut être les mouvements de a qui expliquent ceux de b ou les mouvements de b qui expliquent ceux de a, voire les deux phénomènes imbriqués. Par exemple, si l’action a baisse le jour J et ne remonte plus, il sera nécessaire que les mouvements futurs de b ramènent la combinaison linéaire de a et b à sa moyenne initiale. Cette propriété constitue ce que l’on appelle la causalité de Granger ; cette causalité est nécessaire pour que deux séries soient cointégrées. Corrélation et cointégration sont donc des notions proches, qui mesurent toutes deux une forme de dépendance entre les actifs, mais clairement distinctes. Il est d’ailleurs possible d’observer des séries cointégrées dont les mouvements ne sont pas corrélés. Le graphique 3.12a montre des séries qui évoluent parallèlement mais avec un décalage temporel : la série B bouge avec cinq jours de retard sur la série A. Les mouvements journaliers sont donc indépendants mais la tendance globale est liée. Le graphique 3.12b montre quant à lui des séries dont les mouvements sont corrélés mais qui ne sont pas cointégrées. Plus précisément, les mouvements de A et B ont la même composante aléatoire mais les deux séries s’écartent progressivement l’une de l’autre par un phénomène de dérive déterministe. La cointégration est réputée plus robuste que la corrélation, au sens où les phénomènes de cointégration observés sont plus stables dans le temps. L’un des problèmes de la corrélation est que la mesure est facilement perturbée par 62
Chapitre 3. Théories d’aide à l’investissement
(a) Séries cointégrées dont les mouvements sont décorrélés
(b) Séries non cointégrées dont les mouvements sont corrélés
F IGURE 3.12. Opposition entre corrélation et cointégration.
des imperfections de données (par exemple, un décalage temporel entre les instants de mesure des données) et par des mouvements extrêmes ; ce point est approfondi dans [Alexander 2001]. Cet ouvrage expose également les méthodes pour identifier en pratique les phénomènes de cointégration. Il est important de noter que la cointégration contredit l’hypothèse d’efficience des marchés. En effet, la causalité de Granger implique que l’on puisse anticiper, au moins en moyenne, les mouvements d’une action cointégrée à une autre action. Cette capacité de prédiction est à l’origine de stratégies de trading, telles le pair trading dont un exemple est donné dans le tableau ci-dessous. Grâce à la cointégration des deux actions At et Bt , nous avons ainsi pu réaliser un profit certain. Exemple de stratégie de pair trading Actifs Hypothèse Déclenchement de l’investissement Description de l’investissement Valeur de l’investissement Déclenchement du débouclage (revente du portefeuille) Valeur de l’investissement au débouclage Rendement de l’investissement
At et Bt sont deux actions 2ln( At ) − ln( Bt ) est stationnaire de moyenne μ Au temps t0 , dès que 2ln( At0 ) − ln( Bt0 ) < μ − Δ 2 e d’actions A et −1 e d’actions B 2−1 = 1e Au temps T > t0 , dès que 2ln( A T ) − ln( BT ) revient à sa moyenne μ. Le retour à la moyenne est garanti par la stationnarité. 2 AAtT − 0
BT Bt0
≈ (1 + Δ ) e
Δ
MATHÉMATIQUES DES MARCHÉS FINANCIERS
63
L’hypothèse d’efficience des marchés – à ne pas confondre avec l’efficience des portefeuilles – suppose quant à elle que les investisseurs sont bien informés et donc que toute l’information disponible transparaît dans le prix. Les variations de prix ne peuvent venir que de nouvelles informations qui sont par nature aléatoires. Dans notre exemple, l’efficience assure le résultat suivant : si la propriété de cointégration était vraie, il ne serait pas possible que 2ln( At ) − ln( Bt ) s’écarte de sa moyenne car les moindres écarts seraient instantanément corrigés par les investisseurs. En d’autres termes, tout le monde mettrait en œuvre notre stratégie de pair trading, ce qui la rendrait tout à fait inutilisable. La discussion que nous venons d’avoir est celle de deux économistes qui flânent dans la rue lorsque l’un deux aperçoit un billet de 100 e au sol. Lorsqu’il se baisse pour s’en saisir, son collègue lui dit « Imbécile, si le billet était réel, il aurait déjà été ramassé. » ([Joshi 2008]). Globalement, c’est sur cette position sceptique que s’appuie la majeure partie des mathématiques financières. Le cœur des théories des mathématiques financières, que nous allons développer par la suite, repose en effet sur la théorie du non-arbitrage que nous aborderons au chapitre suivant.
64
Chapitre 3. Théories d’aide à l’investissement
4 Théorie du non-arbitrage L’adage traditionnel there is no free lunch, souvent utilisé par les économistes pour rappeler que toute faveur a sa contrepartie, s’est intégré au vocabulaire des marchés financiers pour traduire l’idée suivante : on ne gagne pas d’argent sur les marchés sans prendre de risque. Les quant parlent d’arbitrage pour qualifier un profit certain, sans risque ; ils en ont même fait un verbe : arbitrer. « Arbitrer » signifie tirer un profit certain d’un produit qu’une contrepartie a acheté trop cher ou vendu trop bon marché. Cette observation nous permet de classer les modèles mathématiques dans deux catégories : – Ceux qui visent à identifier les possibilités d’arbitrage. Les modèles de recherche de cointégration que nous avons vus au chapitre précédent sont de cette catégorie. En général, ces modèles ne garantissent pas réellement un profit certain et sans risque – il n’est par exemple jamais certain qu’un phénomène de cointégration observé par le passé se prolonge dans le futur. – Ceux qui visent à modéliser les risques et les évolutions des actifs dans un environnement sans possibilité d’arbitrage. Il est en effet essentiel que les prix calculés ne soient pas arbitrables : aucune contrepartie ne doit pouvoir utiliser une éventuelle sur-évaluation ou sous-évaluation du prix calculé pour en tirer un profit certain. C’est cette catégorie de modèles qui nous intéressera désormais et dont nous définirons le cadre dans le présent chapitre. Nous ouvrirons le chapitre sur les arbres binomiaux qui constituent un modèle simple et riche pour aborder les problématiques du non-arbitrage. Ils nous confronteront à différents concepts que nous formulerons dans la seconde section ; nous pourrons alors énoncer le célèbre théorème du non-arbitrage
formalisé par Harrison, Kreps et Pliska entre 1979 et 1981. Ce théorème ne permet malheureusement pas de définir systématiquement un prix unique non arbitrable. Parfois, tout un intervalle de prix est possible : c’est le problème de la complétude que nous étudierons dans la troisième section. Le théorème originel a été formulé dans un cadre simplifié, son adaptation au cadre général a fait l’objet de travaux techniques par [Delbaen et Schachermayer 1994] et [Delbaen et Schachermayer 1998]. Nous tenterons d’expliquer dans la dernière section certains des problèmes posés par cette généralisation. Le mathématicien confirmé souhaitant approfondir le sujet trouvera matière dans [Delbaen et Schachermayer 2005]. Encadré 4.1. Les quant.
Le terme quant désigne les chargés de modélisation mathématiques dans les banques et dans l’industrie financière plus généralement, sauf dans l’assurance où les mathématiciens sont plutôt les actuaires. L’expression dérive de l’adjectif « quantitatif », très utilisé en anglais puisque les mathématiques financières se disent Quantitative Finance et les chargés de modélisation sont les Quantitative Analysts.
1
Les arbres binomiaux
Les arbres binomiaux sont des modèles d’évolution des actifs particulièrement simples, utiles et riches d’enseignements. Dans ces modèles, à chaque instant t, les actifs n’ont que deux possibilités d’évolution. Par exemple, l’actif qui vaut 100 à T = 0 dans la figure 4.1 ne peut valoir que 95 ou 110 au temps T = 1. Si l’actif valait 110 à T = 1, à T = 2 il ne peut évoluer que vers 115 ou 100, et ainsi de suite.
F IGURE 4.1. Exemple d’arbre binomial. À chaque nœud, l’actif a deux possibilités d’évolution.
Le nombre de nœuds de l’arbre croît exponentiellement dans cette configuration : au début, l’actif ne peut avoir qu’une seule valeur, celle que l’on constate 66
Chapitre 4. Théorie du non-arbitrage
sur les marchés. Au premier pas de temps, 2 valeurs sont possibles ; il y en a 4 au second pas, puis 8, 16, 32 ... et 2n à T = n. Gardant à l’esprit que 2365 est supérieur au nombre d’atomes de l’Univers, nous risquons d’arriver vite à un problème technique. Ce problème est contourné par l’utilisation d’arbres dits recombinants : dans ces arbres, il est équivalent de monter puis descendre ou de descendre puis monter. Les nœuds se recombinent. Dans cette nouvelle configuration, illustrée par la figure 4.2A, le nombre de nœuds terminaux évolue linéairement : il existe deux valeurs possibles pour l’actif au premier pas de temps, 3 au second, 4 au troisième, ..., 101 après cent itérations. Cela est beaucoup plus raisonnable. Exemple d’arbre recombinant (A)
Exemple d’arbre non recombinant (B)
F IGURE 4.2. Arbres recombinants ou non après 4 pas de temps. Le premier possède 5 nœuds terminaux et le second 16 nœuds terminaux.
Nous avons ainsi décrit nos arbres binomiaux : l’actif part au temps t = 0 d’une valeur connue et évolue à chaque instant dans un arbre tel que représenté par 4.2A. Les différents arbres seront différenciés par : – la valeur de l’actif dans chaque nœud ; – la probabilité pour l’actif d’accéder au nœud supérieur ou au nœud inférieur. Intéressons-nous tout d’abord à un arbre dégénéré, celui de la figure 4.3. Dans cet arbre, l’actif ne peut qu’augmenter de valeur. En investissant dans un tel actif, nous pouvons réaliser un profit certain, un arbitrage. Une telle situation est peu probable sur les marchés : si tel était le cas, tout le monde investirait sur cet actif, ce qui augmenterait immédiatement son prix jusqu’à ce que son évolution ne garantisse plus de gain certain. Nous pouvons aussi voir le problème ainsi : aucune contrepartie rationnelle ne vendra 100 un actif dont on sait qu’il évoluera soit vers 105 soit vers 110 ; elle demandera nécessairement un prix compris entre 105 et 110. MATHÉMATIQUES DES MARCHÉS FINANCIERS
67
F IGURE 4.3. Exemple d’arbre dégénéré où la valeur de l’actif ne peut que croître.
Un petit raffinement doit être apporté : nous n’avons pas parlé des phénomènes d’actualisation étudiés au premier chapitre. Comme nous l’avons vu au chapitre précédent, les gains réels se mesurent par l’excès de rendement par rapport au taux sans risque. Ainsi, si les taux d’intérêt en un pas de temps sont de 7 %, le graphe 4.3 ne présente pas d’opportunité d’arbitrage. En effet, l’actif peut bien apporter soit un gain (s’il monte à 110) soit une perte (s’il monte à 105) relativement au taux sans risque. Pour rendre le raisonnement du paragraphe précédent parfaitement valide, il suffit d’étudier à chaque nœud de l’arbre le prix actualisé des actifs plutôt que leurs prix futurs projetés. Ce prix actualisé rend effectivement compte de la valeur aujourd’hui (à T = 0) d’un bien qui est financé au taux d’actualisation. Plutôt que de parler systématiquement de prix actualisé, ce qui nuit à la lisibilité et ne change pas structurellement les principes, nous négligerons par la suite les taux d’intérêt et phénomènes d’actualisation. En d’autres termes, nous supposons que les taux d’intérêt sont nuls. Encadré 4.2. L’arbitrage.
L’arbitrage est le fait de profiter d’une imperfection des marchés financiers, par exemple d’une contrepartie qui vend des produits financiers trop bon marché, pour gagner de l’argent sans risquer d’en perdre. Autrement dit, une stratégie d’arbitrage génère un profit avec une probabilité non nulle mais ne provoque jamais de pertes. La théorie du non-arbitrage vise à explorer les conséquences mathématiques de l’hypothèse selon laquelle il n’existe pas d’opportunités d’arbitrage sur les marchés. Cette hypothèse se justifie par l’idée que toute opportunité est immédiatement saisie par les trader, ce qui rééquilibre le marché. Elle est posée par les quant non par certitude qu’il n’existe pas d’opportunité d’arbitrage sur les marchés, mais afin de garantir que leurs modèles ne conduisent pas à des prix arbitrables, dont une contrepartie pourrait tirer profit à nos dépens. Il peut cependant arriver qu’un modèle soit arbitrable en théorie mais pas dans la pratique compte tenu des coûts et marges de transaction, de l’impossibilité d’intervenir continûment sur les marchés, de la difficulté à mettre en œuvre certaines ventes à découvert, etc.
La contrainte de non-arbitrage rend donc la situation de la figure 4.3 impossible, le prix de l’actif aujourd’hui est nécessairement entre ses valeurs possibles futures minimales et maximales. Gardons en mémoire cette première propriété 68
Chapitre 4. Théorie du non-arbitrage
et étudions une seconde conséquence qui porte sur le prix des produits dérivés. Imaginons que l’on souhaite commercialiser le produit financier suivant : notons S1 le prix d’une action à T = 1 et offrons à nos clients, à T = 1, la valeur S1 si S1 > 98 et 98 sinon. Il s’agit d’un produit dérivé simple et lisible : nous faisons profiter nos clients de la hausse possible de l’actif tout en garantissant que le paiement final sera supérieur à 98. ⎧ ⎨ S si S > 98 1 1 (4.1) Paiement à T = 1 : ⎩ 98 sinon Notre question est alors la suivante : à quel prix doit-on vendre notre produit financier ? Dans les modèles d’arbres binomiaux, sous hypothèse de nonarbitrage, il n’y a qu’une seule bonne réponse à cette question. En effet, supposons que notre action évolue conformément à l’arbre binomial de la figure 4.4 et constituons le portefeuille suivant : – achat de 22 e de cash, c’est-à-dire placement de 22 e sur notre compte courant ; – achat de 4/5 d’action, soit 80 e d’action (puisque l’action s’échange à 100 e à T = 0).
F IGURE 4.4. Exemple de modèle d’évolution d’une action dans un arbre binomial recombinant.
Le prix de ce portefeuille est, sans aucune ambiguïté, 102 e. C’est le prix qu’il a coûté à l’achat (22 + 80). Au temps T = 1, il reproduit exactement le produit financier : – Cas 1 : S1 = 110. Le portefeuille vaut à T = 1, 22 + 80 % × 110 = 110 e – Cas 2 : S1 = 95. Le portefeuille vaut à T = 1, 22 + 80 % × 95 = 98 e
MATHÉMATIQUES DES MARCHÉS FINANCIERS
69
Nous venons de répliquer le produit financier que nous souhaitions commercialiser et qui est décrit par l’équation (4.1) ; autrement dit, nous avons reproduit à l’identique le comportement du produit financier à partir d’un portefeuille constitué de cash et de l’action sous-jacente. Cette possibilité de réplication du produit financier n’est pas un hasard, nous y reviendrons. Elle assure que le seul prix possible du produit financier est 102 e. Le tableau suivant montre en effet comment réaliser un arbitrage, un profit certain, si quelqu’un tentait de vendre le produit à un autre prix.
Cas d’un prix supérieur à 102
Cas d’un prix inférieur à 102
Prix proposé pour le dérivé
100 e
104 e
Stratégie d’abitrage
Achat du produit dérivé, soit 100 e Vente de 4/5 d’action, soit −80 e Emprunt de 20 e, soit −20 e
Coût d’entrée dans la stratégie
0e
0e
Valeur de la stratégie à t = 1 si S = 110
110 − 80 % × 110 − 20 = 2 e
−110 + 80 % × 110 + 24 = 2 e
Valeur de la stratégie à t = 1 si S = 95
98 − 80 % × 95 − 20 = 2 e
−98 + 80 % × 95 + 24 = 2 e
Gain de la stratégie
2 e dans tous les cas
2 e dans tous les cas
Vente du dérivé, soit −104 e Achat de 4/5 d’action, soit 80 e Placement de 24 e, soit 24 e
Cette capacité de réplication des produits financiers à partir de cash et des actions sous-jacentes peut s’étendre à l’ensemble des arbres binomiaux. La figure 4.5 montre la réplication d’un produit similaire à celui que nous venons de voir mais dont la date d’application de la formule est T = 2 et non T = 1. Fondamentalement, ce résultat n’est autre qu’une conséquence de l’algèbre élémentaire : répliquer un produit dérivé revient, pour chaque nœud, à résoudre un système de deux équations à deux inconnues. Dans un arbre binomial, l’actif ne peut à chaque nœud que monter ou descendre ; il n’existe qu’un seul degré de liberté d’évolution. Lorsque nous répliquons un produit, nous choisissons à chaque nœud la proportion de cash et la proportion du sous-jacent que nous pouvons détenir, nous avons également un degré de liberté. Il y a donc autant de possibilités de réplication que de possibilités d’évolution de l’actif. 70
Chapitre 4. Théorie du non-arbitrage
Naturellement, dans un modèle plus complexe d’évolution de l’actif, ce résultat n’est plus nécessairement valide.
F IGURE 4.5. Réplication d’un produit dérivé dans le cadre d’un arbre binomial.
Grâce à la possibilité, offerte par les arbres binomiaux, de répliquer les produits financiers, nous avons pu calculer un prix du produit qui est le seul prix non arbitrable. Vous aurez peut-être été surpris de constater que nous n’avons fait jusqu’ici aucune hypothèse sur les probabilités d’évolution de l’actif. Quelles que soient les probabilités de hausse et de baisse de l’actif, le raisonnement que nous avons tenu est toujours valide et le prix du produit dérivé ne peut être que 102 ! Pourtant, il semble évident qu’un investisseur qui pense que l’actif n’a quasiment aucune chance de baisser aura des réticences à acheter 102 un tel produit (ce dernier n’ayant, d’après les anticipations de l’investisseur, quasiment aucune chance de différer de l’action qui s’achète à 100 < 102). Rappelons que notre objectif n’est pas de prédire les évolutions de marché mais de déduire de la structure du marché les propriétés des actifs. S’il est effectivement vrai que l’action n’a quasiment aucune chance de baisser, c’est que le marché se trompe en donnant la valeur 100 à l’action. Étant donné cette valeur aujourd’hui de 100 et les valeurs possibles demain de 95 et 110, le produit dérivé étudié ne peut valoir que 102 e. MATHÉMATIQUES DES MARCHÉS FINANCIERS
71
Tout se passe en fait comme si la probabilité de hausse de l’actif était 1/3 et si les prix actuels étaient la moyenne des prix futurs possibles. En effet, dans ce cas, la valeur moyenne du prix futur de l’actif est 110/3 + 95 × 2/3 = 100 ; la valeur moyenne du prix futur du produit dérivé défini par l’équation (4.1) est 110/3 + 98 × 2/3 = 102. Cette probabilité d’évolution est une probabilité fictive, rien ne dit que l’actif a effectivement 33 % de chances de monter. Tout porte d’ailleurs à croire le contraire : si l’on investit dans une action, ce n’est pas dans l’idée que sa valeur moyenne future soit égale à celle d’aujourd’hui. La prise de risque doit être rémunérée et la valeur moyenne future doit être supérieure à la valeur actuelle. Le résultat que nous venons de voir est qu’il existe une probabilité fictive sous laquelle nous pouvons calculer les prix d’aujourd’hui comme la moyenne des prix futurs. Ce résultat est illustré dans la figure 4.6. On appelle cette probabilité la probabilité risque neutre, justement parce que le risque n’est pas rémunéré.
F IGURE 4.6. Probabilité risque neutre dans l’arbre binomial étudié.
L’existence de cette probabilité simplifie nettement les calculs. Supposons par exemple que les valeurs futures possibles de l’actif ne soient plus 95 et 110 mais 90 et 115. La probabilité risque neutre de ce nouvel arbre se calcule facilement, elle correspond à 40 % de chances de monter et 60 % de descendre. Ce sont les seules probabilités phausse et pbaisse qui vérifient phausse × 115 + pbaisse × 90 = 100. Connaissant ces probabilités risque neutre, nous pouvons calculer la valeur du produit dérivé par la formule 40 % × 115 + 60 % × 98 = 104,8 ; nous n’avons pas eu à décomposer la stratégie de réplication pour calculer le prix. 72
Chapitre 4. Théorie du non-arbitrage
Cette probabilité existe-t-elle toujours ? Oui, grâce au non-arbitrage. Rappelons la première conséquence du non-arbitrage que nous avons exhibée, celle qui affirme l’impossibilité de l’arbre 4.3 : le prix actuel de l’actif doit être entre ses valeurs futures maximales et minimales. S’il existe une valeur possible supérieure et une valeur possible inférieure, on peut toujours attribuer correctement une probabilité aux événements pour que la valeur de l’actif aujourd’hui soit la moyenne pondérée des valeurs futures. Le non-arbitrage garantit donc l’existence de cette mesure de probabilité fictive. Cette probabilité est-elle toujours unique ? Dans le cas des arbres binomiaux, oui. L’unicité de cette probabilité vient de l’algèbre des degrés de liberté : il y a un degré de liberté pour le choix de la probabilité – la probabilité de monter détermine la probabilité de descendre et inversement – et une équation de contraintes (le prix futur moyen pondéré est égal au prix aujourd’hui). Le modèle de l’arbre binomial est riche en enseignements. Nous avons vu que, dans ce modèle : – Il est possible de répliquer tous les produits dérivés car il y a autant de degrés de liberté de réplication que de degrés de liberté d’évolution. – Le prix des produits dérivés ne dépend pas de la probabilité réelle qu’a l’actif de monter ou baisser. – On peut définir une unique probabilité sous laquelle le prix de tous les actifs est leur valeur moyenne future. – Cela permet de calculer l’unique prix non arbitrable des produits dérivés. – Le prix dépend, en revanche, de la structure de l’arbre c’est-à-dire de la valeur inscrite à chaque nœud de l’arbre. Nous allons dans la section suivante sortir du cadre spécifique de l’arbre binomial et étudier ces propriétés dans un cadre général. 2
Le théorème du non-arbitrage (cas discret)
Nous sommes désormais familiers avec la modélisation du prix des actifs financiers par un processus aléatoire St : S0 est le prix de l’actif aujourd’hui et St , pour t > 0, est une variable aléatoire – c’est-à-dire qu’elle peut prendre différentes valeurs selon une certaine loi de probabilité – représentant le prix de l’actif au temps t. C’est ainsi que dans l’arbre binomial 4.4 nous avons S0 = 100, S1 = 110 avec une certaine probabilité et S1 = 95 sinon. Une stratégie consiste simplement à détenir au temps t une certaine quantité d’actif St et une certaine quantité de liquidité, que l’on appelle cash. Ces quantités sont elles-mêmes des variables aléatoires, qui peuvent dépendre des valeurs MATHÉMATIQUES DES MARCHÉS FINANCIERS
73
passées de l’actif mais pas de ses valeurs futures. Une stratégie sera dite autofinancée s’il n’est pas nécessaire d’apporter de l’argent au cours de la stratégie pour la mettre en œuvre. Par exemple, la stratégie déployée dans la figure 4.5 est bien autofinancée : lorsque l’on change les proportions d’action et de cash détenu, cela se fait sans entrée ni sortie d’argent. La propriété d’autofinancement se matérialise par une équation simple ; le lecteur curieux peut la chercher en guise d’exercice (définir ct la quantité de cash et αt la quantité d’action et lier ct , ct+1 , αt , αt+1 , St et St+1 ). Cette formalisation nous permet de définir rigoureusement ce qu’est une opportunité d’arbitrage : il s’agit d’une stratégie autofinancée qui peut générer de l’argent mais qui n’en perd jamais (la stratégie est gagnante si la valeur de l’investissement à un instant donné est supérieure à sa valeur initiale). En d’autres termes, on gagne de l’argent avec une probabilité non nulle tout en étant sûr de ne pas en perdre. L’hypothèse du non-arbitrage dit précisément que ce type de stratégie n’existe pas. C’est aux conséquences de cette hypothèse que nous allons nous intéresser. Continuons notre généralisation : nous avons vu que sous une certaine probabilité, la valeur moyenne future de l’actif est égale à la valeur actuelle. Cette propriété porte un nom en mathématique : les martingales. Il ne faut pas les confondre avec les « martingales » fantasmées des joueurs de casino : les martingales mathématiques sont exactement le contraire. Un processus aléatoire St est une martingale si, à tout instant T et sachant que ST = s, la valeur moyenne de ST +1 est s. En d’autres termes, si la valeur de St en T est s – les mathématiciens disent conditionnellement à ST = s – la valeur moyenne de ST +1 ne peut être que s. C’est exactement cette propriété que l’on observe sur l’arbre binomial 4.6 : la valeur de chaque nœud est égale à la moyenne pondérée des valeurs futures de l’actif aux nœuds suivants. Les martingales mathématiques possèdent de nombreuses propriétés que nous ne passerons pas en revue. L’une d’entre elle est cependant utile pour bien les comprendre, le « théorème du temps d’arrêt ». Prenons une martingale Mt . On rappelle que la valeur moyenne d’une martingale, à n’importe quel instant, est sa valeur initiale M0 . Imaginons que l’on définisse une stratégie qui nous dicte d’arrêter le jeu à un temps τ. Ce temps τ peut lui-même être une variable aléatoire qui dépend des valeurs passées de Mt mais pas des valeurs futures. Encore une fois, nous interdisons toute prédictibilité. L’essentiel est que le temps τ soit borné, c’est-à-dire qu’il existe un temps Tmax , prédéterminé, tel que τ Tmax (par exemple Tmax = 100 ans, dans l’idée que toute stratégie qui finit dans plus d’un siècle nous est inutile). Par exemple, la stratégie peut être d’arrêter le jeu au temps τ dès que Mτ = 10 000 e ou au bout de 100 ans si 74
Chapitre 4. Théorie du non-arbitrage
Mt n’a jamais atteint 10 000 e dans le siècle. Le théorème du temps d’arrêt dit que la valeur moyenne de Mτ , c’est-à-dire le gain moyen après application de la stratégie d’arrêt, est M0 : une stratégie qui se déboucle en temps borné ne peut pas être profitable en moyenne. C’est bien pour cette raison que les joueurs de casino ne peuvent pas gagner : comme l’évolution des gains d’un jeu équilibré suit une martingale (au sens mathématique), toute stratégie qui s’arrête en temps fini est de gain nul en moyenne. Si le jeu est biaisé en défaveur du joueur, la stratégie sera nécessairement perdante en moyenne. Pourtant, nous pouvons adopter la stratégie de jeu classique suivante : à chaque coup, si le gain total est positif on arrête le jeu, sinon, on double la mise. Cette stratégie apporte bel et bien un gain certain puisqu’elle ne s’arrête que lorsqu’un gain est constaté. Certes, mais le théorème du temps d’arrêt démontre alors que cette stratégie peut être infiniment longue ! Les martingales mathématiques démontrent ainsi que l’on ne peut pas biaiser en notre faveur un jeu équilibré, c’est-à-dire qu’il n’existe pas de « martingale » au sens des joueurs de casino qui s’arrête en un temps fini. Avant de conclure, il nous reste à introduire un dernier pilier : la mesure de probabilité équivalente. Les mathématiciens voient les actifs financiers comme des variables aléatoires soumises à certaines lois de probabilité. Ils se donnent la possibilité de construire un monde imaginaire dans lequel les probabilités seraient déformées. La difficulté est alors de construire les liens entre le monde fictif et le monde réel. Nous avons vu dans le cadre de l’arbre binomial que nous pouvions nous placer dans un monde fictif dans lequel les prix réels des actifs étaient leur valeurs moyennes futures pondérées par les probabilités fictives. C’est exactement ce que nous ferons dans le cadre général avec cependant une précision : il faut que les mesures de probabilité réelle et fictive soient « équivalentes », c’est-à-dire que les événements de probabilité non nulle soient les mêmes dans les deux mesures. Dans le cadre d’un arbre binomial, cela signifie que la mesure fictive doit avoir exactement les mêmes nœuds, elle ne peut ni rajouter un nœud qui n’existe pas dans la mesure réelle (que l’on pourrait voir comme un nœud de probabilité nulle), ni en enlever. Nous disposons maintenant des trois notions clés (stratégie d’arbitrage, martingale, mesure de probabilité équivalente) pour formuler le théorème du non-arbitrage. Théorème : En l’absence d’opportunité d’arbitrage, il existe une mesure de probabilité fictive, équivalente à la mesure de probabilité réelle, sous laquelle les prix réels de tous les actifs sont des martingales. Ce théorème nous apporte en pratique trois choses : – Le processus aléatoire St ne peut pas être n’importe quel processus : il faut qu’il admette une mesure de probabilité, équivalente à la mesure réelle, sous laquelle il est une martingale. Cela implique de ne pas faire n’importe MATHÉMATIQUES DES MARCHÉS FINANCIERS
75
quoi dans la construction de nos modèles et, par exemple, d’éviter les situations du graphique 4.3. – Il suffit de nous placer dans le monde imaginaire de la probabilité fictive pour simplifier les calculs. Le prix aujourd’hui est le même dans la mesure réelle et dans la mesure fictive, sinon, les mesures ne seraient pas équivalentes. Les prix réels aujourd’hui peuvent donc être calculés comme la moyenne de leurs valeurs futures pondérées par les probabilités de la mesure fictive. – Dans certains modèles, comme l’arbre binomial, il n’existe qu’une seule mesure équivalente qui redresse le processus St en martingale : le théorème nous permet donc de calculer sans ambiguïté le prix des actifs, peu importent les probabilités réelles. Nous aborderons en détail les deux derniers points dans les chapitres suivants, puisque tous nos modèles se placeront dans la mesure risque neutre équivalente. Revenons sur le premier point. Supposons que quelqu’un vous propose d’investir dans un placement dont la valeur est à tout moment le carré de la valeur du CAC 40. Vous pouvez être sûr que cet interlocuteur est incompétent car il vous offre un free lunch : son produit contredit le non-arbitrage. Il n’existe en effet pas de mesure de probabilité telle que St et St2 soient des martingales (sauf si St est une constante, ce qui n’est pas le cas pour le CAC). L’exercice qui consiste à construire la stratégie d’arbitrage associée est intéressant et laissé au lecteur. En revanche, un banquier compétent peut vous proposer un placement dont la valeur à un instant T donné sera le carré de la valeur du CAC en T. Entre t et T, la valeur du placement sera en revanche nécessairement différente du carré de la valeur du CAC. 3
La complétude
Le théorème du non-arbitrage est très puissant, mais il ne résout pas tous les problèmes : le cas de l’arbre binomial où la mesure risque neutre équivalente est unique est un heureux événement mais n’est pas généralisable. En effet, dans le cas général, rien ne garantit qu’il n’existe qu’une seule mesure de probabilité risque neutre. Voyons par exemple le cas des arbres trinomiaux tels que représentés dans la figure 4.7. Il est clair qu’il existe plusieurs probabilités sous lesquelles l’actif évoluant le long de l’arbre 4.7 est une martingale. Cela est illustré par la figure 4.8. Contrairement au cadre de l’arbre binomial, nous avons un degré de liberté supplémentaire qui rend possible l’existence de plusieurs mesures. 76
Chapitre 4. Théorie du non-arbitrage
F IGURE 4.7. Exemple d’arbre trinomial.
F IGURE 4.8. Deux mesures risque neutre équivalentes sur un même arbre trinomial.
Dans la section relative aux arbres binomiaux, nous avons considéré deux produits financiers : le premier payait, à T = 1, S1 si S1 > 98 et 98 sinon, le second payait, à T = 2, S2 si S2 > 98 et 98 sinon. Il s’agit bien d’actifs financiers, donc leur prix doit être une martingale sous les mesures risque neutre. Or, en utilisant les mesures A et B de la figure 4.8, nous tombons sur des prix différents : MATHÉMATIQUES DES MARCHÉS FINANCIERS
77
Produit financier 1
Produit financier 2
Paye, à T = 1, S1 si S1 > 98 et 98 sinon
Paye, à T = 2, S2 si S2 > 98 et 98 sinon
Prix sous la mesure risque neutre A
40 % × 105 + 20 % × 100 + 40 % × 98 = 101,2
16 % × 110 + 16 % × 105 + 36 % × 100 + 16 % × 98 + 16 % × 98 = 101,76
Prix sous la mesure risque neutre B
30 % × 105 + 40 % × 100 + 30 % × 98 = 100,9
3 % × 110 + 42 % × 105 + 13 % × 100 + 36 % × 98 + 6 % × 98 = 101,56
Description
Quel est le bon prix pour nos produits financiers ? Compte tenu de nos informations, les deux prix sont bons : il n’est pas possible de discerner un prix qui serait meilleur que l’autre. En effet, il n’existe pas de stratégie d’arbitrage qui permette de tirer profit des prix calculés par la mesure A et ni de ceux calculés par la mesure B. Tous les prix calculables à partir de mesures risque neutre équivalentes sont corrects au sens où ils n’engendrent pas d’opportunité d’arbitrage. Aussi, dans le cadre d’un arbre trinomial, le non-arbitrage ne nous garantit pas un prix unique mais un ensemble de prix non arbitrables. Il est tout à fait possible de calculer précisément cet ensemble. Concentronsnous sur le produit financier 1 qui s’arrête à T = 1. Si l’on note p95 , p100 et p105 les probabilités risque neutre d’évolution de l’actif, on peut montrer que p95 = p105 et bien sûr p100 = 1 − p95 − p105 . Nous avons par rapport à l’arbre binomial un degré de liberté en plus, qui est le choix, arbitraire, de p95 . Pour que toutes les probabilités restent entre 0 et 1 il faut et il suffit que 0 < p95 < 50 %. Les prix non arbitrables du produit financier 1 seront tous les prix qui peuvent se calculer par la formule : 105 × p95 + 100 × (1 − 2 × p95 ) + 98 × p95 = 100 + 3 × p95
∈ ]100; 101,5[
(4.2)
Ainsi, le non-arbitrage nous a permis de dire que le prix du produit financier est compris entre 100 et 101,5. C’est déjà une information, mais cela n’est pas suffisant pour donner un prix. Les modèles mathématiques d’évolution des prix des produits financiers se segmentent clairement en deux catégories. Les modèles complets (arbre binomial, modèle de Black-Scholes que nous verrons au chapitre suivant) sont ceux 78
Chapitre 4. Théorie du non-arbitrage
qui admettent une mesure risque neutre équivalente unique. Ces modèles sont simples et irréalistes. En revanche, l’avantage de l’unicité du prix non arbitrable est immense. Dans ces modèles, les produits financiers sont réplicables par des stratégies simples. Il n’est pas besoin de faire des hypothèses sur les probabilités réelles d’évolution des actifs, puisque la capacité de réplication permet de s’affranchir des probabilités réelles. Ce point est fondamental car la modélisation des probabilités des événements futurs est par définition un exercice divinatoire que les mathématiciens détestent généralement. Les modèles incomplets sont ceux pour lesquels il n’y a pas d’unicité de la mesure risque neutre. Malheureusement, cela représente une très grande partie des modèles plus raffinés (modèles à volatilité stochastique, modèles à saut, modèles de taux instantanés) dont certains seront étudiés aux chapitres 6 et 9. Dans ces modèles, la seule hypothèse de non-arbitrage ne suffit pas et des choix supplémentaires sont nécessaires pour déterminer le prix des produits financiers. 4
Le cadre continu*
Dans les sections 1 et 2, nous avons implicitement admis être dans un univers discret, c’est-à-dire dans lequel le temps T = 0, 1, 2, 3... et la valeur des actifs (95, 100, 105) pouvaient être énumérés. Dans le cadre général, nous travaillons plutôt avec un temps T et des possibilités de prix ST continus, qui peuvent prendre n’importe quelle valeur réelle positive. L’adaptation de la théorie du non-arbitrage au cadre continu est très importante car la plupart des modèles d’évolution des actifs sont, de fait, continus. Nous avons vu, dans le cadre discret, qu’il est essentiel que le processus St présente en toute situation une opportunité de gain ou une opportunité de perte. Cette caractéristique est de fait équivalente aux deux propriétés (i) il n’existe pas d’opportunité d’arbitrage et (ii) il existe une mesure martingale équivalente. C’est d’ailleurs l’équivalence entre (i) et (ii) qu’affirme le théorème du nonarbitrage. Dans le cadre continu, il existe une composante supplémentaire à prendre en compte : la variabilité du processus. Cette variabilité représente le caractère erratique du processus, autrement dit à quel point ses variations en un temps infinitésimal peuvent être grandes. Elle induit une dimension d’analyse supplémentaire qui complexifie l’approche. Sur un processus aléatoire St , nous pouvons nous intéresser aux différentes valeurs possibles de ST à un instant donné T. Nous pouvons également nous intéresser aux différents chemins St pour 0 < t < T que le processus peut prendre pour aller de S0 jusqu’à la valeur ST . Naturellement, plusieurs chemins peuvent partir du même point, s’écarter et arriver au même point. Dans le cadre continu, MATHÉMATIQUES DES MARCHÉS FINANCIERS
79
ces chemins peuvent être plus ou moins erratiques ; ils peuvent être lisses et continus, continus mais avec beaucoup de fluctuations brutales, complètement discontinus, etc. Le problème de variabilité ne se pose pas dans le cadre discret puisque le temps lui-même est discret et les variations d’un instant à l’autre ne peuvent être que des sauts. Il est intéressant de remarquer qu’un actif risqué ne peut pas suivre un processus aléatoire dont tous les chemins sont lisses : cela créerait des opportunités d’arbitrage. En effet, les courbes lisses possèdent une tangente et elles évoluent à proximité de leur tangente, au moins pendant une petite période de temps. Pendant cette période de temps, l’évolution est prévisible (au moins au premier ordre) puisqu’elle suit la tangente : si la pente est négative par exemple, on est sûr que, au moins pendant un bref laps de temps, l’actif va baisser quel que soit le chemin emprunté. Cela est illustré par la figure 4.9. Si l’évolution est prévisible, il y a une opportunité d’arbitrage. Ainsi, en l’absence d’opportunité d’arbitrage, les processus qui modélisent les actifs risqués ne peuvent pas être trop réguliers.
F IGURE 4.9. Exemple de processus aléatoire dont les trajectoires (3 trajectoires ci-dessus) sont lisses. Les trajectoires ne s’écartent que lentement de leur tangente.
La première idée est donc que les processus doivent être suffisamment variables, instables, pour ne pas être prévisibles. Réciproquement, si les processus sont complètement erratiques, nous sommes confrontés à d’autres problèmes. Nous verrons plus loin que les martingales ont une variabilité bien définie et qu’aucun processus trop erratique ne peut être une martingale (même en passant par une mesure de probabilité fictive équivalente). Prenons l’exemple d’un 80
Chapitre 4. Théorie du non-arbitrage
processus aléatoire où chaque valeur St est indépendante des autres variables St (t = t ). Un tel processus est parfaitement erratique car St est complètement déconnecté de St+ aussi petit puisse être. Cette situation conduit à une opportunité d’arbitrage également puisqu’il suffit d’investir dès que St est en dessous de sa moyenne 1 et de liquider l’investissement dès que St repasse par-dessus. Comme les valeurs de St sont totalement indépendantes, la stratégie marche certainement en un temps infiniment court puisqu’entre T et T + l’actif prend une infinité de valeurs indépendantes les unes des autres : il est sûr qu’au moins une d’entre elles, la valeur de Sτ par exemple, sera supérieure à la moyenne, et comme ST était inférieure à la moyenne, il y a réalisation d’un gain en achetant ST et revendant Sτ . La variabilité des chemins d’un processus est donc une composante essentielle, il faut la mesurer. La première indication est la longueur des chemins. Supposons qu’une action vaille 100 à T = 0 et 110 à T = 10. Le chemin le plus court d’un point à un autre est la droite, donc le trajet le moins variable serait l’interpolation linéaire : pour 0 < t < 10, l’action vaudrait 100 + t (courbe 1 de la figure 4.10) ; la longueur du chemin parcouru par l’action est alors 14,14. Mais, l’action ne suit naturellement pas une ligne droite. Si elle suivait la courbe 2 de la figure 4.10, son trajet serait plus long, on le constate visuellement, et le calcul montre que la longueur exacte est 24,12. Mais, nous venons de voir que l’action ne peut pas suivre une courbe lisse, les trajets ressemblent plutôt à la courbe 3. La longueur de cette courbe est en réalité infinie. Ainsi, nous venons de définir une première notion qualitative de variabilité : est-ce que la longueur des trajectoires est finie ? Si la longueur de tous les chemins d’un processus aléatoire est finie, on dit que le processus est à variation finie. Si tous les chemins sont de longueur infinie, le processus est dit à variation infinie. Naturellement, il peut exister des processus dégénérés dont certaines trajectoires sont de longueur finie et d’autres de longueur infinie. Si toutes les trajectoires d’un processus sont de longueur finie, alors cette propriété sera vraie dans toutes les mesures de probabilités fictives équivalentes. En effet, nous pouvons reformuler cette propriété de la manière suivante : la probabilité que le processus ait un chemin de longueur infinie est nulle. Comme, par définition de la mesure de probabilité équivalente, nous ne pouvons pas modifier les événements de probabilité nulle, dans toutes les mesures de probabilités fictives équivalentes la propriété sera vraie. Ainsi, le fait qu’un processus aléatoire soit à variation finie ne dépend pas de la mesure 1
Nous supposons implicitement que tous les St ont la même moyenne, il est possible de s’affranchir de cette hypothèse avec un raisonnement un peu plus complexe.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
81
de probabilité utilisée, pour peu que la mesure fictive soit bien équivalente à la mesure réelle.
F IGURE 4.10. Illustration de la variabilité des chemins : pour aller de 100 à 110, il existe plusieurs trajectoires plus ou moins régulières, plus ou moins erratiques.
Parmi les chemins de longueur infinie, il est possible de discerner ceux qui sont plus réguliers que les autres. Nous n’entrerons pas dans les détails mathématiques, mais il est important de savoir que l’on peut calculer une variation de second niveau, qui est un raffinement de la variation du premier ordre (la longueur des chemins). Cette variation du second ordre s’appelle variation quadratique. Les processus à variation finie auront, en général, une variation quadratique nulle ; les processus à variation quadratique non nulle auront en général une variation infinie. La variation quadratique mesure la variabilité des chemins à un degré supérieur. Par exemple, la courbe 3 du graphique 4.10 est à variation infinie mais à variation quadratique finie ; elle est plus régulière que la courbe 4 dont la variation et la variation quadratique sont infinies. Nous pourrions continuer à élaborer d’autres mesures de variabilité pour distinguer les processus à variation quadratique infinie, mais nous nous arrêterons là pour une raison simple : les martingales sont des processus aléatoires à variation quadratique finie, c’est-à-dire dont tous les chemins sont à variation quadratique finie. L’analyse de la variabilité nous permet également de décomposer les processus en deux composantes : la tendance (ou la dérive) et l’aléa. La tendance représente l’évolution de la moyenne, cette dernière ne doit pas être trop erratique, 82
Chapitre 4. Théorie du non-arbitrage
c’est un processus à variation finie. Dans les modèles standards, l’aléa est à variation quadratique finie et sans dérive : c’est une martingale. Ainsi, les processus aléatoires modélisant les actifs financiers sont la somme de deux composantes : – Une composante représentant l’aléa pur, qui doit être une martingale. – Une composante représentant la dérive, l’évolution prévisible, qui doit être un processus à variation finie. De tels processus s’appellent des semi-martingales. Pour caractériser ces semimartingales, les quant écrivent : dSt = u × dt + dMt
(4.3)
Cela traduit la décomposition que nous venons de voir : – Le terme dSt représente la variation entre deux instants très proches du processus St , c’est-à-dire la progression St+dt − St . – Le terme u × dt est la dérive. En effet, dt est la variation du temps et u donne la valeur de la dérive. Plus u est grand, plus le processus St croît avec le temps. Si u est négatif, St va décroître en moyenne avec le temps. Cette dérive u peut dépendre du temps, par exemple pour prévoir que l’accroissement du processus va s’affaiblir avec le temps. Elle peut également dépendre de la valeur St elle-même, par exemple pour prévoir que si St est trop grand, la dérive sera négative pour ramener le processus à sa moyenne et inversement. – Le terme dMt n’est autre que l’évolution Mt+dt − Mt d’une martingale Mt . En l’état actuel de nos connaissances, le théorème du non-arbitrage en version continue s’applique uniquement au cadre des semi-martingales et non à l’intégralité des processus aléatoires. Avant de l’énoncer, il est nécessaire de raffiner la notion d’absence d’opportunité d’arbitrage. Il nous faut introduire la notion de no free lunch with vanishing risk, c’est-à-dire d’absence d’opportunité d’arbitrage dont le risque tend vers zéro. Dans le cadre discret, nous nous sommes interdit de gagner éventuellement de l’argent en étant sûrs de ne pas en perdre. La stratégie d’arbitrage est stricto sensu sans risque : la probabilité de perte de cette stratégie est nulle. Dans le cadre continu, nous nous interdisons de gagner de l’argent avec un risque arbitrairement faible. Plus le risque pris est faible, plus le gain possible doit être faible. S’il est possible de réaliser un gain donné avec un niveau de risque arbitrairement petit, il y a opportunité d’arbitrage au sens du free lunch with vanishing risk. Cela nous permet d’énoncer la version continue du théorème du non-arbitrage, dans la version démontrée par [Delbaen et Schachermayer 1998] : MATHÉMATIQUES DES MARCHÉS FINANCIERS
83
Théorème : Si les actifs sont représentés par des semi-martingales et s’il n’existe pas d’opportunités d’arbitrage avec un risque arbitrairement faible, alors il existe une mesure de probabilité équivalente sous laquelle les prix des actifs sont des martingales. Il est important de constater que nous sommes entrés dans un monde complètement abstrait : celui des processus continus. De fait, les prix des actions sont discrets (en centimes d’euros en général). De fait, nos horloges et notre temps de réaction n’ont pas une précision infinie : le temps continu reste une abstraction. Nous avons donc construit un monde imaginaire et, pour que ce monde imaginaire soit cohérent nous avons dû imposer des restrictions, dont une de taille : les prix des actions ne peuvent pas être trop erratiques, leur évolution est nécessairement représentée par une courbe à variation quadratique finie. Mais cette idée de variabilité est quelque part une abstraction puisqu’elle n’existe que dans le monde imaginaire des processus continus... La question est donc de savoir si modéliser les processus réels par des processus continus à variation quadratique finie est une bonne approximation ou non de la réalité ; c’est une question ouverte.
84
Chapitre 4. Théorie du non-arbitrage
5 Le modèle de Black-Scholes En 1997, Robert Merton et Myron Scholes reçoivent le prix Nobel d’économie pour leurs travaux, accomplis avec Fisher Black (décédé en 1995), sur la valorisation des produits dérivés. Il s’agit du modèle de Black-Scholes, également appelé modèle de Black-Scholes-Merton, que nous allons étudier au présent chapitre. Ce modèle constitue l’armature de la majeure partie des mathématiques financières. Il pose un cadre général de modélisation, des méthodologies et des schémas de raisonnements fondateurs. La base mathématique des modèles que nous allons étudier est le mouvement brownien ; nous l’aborderons dans la première section. La paternité de l’introduction du mouvement brownien en finance revient à Louis Bachelier, dans sa thèse [Bachelier 1900]. Mais la structure du mouvement brownien n’est pas directement adaptable aux produits financiers : les valeurs du mouvement brownien peuvent par exemple être négatives alors que les valeurs des actifs financiers ne peuvent être que positives. Nous verrons dans la deuxième section en quoi l’exponentielle des mouvements browniens, appelée mouvement lognormal, caractérise quant à elle convenablement les actifs financiers. C’est en 1973 que [Black et Scholes 1973] et [Merton 1973] introduisent et structurent l’utilisation de ce mouvement lognormal en finance. Ils construisent un environnement risque neutre permettant de valoriser et d’étudier les produits financiers ; ce modèle de Black-Scholes sera l’objet de notre troisième section. Nous conclurons le chapitre sur la notion de volatilité implicite qui est une manière d’adapter le modèle de Black-Scholes aux réalités des marchés financiers et de prendre en compte le fait que le mouvement des actions n’est pas exactement lognormal.
1
Le mouvement brownien
Le chapitre précédent nous a conduit vers un objet mathématique fondamental en finance : les processus stochastiques continus. Ces processus stochastiques continus sont des variables aléatoires Xt indexées par un temps t continu. Dans la présente section, nous allons étudier le plus célèbre d’entre eux : le mouvement brownien. Intuitivement, on doit pouvoir construire un processus stochastique continu comme limite de processus à temps discrets, de la même manière qu’une fonction continue peut être approchée par des fonctions en escalier dont le pas tend vers zéro. Dans le cadre des processus stochastiques, notre brique de base est l’arbre binomial. Nous allons donc construire le mouvement brownien comme limite d’arbres binomiaux de pas de temps de plus en plus faibles. Pour ce faire, nous allons partir des arbres les plus simples : le pas de temps de l’arbre est noté dt et, à chaque nœud de l’arbre, le processus a 50 % de chances de monter et 50 % de chances de descendre. La taille des variations est constante dans le temps mais dépend du pas de temps dt, on la note u(dt). À chaque nœud, le processus peut ainsi monter de u(dt) ou baisser de −u(dt) comme dans l’arbre représenté en figure 5.1. La valeur du processus au temps T, c’est-à-dire après T/dt pas de temps, est une variable aléatoire notée BT . Afin de nous approcher des processus continus, nous nous plaçons dans le cas où le pas de temps dt est proche de 0.
F IGURE 5.1. Arbre binomial régulier dont le pas de temps est dt et dont le pas de variation est u(dt). Cette représentation permet d’imaginer des arbres dont le pas de temps dt est infinitésimal.
86
Chapitre 5. Le modèle de Black-Scholes
Plaçons-nous à la date T = 1, après 1/dt pas de temps, et regardons les valeurs possibles de B1 selon les différents choix de u(dt). La figure 5.2 montre les phénomènes suivants que l’on peut prouver mathématiquement : √ – Si u(dt) est de l’ordre de dt (dans les deux graphiques du haut dans la figure 5.2), la distribution de B1 converge vers une fonction en cloche, qui n’est autre qu’une loi normale. √ – Si u(dt) est très petit devant dt, par exemple si u(dt) = dt, la distribution de B1 se concentre autour de la valeur 0 (la distribution se rapproche de l’axe vertical). Plus le pas de temps diminue, plus la probabilité que B1 soit proche de 0 est forte. En d’autres termes, l’arbre converge vers un processus constant de valeur nulle. √ √ dt, la – Si u(dt) est très grand devant dt, par exemple si u(dt) = distribution s’étale de plus en plus, elle se rapproche de l’axe horizontal. Les valeurs extrêmes sont donc de plus en plus probables, l’arbre diverge.
F IGURE 5.2. Distribution de probabilité de B1 lorsque le processus évolue dans un arbre binomial tel que représenté par la figure 5.1 en fonction des pas de temps dt et des valeurs de u(dt). Dans les cas où √ u(dt) est proportionnel à dt, la distribution converge vers une courbe en cloche. Dans les autres cas, les distributions s’écrasent sur l’axe vertical (la seule valeur probable étant alors 0) ou horizontal (les valeurs infinies sont de plus en plus probables, ce qui empêche la convergence).
MATHÉMATIQUES DES MARCHÉS FINANCIERS
87
Il n’existe qu’une seule situation dans laquelle l’arbre binomial converge vers un processus stochastique non dégénéré : le cas où la taille des variations est √ proportionnelle à dt. Si les variations sont plus fortes, alors l’arbre diverge ; si elles sont plus faibles, alors l’arbre s’écrase vers 0. Nous touchons du doigt la même problématique que celle évoquée au chapitre précédent, la question de la variabilité des processus stochastiques continus. Le cadre mathématique habituel dans lequel évoluent ces processus stochastiques est celui des processus stochastiques à variation infinie mais à variation quadratique finie. Cela revient exactement à dire que, sur un court pas de√temps dt, la taille caractéristique des variations des processus est de l’ordre de dt. Connaître cette taille caractéristique est très important pour bien comprendre √ le mouvement. La grandeur dt est très grande devant dt, cela veut dire qu’un processus stochastique varie très fortement sur un pas de temps très court. C’est le fait que toutes ces variations sont dans des sens aléatoires différents, certaines positives et d’autres négatives, qui assure que le processus stochastique reste √en général fini et ne diverge pas à l’infini. Pour des variations plus grandes que dt, les compensations ne suffisent pas à contenir l’arbre et il y a divergence à l’infini. √ Lorsque u(dt) est proportionnel à dt, les arbres binomiaux réguliers convergent vers un processus stochastique qui n’est autre que le célèbre mouvement brownien. Dans nos exemples, il s’agira d’un mouvement brownien centré car nous nous sommes restreints à des probabilités équilibrées (50 % de chances de monter, 50 % de chances de descendre). Dans ce cadre, le mouvement ne dérive pas, il reste nul en moyenne. Dans le cadre général, les distributions de probabilité du processus à T = t suivent une loi normale de moyenne m × t et de variance ν × t où m et ν > 0 sont des paramètres du mouvement qui dépendent des probabilités de hausse et de baisse des arbres binomiaux et de la taille de leurs variations u(dt). Par exemple, les arbres binomiaux décrits dans la figure 5.3 sont réguliers mais avec des probabilités non équilibrées, ils convergent vers un mouvement brownien de paramètres de moyenne m et de variance ν = σ2 . Le facteur m sert ainsi à décentrer les probabilités de hausse et de baisse : si m = 0, l’arbre est équilibré ; si m > 0 alors la probabilité de hausse est supérieure à la probabilité de baisse, et inversement si m < 0. Cela explique que la limite de l’arbre soit un mouvement qui dérive à la hausse (si m > 0) ou à la baisse (si m < 0). Le mouvement est donc caractérisé par deux grandeurs (nous prenons systématiquement l’année comme unité de temps) : – la dérive annuelle du processus m, appelée drift en anglais ; – la volatilité annuelle du processus σ qui est, on le rappelle, la racine carrée de la variance du processus. 88
Chapitre 5. Le modèle de Black-Scholes
√
F IGURE 5.3. Nœud d’un arbre binomial dont le pas de temps est dt, dont le pas de variation est σ × dt et dont les probabilités de hausse et baisse sont décentrées par un facteur m. Lorsque dt tend vers 0, cet arbre converge vers un mouvement brownien de dérive m et de volatilité σ.
F IGURE 5.4. Exemple de tirages aléatoires représentant des mouvements browniens. Les tirages sont centrés autour de leur dérive (0 pour les courbes rouges, 0,2 par an pour les courbes bleues) et s’en écartent d’autant plus que la volatilité est forte.
Nous aurions pu partir d’autres processus à temps discrets pour aboutir au mouvement brownien. Par exemple, des arbres trinomiaux correctement paramétrés convergent tout autant vers un mouvement brownien. Cependant, les arbres binomiaux ont non seulement l’avantage de la simplicité mais ils donnent aussi une vision du mouvement brownien qui nous semble singulièrement fidèle. En particulier, transformer les lois de probabilité revient, dans l’arbre binomial de la figure 5.3, à modifier le paramètre de dérive m tout en laissant constant la structure de l’arbre et en particulier sa taille caractéristique de variation donnée par le paramètre σ. C’est exactement le même phénomène qui se produit sur MATHÉMATIQUES DES MARCHÉS FINANCIERS
89
le mouvement brownien lorsque l’on change la mesure de probabilité : il est possible d’agir sur la dérive m du mouvement mais le processus résultant restera un mouvement brownien de volatilité σ. Cette propriété est très spécifique aux arbres binomiaux, aux mouvements browniens et à certains de ses dérivés ; elle assure l’unicité de la mesure risque neutre équivalente qui induit l’unicité du prix des produits financiers 1 . Les propriétés des mouvements browniens sont riches et multiples, c’est la raison pour laquelle on retrouve couramment le processus dans de nombreux domaines, en biologie (c’est un botaniste qui a laissé son nom au mouvement) et en physique notamment. Nous ne pourrons pas passer en revue toutes les caractéristiques des mouvements browniens mais nous citerons quelques-unes de ses propriétés les plus utiles en finance. Propriété 1. Nous l’avons vu, mais il est bon d’y revenir : le mouvement brownien est caractérisé par deux grandeurs, sa dérive, qui évolue linéairement avec le temps, et sa volatilité, qui évolue proportionnellement à la racine carré du temps. On parle en général de mouvement brownien standard pour définir un mouvement dont la dérive est nulle et dont la volatilité annuelle est 1. Notant Wt ce mouvement brownien standard, un mouvement brownien Bt de dérive m et de volatilité σ est en général introduit par l’équation : dBt = m × dt + σ × dWt
(5.1)
Dans cette équation, dt représente le pas de temps, dBt la variation du processus Bt sur ce pas de temps et dWt la variation du mouvement brownien standard. Propriété 2. Les trajectoires d’un mouvement brownien sont continues, le processus ne comporte pas de saut. Cela signifie que Bt+dt est proche √ de Bt . On peut même aller plus loin : Bt+dt − Bt est de taille caractéristique σ dt qui tend bien vers 0 lorsque dt tend vers 2 0. Propriété 3. Le mouvement est une martingale lorsque la dérive est nulle. Cela signifie que si la valeur à t d’un mouvement brownien sans dérive est V, alors l’espérance des valeurs futures à T > t du mouvement brownien est V, même si le mouvement partait de B0 = V à l’origine. 1
2
Le lecteur qui a parcouru la dernière section du chapitre 4 pourra également constater que la variation quadratique (la somme du carré des variations d’une trajectoire) de l’arbre 5.3 entre t et t + T est exactement T × σ2 quelle que soit la trajectoire empruntée. Ce phénomène remarquable caractérise les mouvements browniens. Cela démontre également √ que les trajectoires du mouvement brownien ne sont pas dérivables : ( Bt+dt − Bt )/dt ≈ σ/ dt tend vers l’infini quand dt tend vers 0.
90
Chapitre 5. Le modèle de Black-Scholes
Propriété 4. Les incréments du mouvement brownien sont indépendants. Cela signifie que la loi des variations Bt+s − Bt d’un mouvement brownien est indépendante des valeurs de Bu pour u t. Le processus n’a pas de mémoire, toutes ses variations sont indépendantes les unes des autres. Propriété 5. Les incréments du mouvement brownien sont stationnaires, cela implique que les incréments suivent à tout instant la même loi de probabilité. Autrement dit, les variations Bt+s − Bt d’un mouvement brownien ne dépendent que de s et pas de t. Par exemple, la probabilité des évolutions après 6 mois, Bt+0,5 − Bt , est la même quel que soit l’instant t considéré (par exemple si t est le 01/10/2010 ou le 17/01/1983). Propriété 6. Les incréments du mouvement brownien suivent des lois normales. Plus précisément, les variations Bt+s − Bt suivent une loi normale de moyenne √ m × s et de volatilité σ × s où m (respectivement σ) est la dérive annuelle (respectivement la volatilité annuelle) du processus. Les propriétés 2, 4 et 5 suffisent à elles seules à définir le mouvement brownien. En effet, plutôt que de construire notre mouvement brownien par des arbres binomiaux, nous aurions pu définir le mouvement brownien par ces propriétés : le mouvement brownien est le seul processus stochastique qui vérifie les conditions suivantes : – Ses trajectoires sont continues. – Ses incréments sont indépendants. – Ses incréments sont stationnaires. Le fait que ces trois seules propriétés suffisent à caractériser le mouvement brownien est très important car aucune de ces conditions ne fait appel à des paramétrisations ou hypothèses arbitraires sur la loi du mouvement. Il ne s’agit que d’hypothèses structurelles sur les mouvements dont on peut d’ores et déjà envisager qu’elles soient adaptées à de nombreuses modélisations. Le fait que les incréments des mouvements browniens suivent des lois normales est une conséquence des trois hypothèses structurelles (continuité, indépendance, stationnarité). Ces trois briques de base s’insèrent d’ailleurs parfaitement dans la modélisation des actifs financiers, nous allons le voir dans la section suivante. 2
Les processus lognormaux
Les trois conditions caractérisant le mouvement brownien (continuité, indépendance, stationnarité) sont à première vue des hypothèses raisonnables pour modéliser l’évolution d’un actif financier à un détail près : le modèle brownien a une structure additive, il est fondé sur les lois des incréments (Xt+s − Xt ) alors que MATHÉMATIQUES DES MARCHÉS FINANCIERS
91
les actifs financiers ont une structure multiplicative, fondée sur les rendements (( Xt+s − Xt )/Xt ). Ainsi que nous l’avons vu au chapitre 3, les incréments sont pollués par un facteur taille arbitraire contrairement aux rendements qui sont directement comparables entre eux quelle que soit la valeur initiale de l’actif. Nous pouvons donc adapter de la manière suivante nos hypothèses de modélisation d’une action St : – Ses cours sont continus. – Ses rendements (St+s − St )/St sont stationnaires. – Ses rendements sont indépendants des valeurs passées de l’action. À nouveau, cette liste ne contient pas de suppositions arbitraires, par exemple sur la loi du mouvement ; elle est constituée uniquement d’hypothèses structurelles sur les caractéristiques du mouvement. Si chacune des hypothèses peut être remise en cause – nous le ferons en particulier aux chapitres 6 et 9 – aucune d’entre elles n’est déraisonnable. La continuité des cours semble être une approximation bénigne car il est toujours possible d’interpoler continûment un ensemble de points discret (un processus continu qui donne la bonne valeur des cours, au centime d’euros près, toutes les secondes pourra être considéré comme un excellent modèle). La stationnarité des rendements signifie que les lois qui régissent les rendements sont stables dans le temps, ce qui paraît naturel au moins sur une fenêtre de temps réduite. Les rendements sont indépendants des valeurs passées car il ne doit pas être possible de prédire l’évolution future à partir du passé. Pour ces raisons, ces hypothèses sont largement acceptées dans le milieu comme les fondements des modèles d’évolution d’actif. Nous avons vu que le premier jeu de conditions définissant le mouvement brownien est inadapté aux actifs financiers car associé à une structure additive. Le second jeu de conditions énumérées ci-dessus définit quant à lui un mouvement lognormal, qui se construit comme l’exponentielle d’un mouvement brownien. À partir de 3 hypothèses qui paraissent larges et naturelles, nous avons réduit le champ des modèles possibles à un seul. Ce mouvement lognormal est en outre très simple à utiliser, ce qui contribue sans aucun doute à sa popularité. Considérons un actif St qui suit un mouvement lognormal. Le logarithme ln(St ) est par définition un mouvement brownien. Son mouvement est donc décrit par l’équation différentielle stochastique, dérivée de l’équation (5.1) : d(ln(St )) = mdt + σdWt
(5.2)
où Wt est un mouvement brownien standard (de variance 1 à t = 1 et de dérive nulle). 92
Chapitre 5. Le modèle de Black-Scholes
Il est possible de montrer que cette équation est strictement équivalente à : ⎧ ⎨ dS = S × (μdt + σdW ) t t t (5.3) ⎩ μ = m + σ2 2
Les quant préfèrent généralement la seconde écriture car elle s’interprète plus facilement : (μdt + σdWt ) est en effet le rendement de l’actif modélisé sur un pas de temps dt (puisque l’expression dSt /St représente la quantité (St+dt − St )/St qui est exactement le taux de rendement). Ce rendement contient deux composantes : – une composante prévisible associée à la dérive, μdt, qui est le rendement instantané moyen ; – une composante aléatoire, σdWt , nulle en moyenne et qui représente la volatilité du rendement.
F IGURE 5.5. Exemple de processus lognormaux : le graphique présente 2 jeux de 5 tirages de processus lognormaux (les paramètres m et σ sont ceux définis dans l’équation (5.2)). Les processus progressent en moyenne de manière exponentielle.
√ On appelle traditionnellement la quantité σ T la volatilité du processus St sur un horizon de temps T bien que, en toute rigueur, cette quantité représente la volatilité sur le même horizon de temps du mouvement brownien ln(St ). Dans le cadre d’un processus lognormal, c’est le seul paramètre qui indique la variabilité du cours et donc le risque porté par l’actif. Si ce paramètre est nul alors St = eμt : le mouvement progresse exponentiellement, de manière déterministe, comme un compte sur livret qui capitalise au taux d’intérêt composé eμ − 1. MATHÉMATIQUES DES MARCHÉS FINANCIERS
93
Le paramètre μ, qui est le taux de rendement instantané dit taux continu, est donc également une forme de taux d’intérêt calculé avec une convention différente du taux d’intérêt composé que nous avions défini au premier chapitre. Les deux taux sont d’ailleurs liés entre eux par la formule suivante, en notant r le taux d’intérêt continu et c le taux composé : er = 1 + c
(5.4)
De cette manière, les progressions ert et (1 + c)t sont strictement égales. La théorie générale que nous allons bâtir, qui repose sur l’exponentielle des mouvements browniens, utilise plus naturellement les taux continus que les taux composés, c’est pourquoi nous utiliserons désormais la convention des taux continus. Dans cette convention, plutôt que d’actualiser par le facteur 1/(1 + c)t , nous actualisons par le facteur e−rt . Les deux sont bien strictement égaux dès que l’égalité (5.4) est respectée. À partir de maintenant, lorsque nous parlerons de taux d’intérêt, nous supposerons implicitement qu’il s’agit d’un taux continu. 3
Valorisation sous le modèle de Black-Scholes
Le modèle lognormal d’évolution des actifs que nous venons de décrire est le célèbre modèle de Black-Scholes. Au-delà de la description théorique du processus, il nous faut maintenant entrer dans les questions essentielles des mathématiques financières : comment, à partir d’un modèle d’évolution des actifs, donner un prix aux différents produits financiers ? Deux méthodes sont couramment utilisées dans le cadre du modèle de Black-Scholes, nous allons les étudier. 3.1
La mesure risque neutre
Dans notre modèle de Black-Scholes, le log-rendement ln(St ) est un mouvement brownien de dérive m et de volatilité σ, il est donc la limite d’un arbre binomial régulier du type de la figure 5.1. Aussi, pour passer au mouvement lognormal, il suffit d’appliquer la fonction exponentielle aux arbres étudiés précédemment. En notant St = e Bt , le passage à l’exponentielle de l’arbre de la figure 5.3 conduit à l’arbre de la figure 5.6. Au chapitre précédent, nous avions vu que la valorisation des produits financiers est simple dans le cadre des arbres binomiaux : le prix est unique et il peut se calculer comme la moyenne des valeurs futures sous la mesure risque neutre. Cette mesure risque neutre est la probabilité fictive sous laquelle les prix des actifs sont des martingales. 94
Chapitre 5. Le modèle de Black-Scholes
F IGURE 5.6. Nœud d’un arbre binomial convergeant vers un mouvement lognormal de paramètres m et σ lorsque le pas de temps dt tend vers 0. Cet arbre permet ainsi d’approcher le mouvement lognormal par un processus discret de pas de temps infinitésimal.
Nous avions jusque-là négligé les taux d’intérêt, nous allons les réintégrer mais sans prendre en compte leur structure par maturité (cf. chapitre 1). Notons donc r le taux d’intérêt continu. Pour calculer la mesure risque neutre équivalente dans l’arbre 5.6, il faut donc trouver la probabilité p∗ pour laquelle le prix moyen futur actualisé de l’actif est égal à sa valeur initiale. Il suffit de transformer notre phrase en équation : √ √ p∗ St eσ dt + (1 − p∗ )St e−σ dt e−rdt = St (5.5) √
√
Dans cette équation p∗ St eσ dt + (1 − p∗ )√St e−σ dt est le prix moyen futur √ (St × eσ dt avec une probabilité p∗ et St × e−σ dt avec une probabilité 1 − p∗ ), ce prix est divisé par erdt pour tenir compte de l’actualisation ; ce prix futur moyen actualisé doit être égal à la valeur initiale, c’est-à-dire St . Le calcul montre que (au premier ordre) : 1 r − σ2 /2 √ dt (5.6) p∗ = + 2 2σ La probabilité risque neutre p∗ a exactement la même forme que la probabilité originale p, nous avons juste eu à remplacer m par r − σ2 /2. Ce point est particulièrement intéressant car si on laisse tendre le pas de temps dt vers 0, l’arbre binomial convergera vers un mouvement lognormal de dérive annuelle r − σ2 /2 (et non plus m) et de volatilité σ. Cela laisse penser que, sous une mesure risque neutre, l’actif suivra un mouvement lognormal de dérive annuelle r − σ2 /2 et de volatilité annuelle σ. Non seulement ce résultat est vrai, mais en outre, la mesure risque neutre est unique : le modèle lognormal est complet au sens où il existe une unique mesure risque neutre. Sous la mesure risque neutre, le taux de rendement moyen MATHÉMATIQUES DES MARCHÉS FINANCIERS
95
(paramètre μ dans l’équation (5.3)) de l’actif est (r − σ2 /2) + σ2 /2 = r, c’est le taux sans risque. Il n’y a donc pas de prime de risque sous la mesure risque neutre, le rendement moyen d’un actif sera toujours r, quel que soit son risque σ. Connaître la loi d’évolution d’un actif sous la mesure risque neutre est très précieux : comme nous l’avons vu au chapitre précédent, cela permet de calculer le prix de n’importe quel produit dérivé. Prenons l’exemple d’un produit financier, l’option d’achat, que l’on appelle traditionnellement call. C’est un produit financier qui verse, au temps T, 0 si l’action est en dessous d’un seuil K et la différence ST − K sinon. Le temps T est nommé échéance du call et le seuil K est son strike. Nous cherchons donc à valoriser ce call. Encadré 5.1. Les options, les call, les put.
Une option est un produit financier offrant à son détenteur la possibilité, mais non l’obligation, d’acheter ou de vendre, à une date donnée et à un prix K fixé à l’avance, un autre produit financier. Le seuil K est appelé prix d’exercice, ou plus souvent strike. Les options d’achat sont appelées des call et les options de vente des put. Ainsi, un call d’échéance T et de strike K octroiera à son détenteur le droit d’acheter une action au prix K même si le cours de l’action en T est différent de K. Notant ST le cours de l’action à l’échéance T : – Si ST > K alors le détenteur exercera le call car cela lui rapportera un gain de ST − K. – Sinon, le détenteur n’exercera pas le call car il serait irrationnel d’acheter au prix K ce que l’on pourrait acheter moins cher (ST < K). Au final, l’option d’achat rapporte à l’échéance max(ST − K; 0).
Plaçons-nous dans le cadre du modèle de Black-Scholes et supposons que l’action suit, sous la probabilité réelle, un processus lognormal de volatilité annuelle σ, peu importe sa dérive. Notons r le taux d’intérêt continu. Le prix de l’option est l’espérance de ses flux futurs actualisés sous la probabilité risque neutre. La probabilité risque neutre étant unique dans ce modèle, il est possible de calculer un prix unique. Sous cette mesure risque neutre, l’action suit un processus lognormal de rendement instantané r et de volatilité σ : d(St )/St = rdt + σdWt . Cette équation peut se réécrire d(ln(St )) = (r − σ2 /2)dt + σdWt pour mettre en valeur le caractère brownien du processus ln(St ). En particulier, au temps T, la variable aléatoire√ln(ST ) est une loi normale de moyenne ln(S0 ) + (r − σ2 /2) × T et d’écart type σ T. Ainsi, le prix de l’option est l’espérance : E max e X − K; 0 e−rT
96
(5.7)
Chapitre 5. Le modèle de Black-Scholes
Dans cette équation, X suit une loi normale de moyenne ln(S0 )+(r − σ2 /2)× T √ et d’écart type σ T. Nous verrons au chapitre 7 comment résoudre numériquement ce type d’équation. Dans ce cas particulier, il est possible de calculer une formule explicite. Cette formule étant assez longue, nous ne la présenterons pas ; en revanche des valeurs numériques du prix d’un call dans le modèle de Black-Scholes sont représentées dans le graphique 5.7.
F IGURE 5.7. Prix d’un call dans le modèle de Black-Scholes en fonction de la valeur initiale S0 de l’action dans différentes configurations de paramètres.
Le prix de l’option ne dépend pas du rendement prévisionnel de l’action. C’est un aspect essentiel du modèle de Black-Scholes, et des mathématiques financières en général que nous avons déjà vu dans le cadre de l’arbre binomial où les prix des produits financiers ne dépendaient pas des probabilités de hausse ou de baisse. Sous la mesure risque neutre, tous les produits financiers progressent en moyenne au taux sans risque, il n’y a pas de prime de risque. En résumé, nous avons vu que : – Dans le modèle de Black-Scholes, il est possible de déterminer l’unique mesure risque neutre ; cela se fait simplement en remplaçant le rendement prévisionnel des actifs μ par le taux sans risque r. – Le prix des produits financiers se calcule alors grâce à une formule mathématique (espérance des prix futurs actualisés sous la probabilité risque neutre) que nous apprendrons à résoudre numériquement au chapitre 7. – Pour certains produits simples comme les call, il existe une équation explicite de valorisation que nous avons représentée numériquement dans le graphique 5.7.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
97
3.2
Le delta hedge
Nous allons voir dans cette section une deuxième méthode de valorisation des produits financiers sous le modèle de Black-Scholes, la méthode du delta hedge. Les deux techniques conduisent bien sûr au même prix, mais les deux apportent un éclairage différent sur le modèle. L’idée du delta hedge est de neutraliser le risque en couvrant l’actif, c’est-à-dire que l’on cherche à acheter un second actif, appelé la couverture, dont le risque va en sens contraire. Par cette construction, le portefeuille constitué de l’actif et de sa couverture évolue de manière déterministe, sans variabilité. Le prix d’un tel portefeuille pourra alors se calculer facilement, cela permettra de déterminer le prix de l’actif que l’on cherche à valoriser. Nous avons donc expliqué la partie hedge du delta hedge : to hedge signifie esquiver dans le langage courant en anglais, ce que l’on traduit dans le vocabulaire financier par couvrir. Que signifie alors « delta » ? Nous allons le comprendre en passant encore une fois par les arbres binomiaux. Appelons Π le produit financier à valoriser, ce dernier étant construit à partir d’une action de référence S. Les prix à un instant t du produit et de l’action sont notés Πt et St : nous allons tenter de couvrir le produit Πt en détenant une proportion αt de l’action. Nous voulons que le risque soit neutralisé, c’est-à-dire que Πt + αt St évolue de manière déterministe.
F IGURE 5.8. Évolution d’un produit financier Πt dans un arbre binomial de pas dt. Vu de t, le produit − financier Π a deux possibilités d’évolution en t + dt, Π+ t ou Πt , selon l’évolution de l’action de référence S.
Voyons comment faire dans le cas de l’arbre binomial 5.8. L’objectif recherché est que Πt + αt St soit sans incertitude (sans ambiguïté sur la valeur future), c’est-à-dire : + − − (5.8) Π+ t + α t St = Π t + α t St 98
Chapitre 5. Le modèle de Black-Scholes
En d’autres termes : αt = −
− Π+ t − Πt St+ − St−
(5.9)
Cette expression a un sens physique précis : c’est la variation du prix du produit Π induite par la variation du prix de l’action sous-jacente S. Autrement dit, il s’agit de la dérivée de Π par rapport à S. Les expressions différentielles, de type dérivée ou variation sont traditionnellement notées Δ, d’où l’origine du terme delta. Formellement, le prix d’un produit financier dépend de plusieurs paramètres dont la valeur de l’action sous-jacente S, le temps t, les taux d’intérêt, etc. Nous noterons donc Πt (S, r, ...) ce prix que l’on cherche à calculer. À chaque instant t, il est possible de calculer théoriquement la dérivée de Πt (S, r, ...) par rapport à S que l’on appelle le delta, noté Δt , du produit. Les valeurs de cette dérivée sont inconnues à ce stade (puisque Πt (S, r, ...) est lui-même inconnu), nous ne faisons que constater l’existence théorique de Δt : Δt =
∂Πt (S, r, ...) ∂S
(5.10)
Il est alors possible de démontrer – nous l’avons illustré avec les arbres binomiaux – que le portefeuille constitué d’un produit financier Πt et de −Δt actions, évolue sans risque dans le modèle de Black-Scholes. Notons temporairement ηt le taux de rendement du portefeuille. Ce taux de rendement est certain, il n’y a pas de variabilité autour de ce taux puisque le risque a été neutralisé grâce au delta hedge. Le rendement ηt ne peut être que le taux d’intérêt r, sinon, il y aurait une opportunité d’arbitrage. En effet, si ηt > r, il est possible d’emprunter une somme au taux d’intérêt r pour la placer au taux de rendement ηt : cela constitue un arbitrage. Réciproquement, si ηt < r, il faut vendre une portion du portefeuille puis placer le fruit de la vente au taux r : c’est également un arbitrage. Dans un monde sans arbitrage, nous avons nécessairement ηt = r. Ce raisonnement se traduit dans l’équation suivante : Πt+dt (St+dt , r ) − Δt St+dt = erdt (Πt (St , r ) − Δt St )
(5.11)
En effet, la partie Πt+dt (St+dt , r ) − Δt St+dt est le prix du portefeuille à t + dt ; il est égal au prix initial du portefeuille (Πt (St , r ) − Δt St ) capitalisé au taux continu r pendant la durée dt. Nous ne détaillerons pas les calculs qui, partant de l’équation (5.11), mènent à une équation aux dérivées partielles célèbre, l’équation de Black-Scholes : ∂Πt ∂Πt 1 2 2 ∂2 Πt + rSt + σ St = rΠt ∂t ∂S 2 ∂S2 MATHÉMATIQUES DES MARCHÉS FINANCIERS
(5.12)
99
Il n’est pas nécessaire, ni utile pour la suite du livre, de comprendre cette équation. L’idée importante est qu’elle peut être résolue numériquement, permettant ainsi de calculer le prix de produits financiers. Nous retiendrons donc que : – Dans le modèle de Black-Scholes il est possible de neutraliser le risque des produits financiers. – Pour ce faire, il suffit de couvrir le produit avec son delta hedge. – Cette méthode permet de calculer le prix des produits financiers. La possibilité de neutraliser le risque dans le modèle de Black-Scholes est intimement liée à la possibilité de répliquer les produits dans les arbres binomiaux (cf. chapitre 4). Cela est possible car le modèle est complet, il existe autant de sources de variabilité que de possibilités de réplication/couverture du risque. C’est aussi cette complétude qui garantit l’unicité de la mesure risque neutre et donc du prix. Le modèle de Black-Scholes est riche et efficace. Il est la conséquence d’un jeu d’hypothèses naturelles et intuitives. Il peut être approché par des arbres binomiaux ce qui le rend très intuitif et facile d’accès. Il est complet, ce qui permet de valoriser les produits financiers, de les couvrir et de les répliquer. Il se construit à partir de lois normales dont les mathématiciens ont l’habitude et qu’ils manipulent facilement. Le prix des options standards, tels les call, se calculent par une formule simple. Pour toutes ces raisons, c’est le modèle de base des mathématiques financières. 4
La volatilité implicite
Malheureusement, le modèle de Black-Scholes ne s’adapte pas exactement à la réalité. Les call que nous avons décrits ci-dessus sont des produits cotés sur les marchés, il est donc possible de comparer les prix du marché des call aux prix du modèle de Black-Scholes pour une action donnée et pour différents niveaux de strike et dates d’échéance. Cette comparaison aboutit invariablement à la conclusion suivante : il n’existe pas de paramètres d’entrée (r, σ) du modèle de Black-Scholes qui permettent de retrouver les prix de tous les call cotés sur le marché pour une action donnée. Il ne peut y avoir qu’une seule cause de ce constat : l’évolution des actions anticipée par les marchés n’est pas un mouvement lognormal, les hypothèses du modèle de Black-Scholes sont incorrectes. Le graphique 5.9 montre effectivement que le modèle de Black-Scholes est faux, mais il demeure tout de même une première approximation des prix. En outre, le fait d’avoir un modèle est très utile pour la gestion des risques, cela sert à l’interprétation du mouvement (décomposition en effet dérive et effet volatilité), 100
Chapitre 5. Le modèle de Black-Scholes
F IGURE 5.9. Prix de call sur le CAC 40 en fonction du strike, tels qu’observés sur les marchés (courbe verte) et tels que calculés par le modèle de Black-Scholes (courbe brune). Le prix du modèle diffère du prix effectivement constaté sur les marchés.
à calculer le Δ et d’autres indicateurs de mesure des risques... Enfin, ce modèle présente de nombreux avantages cités ci-dessus. Son principal inconvénient, qui n’est pas mineur, est donc de ne pas valoriser correctement les options cotées sur le marché. Pour pouvoir continuer à utiliser le modèle il faut donc forcer le bon prix, ce que les trader font en jouant sur les paramètres d’entrée du modèle. Le taux sans risque peut être observé sur les marchés (malgré toutes les difficultés que cela comporte), il ne fait donc pas partie des clés d’ajustement des prix. Il reste donc la volatilité. Étant donné un taux d’intérêt r, la formule de valorisation des call du modèle de Black-Scholes peut être vue comme une fonction bijective de la volatilité dans l’ensemble des prix. Le phénomène est illustré dans le graphique 5.10 ci-dessous.
F IGURE 5.10. Prix d’un call dans le modèle de Black-Scholes en fonction de la volatilité : quel que soit le prix, il est possible de trouver une volatilité σ associée à ce prix.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
101
En d’autres termes, étant donné un call dont le prix est π, il est toujours possible de calculer une volatilité σπ pour laquelle le prix Black-Scholes du call est bien π. Cette volatilité σπ est appelée la volatilité implicite. Pour reprendre [Joshi 2008], la volatilité implicite est le mauvais paramètre d’entrée du mauvais modèle qui donne le bon prix.
F IGURE 5.11. Volatilité implicite en fonction du strike (skew de volatilité). Le graphique représente pour chaque niveau de strike le paramètre de volatilité σ qui permet de retrouver le prix de marché de la figure 5.9.
Chaque call coté sur le marché aura sa propre volatilité implicite, qui dépendra donc de la date d’échéance et du strike du call. Si le modèle de Black-Scholes était valide, la volatilité ne dépendrait que de l’action sous-jacente : il est théoriquement difficilement justifiable de dire qu’une action suivra un mouvement lognormal de volatilité 10 % pour étudier le call d’échéance 1 an et de strike 95 et que cette même action suivra un mouvement lognormal de volatilité 15 % pour étudier le call de même échéance et de strike 105. C’est pourtant bien ce que l’on fait pour adapter le modèle à la réalité du marché. Une action donnée n’a donc pas une volatilité implicite σ unique, mais une surface de volatilité σ( M, K ) qui dépend de l’échéance M et du prix d’exercice K du call sous-jacent. À une échéance donnée, la fonction K → σ ( M, K ) peut avoir une forme en U qui ressemble à un sourire, on parle de smile de volatilité, ou une forme en pente descendante, on parle dans ce cas de skew de volatilité. Le graphique 5.11 représente le skew de volatilité associé aux données du graphique 5.9. La forme de la courbe des volatilités implicites associées à une échéance T nous renseigne sur la loi de probabilité risque neutre de ST qui est anticipée par les marchés. Dans sa forme la plus simple, la volatilité implicite est constante ce qui signifie que les marchés pensent que ST suit une loi lognormale (l’exponentielle d’une loi normale). Lorsque cette courbe devient, comme dans le graphique 5.9, 102
Chapitre 5. Le modèle de Black-Scholes
F IGURE 5.12. Ces graphiques présentent à gauche les densités de probabilité du sous-jacent à l’échéance de l’option et à droite les courbes de volatilités implicites qui en sont déduites. La courbe de volatilité implicite déduite d’une densité lognormale est sans surprise une droite puisque la distribution terminale est censée être lognormale dans le modèle de Black-Scholes. Le passage à une densité plus étalée à gauche donne une forme de pente descendante à la volatilité implicite que l’on appelle le skew de volatilité : dans cette configuration, les variations négatives de forte amplitude sont plus probables alors que les variations positives du cours restent de plus faible amplitude. Par conséquent, les options de strike faible ont tendance à être plus chères tandis que les options de strike élevé le sont moins. Le passage à une densité plus étalée à droite et à gauche, c’est-à-dire présentant des variations de fortes amplitudes plus probables et des variations de faibles amplitudes moins probables, accroît la convexité de la courbe des volatilités implicites : c’est le smile de volatilité. Comme les valeurs extrêmes du sous-jacent sont plus probables, les prix des options de strike extrêmes sont plus élevés.
une pente descendante, cela signifie que les marchés considèrent qu’il y a plus de variabilité en cas de baisse de l’action qu’en cas de hausse : la distribution de probabilité de ST anticipée par les marchés est dissymétrique ; elle sur-pondère, relativement à la loi lognormale, les probabilités de baisse importante des cours. Dans le cas d’un smile de volatilité, ce sont les deux côtés de la distribution qui sont sur-pondérés : cela signifie que le marché anticipe que les variations de forte amplitude sont plus probables que celles de la loi lognormale ; réciproquement, les variations de faible amplitude sont considérées moins probables. Ce lien entre la forme de la courbe des volatilités implicites et la distribution de probabilité du cours du sous-jacent est illustré dans la figure 5.12. Ces trois formes de volatilités implicites (constante, skew, smile) sont couramment observées sur les marchés. Pour s’en convaincre, regardons le graphique 5.13 qui représente la volatilité implicite du CAC, constatée le 27 juillet 2011, pour différents strike et dates d’échéance. Il en résulte une surface que l’on appelle traditionnellement la nappe de volatilité implicite. Notons en particulier que le smile puis le skew de volatilité implicite s’atténuent pour les échéances lointaines, ce qui montre que les trader considèrent que les hypothèses de Black-Scholes sont plus acceptables sur le long terme que sur le court terme. MATHÉMATIQUES DES MARCHÉS FINANCIERS
103
F IGURE 5.13. Nappe des volatilités implicites du CAC 40. Pour les échéances courtes, de l’ordre de 1 mois, les courbes rendent compte d’un smile de volatilité, c’est-à-dire d’une courbe de volatilité implicite convexe. Ensuite, la surface se déforme en une simple pente qui matérialise des skew de volatilité. Sur les échéances plus lointaines, la surface se redresse et la volatilité implicite associée à une date d’échéance donnée semble quasi constante.
La volatilité implicite permet ainsi d’adapter le modèle de Black-Scholes aux réalités du marché tout en offrant une interprétation intuitive des différentes formes de la nappe des volatilités implicites. Cependant, rappelons que la volatilité implicite ne reste qu’un artifice de calcul et ne constitue pas un modèle cohérent car elle suppose qu’une même action ne suit pas la même loi selon les caractéristiques (strike, échéance) du produit à valoriser. Il existe de nombreux modèles qui affinent le modèle de Black-Scholes pour tenter de résoudre ce problème ; ceux-ci font l’objet du prochain chapitre.
104
Chapitre 5. Le modèle de Black-Scholes
6 Modèles de volatilité Le chapitre précédent nous a appris que la volatilité implicite est le mauvais paramètre d’entrée du mauvais modèle qui donne le bon prix. Nous pourrions arrêter la réflexion à ce constat et considérer que toute tentative d’analyse et de modélisation de la volatilité ne relèverait que de la curiosité intellectuelle ou d’un raffinement superflu. Après tout, il suffit que les trader soient en mesure de s’entendre sur les prix des options : le modèle de Black-Scholes et la volatilité implicite permettent de répondre à cet objectif. Pourtant, les acteurs des marchés et les quant n’ont eu de cesse, depuis l’apparition pour la première fois d’un smile sur les marchés action après le krach de 1987, de tenter d’en comprendre les raisons économiques et d’en déduire une modélisation. Les raisons en sont simples : les trader, les quant et les autres acteurs du marché ne se contentent pas de la simple bijection prix ↔ volatilité implicite ; ils souhaitent comprendre les mécanismes de formation des surfaces de volatilités implicites pour mieux cerner les risques et rentabilités des stratégies mises en place ou, tout simplement, construire de nouveaux modèles visant à valoriser des produits dérivés plus complexes. La première section de ce chapitre sera donc consacrée à montrer l’utilisation qui peut être faite du seul paramètre de volatilité implicite et son insuffisance dans le cadre de la valorisation d’options complexes. Nous aborderons ensuite les deux principales familles de modèles de volatilité dont nous présenterons les grands principes, les forces et les faiblesses : – les modèles à volatilité locale, popularisés par les travaux de [Derman et Kani 1994] et [Dupire 1994], qui tentent de modéliser la volatilité comme une fonction déterministe du temps et du niveau du sous-jacent ; – les modèles à volatilité stochastique qui décrivent la volatilité comme la résultante d’un nouveau facteur aléatoire, dont fait partie le modèle de [Heston 1993] que nous détaillerons.
Comme nous le verrons, les performances de ces classes de modèles ne font aujourd’hui pas consensus. En conséquence, la modélisation de la volatilité constitue un des sujets les plus dynamiques et controversés des mathématiques financières actuelles. 1
Valorisation avec les volatilités implicites*
Récapitulons ce que nous savons de la volatilité et de la volatilité implicite : – La volatilité implicite est le paramètre de volatilité en entrée du modèle de Black-Scholes qui permet de retrouver les prix des call observés sur le marché. – Dans le modèle de Black-Scholes, le paramètre de volatilité est censé être la volatilité que subira le sous-jacent avant la date d’exercice de l’option. À ce stade, la volatilité implicite ne nous permet donc que de valoriser des produits dont nous connaissons déjà le prix ! Or, les modèles n’ont d’intérêt que s’ils permettent de calculer les prix d’autres options qui ne sont pas, quant à elles, directement cotées sur un marché organisé. Peut-on utiliser notre nappe des volatilités implicites pour valoriser d’autres types d’options ? Commençons par le cas simple des options de vente, les put. Nous allons démontrer une équation importante en finance, la relation de parité call-put, qui permet de lier le prix d’un call et le prix d’un put de même strike K et de même date d’échéance T. Notons r le taux sans risque, St la valeur du sous-jacent à date t et construisons deux portefeuilles A et B de la manière suivante : – Le portefeuille A est constitué de la somme d’argent Ke−rT , qui est investie au taux sans risque, et d’un call de prix PrixCall. – Le portefeuille B est constitué de l’action sous-jacente, valant S0 à l’initiation du portefeuille, et d’un put de prix PrixPut. À la date d’échéance des deux options, en T, les deux portefeuilles dégageront le même gain, ce que le lecteur sceptique peut vérifier aisément. Ainsi, afin de respecter le principe de non-arbitrage, les deux portefeuilles auront nécessairement la même valeur à tout instant. À la date t = 0, cette affirmation se traduit mathématiquement par l’égalité suivante : PrixCall + Ke−rT = PrixPut + S0
(6.1)
La relation (6.1) est ce que l’on appelle la parité call-put. Celle-ci ne dépend d’aucune hypothèse de modélisation, elle doit donc être vérifiée dans tout modèle, 106
Chapitre 6. Modèles de volatilité
dont celui de Black-Scholes, mais également par les prix réels des options. En conséquence : ⎧ ⎨ PrixCall + Ke−rT = PrixPut + S 0 réel réel ⎩ PrixCallBS + Ke−rT = PrixPutBS + S0 Cela induit : PrixCallréel − PrixCallBS = PrixPutréel − PrixPutBS . Cette dernière relation permet de confirmer que la volatilité implicite du call – c’est la volatilité Black-Scholes annulant le membre de gauche – sera égale à la volatilité implicite du put. Ce résultat important permet de démontrer l’unicité de la nappe des volatilités implicites des put et des call : la nappe des volatilités implicites peut donc être construite indifféremment à partir du prix des call ou de ceux des put. Nous n’avions jusqu’ici défini que les options simples, dites « vanilles » dans le jargon financier, mais le spectre des options vendues sur les marchés financiers est très large, les produits les plus complexes étant souvent qualifiés d’« exotiques ». Effectuons un bref tour d’horizon des options financières les plus habituelles (cf. [Hull 2011] pour une revue plus complète et détaillée) : – Les options européennes. Ce sont des produits financiers dont la valeur à l’échéance est une fonction de la valeur de l’action à cette date ; cette fonction est appelée payoff. Parmi elles, on peut citer : • Les call (option d’achat) qui reviennent de manière récurrente dans ce livre pour illustrer nos propos. • Les put (option de vente) qui sont les pendants des call et dont le payoff est max(K − ST ; 0). • Les options binaires dont le payoff vaut 1 ou 0 selon que l’actif est audessus ou en dessous du strike K. Par exemple, le payoff d’une option binaire peut être 1 si ST > K et 0 sinon. – Les options asiatiques. Pour ces options, le payoff ne dépend pas de la valeur de l’action ST à l’échéance mais de la moyenne des valeurs passées de l’action. Tous les payoff peuvent être déclinés en options asiatiques. – Les options américaines. Le payoff d’une option européenne n’est valable qu’à l’échéance ; pour une option américaine au contraire, le détenteur de l’option peut à tout moment choisir d’exercer son option, c’est-à-dire de réaliser le payoff. Ainsi, un call américain donne le droit à son porteur de recevoir max(St − K; 0) à n’importe quel moment t de la vie de l’option (mais le porteur ne peut réclamer ce droit qu’une seule fois). – Les options à barrières. Les barrières sont des seuils qui activent ou désactivent l’option si le cours de l’action passe au-dessus ou au-dessous du seuil. L’exercice de l’option peut être tout autant européen qu’américain ; MATHÉMATIQUES DES MARCHÉS FINANCIERS
107
le cas asiatique est plus rare pour les options à barrières, mais cela est en théorie parfaitement possible. Par exemple : • Un call européen à barrière désactivante à la hausse servira le payoff du call à l’échéance de l’option sauf si l’action sous-jacente a dépassé la barrière au cours de la vie de l’option, auquel cas l’option ne vaut plus rien. • Un put américain à barrière activante à la hausse donnera la possibilité à son porteur de recevoir le payoff max(K − St ; 0) à tout moment de la durée de vie de l’option à condition que le cours de l’actif sous-jacent St ait préalablement dépassé la barrière. – Les options à départ forward. Pour ces options, le strike n’est pas fixé en valeur absolue à l’avance mais sera défini à un instant intermédiaire, en fonction de la valeur de l’actif sous-jacent. Par exemple, cela peut être un call européen dont le payoff à l’échéance T sera max(ST − Sτ ; 0) où τ est la date du départ forward (τ < T). Nous avons donc vu les cas des call et des put, continuons avec les options binaires. Comme dans le cas des put, indépendamment de toute supposition quant à l’évolution du sous-jacent, le prix des options binaires peut se déduire du prix des call. Considérons une option binaire d’achat de strike K et d’échéance T et étudions la stratégie visant à acheter (1/) call de strike (K − ) et à vendre (1/) call de strike K. À l’échéance T, le résultat d’une telle stratégie est : ⎧ ⎪ ⎪ ⎨ 0 si ST < K − ST −K + si K − < ST < K, sachant que dans ce cas 0 < ⎪ ⎪ ⎩ 1 si ST > K
ST −K +
K et 0 sinon : l’espérance de sa valeur à l’échéance est par définition la probabilité que ST soit plus grand que K. En notant P(.) la probabilité sous la mesure risque neutre, nous venons d’identifier que : PrixBin(K ) = e−rT P(ST > K )
(6.3)
F IGURE 6.1. Valorisation d’une option binaire en présence d’un smile de volatilité. L’utilisation naïve de la formule de valorisation des call de Black-Scholes conduit à un résultat biaisé car la volatilité implicite dépend du niveau du strike. La valorisation correcte nécessite donc d’avoir lissé ou interpolé les points existants en une surface de volatilité continue.
Les deux équations précédentes, (6.2) et (6.3), sont centrales dans notre construction : elles nous montrent comment, en partant de la nappe des volatilités implicites, déduire la distribution risque neutre de ST à tout instant T. Or, connaître la distribution risque neutre de ST à tout instant T suffit naturellement à valoriser toutes les options européennes puisque ce prix est l’espérance actualisée MATHÉMATIQUES DES MARCHÉS FINANCIERS
109
des payoff. Nous pouvons achever notre raisonnement en fermant la boucle : connaître la distribution risque neutre de ST à tout instant T permet de valoriser tous les call et donc de calculer la nappe des volatilités implicites σ(K, T ) pour toute échéance T et tout strike K. En d’autres termes, nous venons de démontrer l’équivalence remarquable entre les assertions suivantes : 1. Connaître la nappe des volatilités implicites σ (K, T ) pour toute échéance T et tout strike K. 2. Connaître le prix des call quels qu’en soient l’échéance T et le strike K. 3. Connaître le prix de toutes les options européennes, de toute échéance et tout payoff. 4. Connaître, à tout instant T, la distribution risque neutre de ST . Concrètement, nous pouvons observer sur les marchés les prix de certains call et de certains put, dont nous avions vu que les nappes de volatilités implicites étaient identiques. L’exercice du quant qui souhaite en déduire le prix de toutes les autres options européennes consistera donc à bâtir une surface σ(K, T ) continue à partir des points de volatilité observés. Comme pour la construction de la courbe des taux étudiée au chapitre 1, la modélisation peut être conduite par des techniques d’interpolation par morceaux ou par l’utilisation d’une surface paramétrique. Dans tous les cas, une incertitude demeure sur les points de volatilité non observés, celle-ci étant d’autant plus importante que les volatilités implicites calculées seront loin des points observés. Les équivalences théoriques démontrées précédemment devront donc dans la pratique être modulées ; la réalité des faits est plus proche de la démarche suivante : – Nous connaissons quelques points de volatilité implicite σ(K, T ) par l’observation des transactions réalisées sur les call et les put. – Nous pouvons en inférer une nappe continue de volatilités implicites σ (K, T ) pour tout strike K et toute échéance T. – Les choix des volatilités implicites σ(K, T ) pour les strike extrêmes et les échéances lointaines sont entièrement arbitraires. – Nous pouvons calculer le prix de toutes les options européennes mais avec une incertitude d’autant plus forte que leur prix sera sensible aux événements extrêmes ou lointains. – Les prix des options à payoff discontinu qui nécessitent le calcul de dérivées, comme dans l’équation (6.2), sont également très dépendants du modèle choisi. Il convient de noter que le marché des options binaires est également devenu relativement liquide, les prix de ces options sont donc devenus observables. De ce fait, il est possible de déduire les distributions de probabilité des cours 110
Chapitre 6. Modèles de volatilité
directement à partir de l’observation du prix des options binaires plutôt qu’à partir des nappes de volatilités implicites des call et des put. Nous pouvons d’ores et déjà comptabiliser deux handicaps majeurs de la valorisation par les nappes de volatilités implicites. Le premier a été abordé au chapitre précédent : les volatilités implicites ne donnent pas un modèle cohérent d’évolution des actifs et constituent plutôt un artifice de calcul. Le second que nous venons de voir et qui est propre à toute modélisation est l’incertitude sur les prix que l’on pourra calculer en pratique. Cette incertitude est constitutive de ce que l’on appelle généralement le risque de modèle et donne lieu à des provisions spécifiques dans les comptes des banques. La juste évaluation de ce risque de modèle est un exercice difficile et par nature subjectif dans les hypothèses qui sont à utiliser. L’évaluation réalisée en pratique est donc toujours critiquable, soit par ceux qui pensent que les banques ne sont pas assez prudentes dans les réserves qu’elles constituent pour faire face au risque et à l’incertitude, soit par ceux qui pensent que ces mécanismes de provisionnement sont sur-évalués et nuisent à la compétitivité des banques et à l’efficacité des marchés. Terminons la section sur un troisième handicap. À part les options européennes, aucune des autres options listées ci-dessus ne peut être valorisée directement par les nappes de volatilités implicites. En effet, celles-ci nous renseignent sur la distribution de ST à tout instant T mais pas sur le chemin pris par le sousjacent pour y parvenir. Pour s’en convaincre, supposons qu’il n’existe que deux échéances T1 et T2 et considérons deux variables aléatoires X et Y qui suivent la même loi de probabilité. Imaginons deux situations : – Cas 1 : L’action vaut X à T = T1 et toujours X à T = T2 . – Cas 2 : L’action vaut X à T = T1 et Y à T = T2 . Dans les deux cas, les distributions de ST1 et de ST2 sont identiques puisque X et Y suivent par construction la même loi de probabilité. Ces deux modèles donneront donc les mêmes prix à toutes les options européennes et conduiront donc à la même nappe de volatilités implicites. Pourtant, ces deux modèles n’ont rien à voir entre eux : dans le premier l’action n’évolue pas entre T1 et T2 alors que dans le second la valeur de l’action à T1 est indépendante de sa valeur à T2 . Toutes les options dont la valeur terminale dépend conjointement de ST1 et ST2 auront un prix différent dans les deux cas, sauf hasard particulier. Il est ainsi impossible que l’on puisse déduire des nappes de volatilités implicites les prix des options non européennes, sauf à poser des hypothèses supplémentaires. La valorisation de ces options nécessite donc le développement de nouveaux modèles qui sont appelés modèles de volatilité car ils visent à établir un cadre universel décrivant la volatilité du sous-jacent et permettant de valoriser de façon cohérente tout type d’options. MATHÉMATIQUES DES MARCHÉS FINANCIERS
111
2
Modélisation de la volatilité*
Le modèle élaboré par Black et Scholes ne décrit pas correctement le comportement des sous-jacents tel qu’anticipé par les trader. Si tel était le cas, aucun smile ou skew de volatilité ne serait observé. Partant de ce constat, deux alternatives sont possibles : – remettre en cause fondamentalement le cadre gaussien, ce que nous ferons au dernier chapitre de cet ouvrage ; – conserver le cadre gaussien tout en modifiant l’hypothèse selon laquelle la volatilité des cours est constante. Les modèles de volatilité que nous allons présenter par la suite découlent de cette seconde alternative. Partons de l’équation de diffusion risque neutre de Black-Scholes désormais bien connue du lecteur : dSt = St × (rdt + σdWt )
(6.4)
Rappelons que, dans cette équation, dSt représente la quantité infinitésimale St+dt − St , autrement dit l’accroissement du cours du sous-jacent. Cet accroissement est guidé par deux composantes, la première St rdt est la dérive déterministe proportionnelle au taux sans risque ; la seconde St σdWt ≈ St σ (Wt+dt − Wt ) est la perturbation aléatoire proportionnelle à la volatilité σ. Il faut savoir que des difficultés techniques se cachent derrière cette équation d’apparence simple. La formulation rigoureuse de cette équation passe par la définition de l’intégration au sens d’Itô que le lecteur mathématicien peut approfondir dans [Le Gall 2011]. Remettre en cause l’idée que σ est une constante peut s’aborder de différentes manières. Il est tout d’abord possible de considérer que la volatilité est une fonction déterministe du temps t, du cours du sous-jacent St ou des deux à la fois. Dans ce cas, la fonction de volatilité résultante sera appelée la volatilité locale. Il est également possible de considérer que la variation de volatilité comporte une composante aléatoire qui lui est propre. Il s’agira alors de la famille des modèles de volatilité stochastique. Avant de présenter ces deux familles de modèles, il est important de rappeler que la modélisation de la volatilité peut répondre à des objectifs divers : prédiction de la volatilité future ; valorisation cohérente de toutes les familles d’options, des plus simples aux plus complexes ; aide à la couverture des risques générés par la détention ou la vente d’options ; explication des raisons économiques de l’évolution des produits financiers... Notre appréciation de la qualité et des limites des modèles présentés se fondera principalement sur leur capacité à valoriser et permettre une couverture efficace pour toutes les familles d’options. À ce 112
Chapitre 6. Modèles de volatilité
sujet, rappelons que nos modèles servent essentiellement à calculer des prix non arbitrables en phase avec les prix de marché et non à rendre compte du comportement historique ou prévisionnel des paramètres de marché. Notre angle d’analyse n’est cependant pas totalement incompatible avec les autres critères. En effet, un modèle sera généralement d’autant plus stable et cohérent qu’il se rapprochera de la réalité économique du phénomène modélisé. 2.1
La volatilité locale*
Les modèles de volatilité locale se fondent sur l’hypothèse que la volatilité est une fonction déterministe du temps et du cours du sous-jacent : la constante σ de l’équation (6.4) est remplacée par une fonction (t, St ) → σl (t, St ). L’équation de diffusion du sous-jacent devient alors : dSt = St × (rdt + σl (t, St )dWt )
(6.5)
C’est la fonction σl (.) que l’on appelle volatilité locale. Nous allons reprendre l’exemple des arbres binomiaux introduits lors des chapitres précédents afin d’illustrer plus en détail cette notion. Commençons par nous placer dans le cadre d’une action évoluant selon un processus lognormal classique de volatilité constante σ. En d’autres termes, la fonction de volatilité locale de ce modèle est la constante égale à σ. Notons classiquement r le taux sans risque. Nous avons vu que ce processus pouvait être analysé comme la limite d’un arbre binomial. Dans cet arbre, les probabilités de hausse (p) ou de baisse (1 − p) du cours de l’action ainsi que le pas de variation à la hausse (u) et à la baisse (d) sont les mêmes à chaque nœud de l’arbre. Ces paramètres sont entièrement déterminés par le taux sans risque r et la volatilité du processus σ ; rappelons en effet les formules : ⎧ √ r −σ2 /2 1 ⎪ dt ⎪ 2σ ⎨ p= 2+ √ u = eσ dt ⎪ ⎪ ⎩ d = 1/u
(6.6)
Imaginons maintenant que nous souhaitions modifier l’arbre pour que la volatilité locale puisse varier d’un nœud à l’autre. Chaque nœud étant associé à un couple (t, St ), cela traduit exactement l’hypothèse selon laquelle la volatilité dépend du temps et du niveau des actions. Malheureusement, nous ne pouvons pas simplement garder les formules rappelées ci-dessus pour u, p et d et changer la valeur de σ d’un nœud à l’autre : cela conduirait à un arbre non recombinant. MATHÉMATIQUES DES MARCHÉS FINANCIERS
113
En revanche, nous avons à chaque nœud trois paramètres, u, d et p, et trois contraintes dans l’arbre : il doit être recombinant, conduire à un environnement risque neutre, la volatilité à chaque nœud doit être σl (t, St ). La résolution des équations résultantes conduira donc à un arbre dont tous les paramètres varient à chaque nœud. Le passage d’une volatilité constante à une volatilité dépendant du temps et du cours de l’action se traduit ainsi par l’évolution de l’arbre régulier vers un arbre de structure plus souple tel que schématisé dans la figure 6.2.
F IGURE 6.2. Arbre binomial risque neutre dont le pas de temps est dt et dont les pas de variation et les probabilités de hausse et de baisse sont variables en fonction du temps t et du cours de l’action St . En conséquence, la volatilité locale à chaque nœud de l’arbre n’est plus constante, la forme de l’arbre n’est plus régulière. Le fait de pouvoir déformer ainsi l’arbre permet d’assouplir le modèle et de le rendre cohérent avec les nappes de volatilités implicites effectivement observées sur les marchés.
Parmi les avancées obtenues par cet assouplissement des hypothèses du modèle de Black-Scholes, il est à noter que la distribution des cours de l’action à un instant T déduite du modèle n’est plus nécessairement lognormale ; nous pouvons modéliser un spectre de distributions plus large. En particulier, il n’est plus exclu de modéliser les distributions de probabilité déduites des nappes de volatilités implicites observées sur les marché. En effet, [Dupire 1994] a montré qu’il existe une unique fonction de volatilité σl (t, St ) permettant d’assurer que le processus de diffusion risque neutre dSt = St × (rdt + σl (t, St )dWt ) soit cohérent avec les distributions implicites déduites des prix des call et des put. Si l’on revient à notre arbre binomial, cela 114
Chapitre 6. Modèles de volatilité
signifie qu’à chaque nœud de l’arbre, il existe un unique jeu de probabilités p(t, St ) et d’amplitudes de hausse et de baisse, u(t, St ) et d(t, St ), tel que l’arbre soit en mesure de valoriser correctement l’intégralité des put et des call. Cela établi, il reste à déterminer explicitement cette fonction σl (t, St ) ou, dans le cadre de notre arbre, ce jeu de paramètres p(t, St ), u(t, St ) et d(t, St ). [Dupire 1994], [Derman et Kani 1994] et [Rubinstein 1994] ont, pour ce faire, proposé des méthodes différentes dont la présentation ne sera pas faite ici. Ces méthodes ont toutefois en commun le fait qu’elles s’appuient sur une discrétisation du temps et du cours du sous-jacent par le biais d’arbres binomiaux ou trinomiaux. Supposons que nous soyons parvenus à construire notre arbre binomial en déduisant les paramètres p(t, St ), u(t, St ) et d(t, St ) d’un échantillon de prix de call et de put. Que nous apporte cette construction ? 1. Nous disposons d’un modèle d’évolution du sous-jacent qui rend compte des prix des put et des call observés sur le marché ; ce modèle est le même, quels que soient l’échéance et le strike de l’option à valoriser. Nous n’avons donc plus à choisir des paramètres de modèles différents pour valoriser différentes options. En outre, comme notre modèle permet de calculer le prix de tous les call et put observés sur le marché, il rend compte des distributions des cours du sous-jacent à toute échéance T, il permet donc de valoriser correctement toutes les options européennes. 2. Contrairement aux distributions déduites de la nappe des volatilités implicites, le modèle nous renseigne sur les probabilités qu’a le sous-jacent de suivre un chemin donné : nous connaissons en effet les probabilités de passage d’un nœud à l’autre et sommes donc en mesure de calculer la probabilité qu’a le sous-jacent d’aller d’un point A à un point B, comme l’illustre la figure 6.2. Il est donc possible d’utiliser ce modèle pour valoriser d’autres types d’options que les options européennes. 3. Le modèle ainsi construit est complet : il n’existe sous ce modèle qu’un seul prix non arbitrable pour tous les produits financiers. 4. Nous disposons d’un modèle permettant de comprendre la dynamique du smile, c’est-à-dire la façon dont se déforme le smile au cours du temps. Cet élément est important car il nous permet de calculer le delta des options de manière plus précise et cohérente que dans le cadre d’un modèle lognormal invalidé par la réalité des marchés. La couverture des portefeuilles d’options devrait ainsi gagner en efficacité.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
115
Encadré 6.1. Couverture statique, couverture dynamique.
Couvrir un produit financier revient à annuler les risques de variation de prix de ce produit par l’achat ou la vente d’autres produits financiers. Dans la configuration idéale, aucune perte n’est possible sur le portefeuille constitué du produit financier et de sa couverture. Deux cas de figure sont possibles. Dans le cas le plus simple mais aussi le plus rare, la couverture est mise en place une fois pour toute ; elle permet de neutraliser le risque jusqu’à l’échéance du produit couvert. On parle alors de couverture statique car la couverture mise en place restera la même durant toute la durée de vie du produit. Dans le cas le plus général, la couverture devra être modifiée régulièrement, c’est pourquoi on parle de couverture dynamique. Le delta hedge des options en est un exemple, il nécessite d’ajuster en permanence la couverture constituée de −Δ actions, où Δ est le delta de l’option. Une couverture dynamique n’est parfaitement efficace que si le temps de réaction du trader est infinitésimal et s’il n’y a pas de frais de transactions. Il est également important de souligner que la validité de la couverture dépend du modèle dans lequel nous nous plaçons : le Δ dépend du modèle de calcul utilisé ; la capacité à neutraliser entièrement le risque par le delta hedge n’est en outre pas acquise dans tous les modèles, cette technique de couverture est par exemple insuffisante dans les modèles à volatilité stochastique. Ainsi, les modèles ne servent pas uniquement à valoriser un produit, ils sous-tendent implicitement une stratégie de couverture dont le coût de mise en œuvre n’est autre que le prix issu du modèle.
Afin de rendre ce dernier point plus explicite, ouvrons une petite parenthèse sur le calcul du delta en présence d’un smile. Nous rappelons que le delta est la dérivée du prix de l’option par rapport au cours du sous-jacent. Ce paramètre est essentiel car il permet de définir la stratégie de couverture d’un portefeuille pour en neutraliser le risque, autant que faire se peut. Toutefois, en présence d’un smile, il n’est pas exclu que la volatilité implicite (σimp ) dépende du cours du sous-jacent. Dès lors, le delta calculé naïvement dans le cadre du modèle de Black-Scholes comme ∂Call/∂S sera inexact car nous aurons en réalité : Delta =
∂σimp (S) ∂Call ∂Call × + ∂S ∂σimp (S) ∂S
(6.7)
À cet effet, les modèles de volatilité locale permettent théoriquement de simuler les nappes de volatilités implicites pour différentes valeurs du sousjacent S. Au contraire, la simple observation des prix des call et des put ne permet de calculer la nappe des volatilités implicites que dans les conditions de marché actuelles (S = S0 ) : sans modélisation de la volatilité, nous ne pouvons pas calculer ∂σimp (S)/∂S. Les méthodes de détermination de la volatilité locale proposées par [Dupire 1994], [Derman et Kani 1994] et [Rubinstein 1994] semblent donc être la clef de toutes les questions soulevées par l’existence des nappes de volatilités implicites. Malheureusement, le bilan de ces méthodes n’est pas aussi favorable qu’il y paraît. 116
Chapitre 6. Modèles de volatilité
Tout d’abord, d’un point de vue pratique, il est à signaler que la détermination des volatilités locales à partir d’un échantillon de prix de call et de put nécessite le recours à des méthodes numériques susceptibles de générer des résultats instables et au sens économique douteux. Le lecteur intéressé pourra consulter [Rebonato 2004] pour une analyse approfondie de ces problèmes et leurs éventuelles résolutions. D’un point de vue théorique, l’ensemble des modèles de volatilité locale repose sur l’hypothèse selon laquelle la volatilité dépend uniquement du temps et du niveau du sous-jacent. [Dupire 1994] a montré que si cette hypothèse était vérifiée, alors il existe un unique modèle d’évolution des sous-jacents cohérent avec les prix des options européennes observés sur les marchés. En admettant l’hypothèse de la volatilité locale, puisqu’il n’existe qu’un seul modèle possible et que ce modèle est complet, nous pouvons démontrer qu’il n’existe qu’un seul prix possible pour toutes les options, même exotiques. Si, en revanche, notre hypothèse est mise en défaut, les modèles de volatilité locale ne constituent qu’un cas particulier, parmi d’autres, de modèles cohérents avec les prix des call et des put. Ceux-ci aboutiront aux mêmes prix pour les options européennes, dont nous avons vu qu’ils se déduisent sans ambiguïté des nappes de volatilités implicites, mais pourront conduire à des prix différents pour les options exotiques. De ce fait, les prix des options exotiques calculées sous le modèle de volatilité locale peuvent ne pas s’avérer cohérents avec les prix de marché. Enfin, [Hagan et al. 2002] ont montré que la dynamique du smile prédit par la volatilité locale de [Dupire 1994], [Derman et Kani 1994] et [Rubinstein 1994] pouvait aller à l’encontre des configurations observées sur les marchés. L’illustration de ce phénomène, présentée ci-dessous, constitue ainsi une remise en cause sérieuse de la vraisemblance de l’hypothèse des modèles de volatilité locale. Les études empiriques sur la dynamique du smile ont pu montrer que ce dernier évolue schématiquement entre deux comportements limites lorsque le niveau du sous-jacent varie. Selon le premier comportement, la volatilité implicite ne dépend que du niveau du strike. Dans cette configuration, le smile est insensible à toute variation du cours du sous-jacent. Selon le second comportement, la volatilité implicite est une fonction de la proximité entre le cours du sous-jacent et le strike. Dans ce cas, le smile aura tendance à suivre l’évolution du cours du sous-jacent. Ces deux comportements limites sont présentés en figure 6.3. La dynamique réelle du smile se situe quelque part entre ces deux comportements limites. Or, le modèle de la volatilité locale que nous avons décrit impose une dynamique du smile qui ne s’inscrit pas dans le cadre des comportements observés empiriquement. [Hagan et al. 2002] montrent par exemple que le smile déduit MATHÉMATIQUES DES MARCHÉS FINANCIERS
117
du modèle de volatilité locale aura tendance à se déplacer vers la droite lorsque le cours du sous-jacent diminue alors que les études empiriques montrent le phénomène inverse.
(a) Smile dépendant uniquement du strike
(b) Smile dépendant de la proximité entre le cours du sous-jacent et le strike
(c) Dynamique du smile déduite de la volatilité locale F IGURE 6.3. La fonction de volatilité locale de [Dupire 1994], [Derman et Kani 1994] et [Rubinstein 1994] impose que le smile se déplace à l’opposé du cours du sous-jacent (graphique (c)) ce qui est incohérent avec la dynamique des nappes de volatilités observées en pratique. Cette dynamique se situe en général entre les deux comportements limites présentés en graphiques (a) et (b) : dans le graphique (a), le smile est indépendant du cours du sous-jacent ; alors que dans le graphique (b) le smile suit le cours du sous-jacent.
Ces résultats montrent que la dynamique du smile induite par la volatilité locale de [Dupire 1994], [Derman et Kani 1994] et [Rubinstein 1994] est incompatible avec certaines caractéristiques observées généralement et plus particulièrement sur le marché des options sur actions et sur devises. Par ailleurs, d’autres études affirment que la volatilité locale peut anticiper un aplatissement du smile ce qui est de nature à contredire l’observation de sa persistance au fil du temps. Ces éléments revêtent une importance particulière pour le trader qui souhaite couvrir son portefeuille d’options. En effet, si l’impact de la variation du cours du sousjacent sur la forme du smile est erroné, l’équation (6.7) conduira à un calcul de delta faux et donc à une mauvaise couverture. 118
Chapitre 6. Modèles de volatilité
En synthèse, la détermination d’une fonction de volatilité locale à partir des prix des call et des put conduit à des résultats séduisants et encore très utilisés par de nombreux praticiens mais dont la pertinence semble remise en cause par l’invalidité de l’hypothèse de base : la dépendance de la volatilité aux seuls paramètres que sont le temps et le cours du sous-jacent. Cette hypothèse conduit le modèle à une dynamique des prix éloignée de la réalité. Nous avons présenté les modèles de volatilité locale déduit des nappes de volatilités implicites ; il existe d’autres modèles de volatilité locale pour lesquelles la fonction σl (t, St ) n’est pas intégralement déduite des données de marché mais paramétrée à partir d’une fonction prédéterminée. Le choix de la fonction σl (t, St ) est alors généralement dicté par des considérations liées au comportement historique de la volatilité et à la simplicité de résolution des formules de valorisation en découlant. Parmi les modèles de ce type, les modèles CEV (pour constant elasticity of variance) sont les plus répandus mais ne seront pas développés ici. Le lecteur intéressé pourra trouver plus de détails dans [Rebonato 2004]. 2.2
La volatilité stochastique*
Dans les modèles de volatilité locale, la seule composante aléatoire dérive de l’incertitude liée à l’évolution du sous-jacent : dans l’équation (6.5), toute la variabilité vient du seul facteur aléatoire Wt . Au contraire, dans les modèles à volatilité stochastique que nous aborderons dans la présente section, l’évolution de la volatilité est gouvernée par un nouveau facteur aléatoire. Donnons-nous donc Zt un mouvement brownien indépendant du mouvement brownien Wt . Partant des deux facteurs aléatoires indépendants Wt et Zt , les modèles d’évolution d’un sous-jacent St dits « à volatilité stochastique » sont généralement spécifiés par les équations suivantes : ⎧ ⎨ dSt = rSt dt + σt St dWt (6.8) ⎩ dσt = p(.)dt + q(.) ρdWt + 1 − ρ2 dZt Ces formules nécessitent une explication. La première ligne est l’équation classique de diffusion du sous-jacent S. La seconde ligne nous indique que contrairement au modèle de Black-Scholes, la volatilité σt n’est plus constante mais fait aussi l’objet d’une diffusion de dérive p(.) et de volatilité q(.). La fonction q(.) est donc la volatilité de la volatilité. Les deux fonctions p(.) et q(.) sont pour l’instant exprimées sous une forme très générale, nous verrons par la suite un exemple concret d’un tel modèle. La composante stochastique de MATHÉMATIQUES DES MARCHÉS FINANCIERS
119
l’évolution de la volatilité provient du terme aléatoire ρdWt + 1 − ρ2 dZt qui est un mouvement brownien standard constitué de deux mouvements browniens standard indépendants. À l’image de ce que nous avions vu lors du chapitre 2, ρ représente la corrélation entre le cours du sous-jacent et sa volatilité : il décrit la propension qu’ont ces deux variables à évoluer de manière conjointe. Par exemple, si ρ = 1, ρdWt + 1 − ρ2 dZt devient dWt et les deux processus St et σt seront liés de manière déterministe ; si ρ = 0, ρdWt + 1 − ρ2 dZt devient dZt et les deux processus St et σt seront indépendants ; enfin, si ρ = −1, ρdWt + 1 − ρ2 dZt devient −dWt et les deux processus évoluent en sens contraire. Les modèles à volatilité stochastique comportent une différence de taille par rapport aux modèles à volatilité locale et au modèle de Black-Scholes : la volatilité devient une source d’incertitude au même titre que le cours du sousjacent. Les arguments employés au chapitre 5 qui assuraient l’unicité du prix d’une option ne tiennent plus. En effet, nous avions montré au chapitre 5 que, dans le cadre du modèle de Black-Scholes, il était possible de neutraliser le risque d’un portefeuille Π grâce au delta hedge. Cette technique consiste simplement à détenir à chaque instant, outre le portefeuille Π, la quantité −∂Π(S)/∂S de sous-jacent S. La capacité à neutraliser entièrement le risque nous assure l’unicité du prix puisque qu’un portefeuille sans risque ne peut évoluer, en l’absence d’opportunité d’arbitrage, qu’au taux sans risque r : c’est la complétude du modèle. L’ajout d’une nouvelle composante aléatoire rend caduque cette construction. En effet, la volatilité ne s’échangeant pas sur les marchés, il n’est pas possible de l’acheter et de la vendre pour annuler le risque qu’elle engendre sur le prix des options. De ce fait, il n’est plus possible de construire un portefeuille sans risque à partir du seul sous-jacent ; le modèle n’est plus complet et le prix de tout portefeuille devient théoriquement sensible aux préférences des acheteurs et vendeurs. Cette perte de la complétude a deux impacts : – Les modèles à volatilité stochastiques définis par les équations (6.8) permettront bien de calculer un prix pour les différents produits financiers ; en revanche, ces modèles n’excluent pas que d’autres prix soient tout aussi valides au sens du non-arbitrage. – La couverture des options nécessite le recours à d’autres options. En d’autres termes, pour couvrir le risque d’un portefeuille il faudra non seulement neutraliser son delta mais aussi neutraliser le risque relatif à la volatilité, ce qui peut être fait par l’utilisation d’autres options. Les équations (6.8) que nous avons présentées décrivent un modèle très général puisque les fonctions p(.) et q(.) n’ont pas été spécifiées à ce stade. Le choix de ces fonctions répond en général à des critères d’ordres différents. 120
Chapitre 6. Modèles de volatilité
En premier lieu, elles doivent rendre le modèle cohérent avec le comportement réel du cours du sous-jacent. En particulier, il est souvent requis que la diffusion de la volatilité comporte une contrainte de retour vers une situation d’équilibre. Cette contrainte est importante car elle garantit que la volatilité aura tendance à rester confinée dans un intervalle raisonnable et conforme à l’intuition et l’observation des trader. En second lieu, les modèles dont les paramètres ne dépendent pas du temps pourront également être préférés. En effet, la forme des smile observés sur les marchés depuis 1987 est relativement stable. Permettre que les paramètres modélisant son évolution dépendent du temps est de nature à générer des formes de smile structurellement différentes dans le futur ce qui est incohérent avec la réalité. En outre, le choix des fonctions p(.) et q(.) est généralement effectué afin de permettre un calcul simple du prix des options. Ces modèles ont en général vocation à être paramétrés afin de s’approcher au plus près des prix d’options observées sur le marché. Cette étape nécessite le recours à des méthodes d’optimisation numérique qui seront d’autant plus efficaces que le prix des options pourra s’exprimer directement en fonction des paramètres que l’on cherche à estimer. Cette contrainte de simplicité est fréquemment critiquée dans la littérature spécialisée car elle est susceptible de pousser à des choix dont la principale motivation est la facilité de mise en œuvre informatique du modèle, au détriment de sa vraisemblance économique. Parmi les modèles à volatilité stochastique les plus populaires nous allons maintenant décrire le modèle de [Heston 1993] défini par les équations suivantes : ⎧ ⎨ dS = rSt dt + σt St dWt ⎩ d(σ2 ) = λ(σ2 − σ2 )dt + ησt ρdWt + 1 − ρ2 dZt t
(6.9)
t
Point notable mais sans enjeu théorique, contrairement au modèle général présenté en (6.8), le modèle de Heston ne modélise pas directement la volatilité du sous-jacent mais sa variance σ2 qui est simplement le carré de la volatilité. Le terme λ(σ2 − σt2 ) qui gouverne la dérive permet d’assurer le retour vers la situation d’équilibre. En effet : – Si, au temps t, σt vaut σ, la dérive de la variance λ(σ2 − σt2 )dt sera nulle : la volatilité restera constante en moyenne statistique. – Si, au temps t, σt est supérieur σ, la dérive de la variance λ(σ2 − σt2 )dt sera négative : la volatilité diminuera en moyenne statistique. – Si, au temps t, σt est inférieur σ, la dérive de la variance λ(σ2 − σt2 )dt sera positive : la volatilité augmentera en moyenne statistique. MATHÉMATIQUES DES MARCHÉS FINANCIERS
121
La formule λ(σ2 − σt2 ) exerce bien une force de rappel vers l’équilibre σ. Le paramètre λ rend alors compte de la force du retour vers σ : plus le paramètre est élevé, plus le retour est rapide. Par ailleurs, le modèle de Heston admet une formule analytique permettant de calculer directement le prix des options, ce qui répond à la contrainte de simplicité évoquée plus haut. Le premier objectif d’un modèle de volatilité est de valoriser les options les plus simples ce qui revient à reconstituer la forme du smile de volatilité. Avant d’évoquer la performance de ce modèle à cet égard, étudions l’impact de chacun des paramètres λ, σ, η et ρ sur la forme du smile. Comme le montre la figure 6.4, σ influe sur le niveau absolu des volatilités implicites ce qui peut sembler intuitif puisque par construction, σ est la valeur d’équilibre de la volatilité. La corrélation ρ définit la pente du smile : sous-jacent et volatilité évolueront dans le même sens pour une corrélation positive et dans le sens opposé pour une corrélation négative. Là encore, le phénomène est intuitif car plus ρ est élevé, plus le lien entre volatilité et sous-jacent est fort, plus on s’attend à ce que la volatilité augmente lorsque le cours du sous-jacent augmente. Les paramètres η et λ jouent sur la convexité du smile. Plus la volatilité de la volatilité η sera grande, plus les valeurs extrêmes de volatilité seront probables ; ainsi que nous l’avons illustré au chapitre précédent, cela conduit à amplifier la convexité de la courbe des volatilités implicites. Enfin, plus λ sera élevé, plus la variance aura tendance à revenir rapidement vers sa position d’équilibre. Ainsi, les valeurs extrêmes de la volatilité sont d’autant moins probables que λ est élevé, ce qui tend à aplatir le smile. Les paramètres du modèle de Heston permettent, en théorie, de retrouver toutes les formes de courbes de volatilité implicite. En pratique, il s’avère qu’il est difficile de reproduire un smile très accentué pour les échéances les plus courtes tout en maintenant les paramètres indépendants du temps. D’autres modèles, comme le modèle SABR (voir [Hagan et al. 2002]), permettent néanmoins de corriger cela, moyennant d’autres faiblesses. Cette incompatibilité est due au principe même des modèles de volatilité stochastique : la volatilité et le cours du sous-jacent étant diffusés continûment, il leur est difficile de sortir du cadre gaussien, c’est-à-dire de prévoir une forte évolution de la volatilité ou du sous-jacent dans un laps de temps très limité. L’évolution des modèles de volatilité stochastique passe donc par un relâchement du cadre gaussien que nous étudierons au chapitre 9. En conclusion, retenons que la valorisation des options européennes nécessite de connaître la distribution des cours du sous-jacent à date d’échéance de l’option alors que la valorisation des autres options nécessite de connaître non seulement la distribution à date d’échéance mais aussi les trajectoires empruntées par le sous-jacent avant la date d’échéance. Nous pouvons retourner notre point de vue 122
Chapitre 6. Modèles de volatilité
(a) Volatilité à l’équilibre (σ)
(b) Corrélation (ρ)
(c) Volatilité de la volatilité (η)
(d) Force de rappel (λ)
F IGURE 6.4. Smile générés par le modèle de Heston pour différentes valeurs des paramètres du modèle. Des prix d’options de strike différents sont calculés par le modèle, puis la volatilité implicite en est déduite pour construire les courbes de smile. L’impact des différents paramètres sur la forme du smile peut être représenté intuitivement, ce qui est l’une des forces du modèle.
et noter que le prix des options européennes nous renseigne sur la distribution du cours du sous-jacent à date d’échéance alors que le prix des autres options nous renseigne également sur les probabilités des trajectoires du sous-jacent avant la date d’échéance. Ce point est important pour comprendre les choix qui s’imposent en matière de calibration des modèles. Rappelons qu’un modèle paramétrique est un modèle spécifié par un jeu de paramètres comme le modèle de Heston de l’équation (6.9) qui repose sur r, ρ, σ, η, λ. Pour ces derniers, il est nécessaire de choisir la valeur numérique des paramètres : c’est ce que l’on appelle la calibration. Concrètement, les paramètres seront choisis pour que les prix du modèle soient les plus proches possible des prix des options observées sur le marché. Le choix des options utilisées pour la calibration revêt alors une importance primordiale pour s’assurer que les informations anticipées par le marché sont bien prises en compte dans le MATHÉMATIQUES DES MARCHÉS FINANCIERS
123
modèle. Par exemple, un modèle destiné à valoriser des options non européennes calibré sur des options européennes a toutes les chances de donner des prix éloignés des consensus de marché : cela revient à n’utiliser que l’information sur les probabilités à date d’échéance alors que le cœur de la valorisation des options exotiques est la modélisation des trajectoires du sous-jacent avant la date d’échéance.
124
Chapitre 6. Modèles de volatilité
7 Méthodes numériques Les théories mathématiques nous conduisent vers des solutions parfois très abstraites. Or, un trader est peu intéressé de savoir que le prix de son option est l’unique solution d’une équation aux dérivées partielles avec conditions aux limites : il veut juste un prix numérique et fiable. Il est tout à fait passionnant de découvrir que le prix d’un produit dérivé est une martingale sous une mesure risque neutre fictive, mais encore faut-il pouvoir répondre à la question : combien le produit dérivé coûte-t-il ? C’est ici qu’interviennent les méthodes numériques ; couramment utilisées par les physiciens et les ingénieurs, elles permettent de traduire numériquement des résultats mathématiques. Nous présenterons deux des méthodes numériques les plus utiles en finance : les simulations Monte-Carlo puis les méthodes des différences finies. Les premières permettent de calculer les prix qui s’expriment sous la forme d’espérance mathématique, ce qui est bien le cas en finance puisque nous avons vu au chapitre 4 que les prix des produits financiers sont l’espérance de leurs valeurs futures actualisées sous la mesure risque neutre. Les méthodes des différences finies permettent quant à elles de résoudre numériquement des équations aux dérivées partielles, comme l’équation de Black-Scholes qui régit l’évolution des produits financiers. Les méthodes de résolution par les arbres ayant déjà été évoquées aux chapitres précédents, elles ne seront pas abordées à nouveau. Nous verrons que les deux méthodes présentées reposent sur des principes simples. En revanche, leur mise en œuvre concrète peut se révéler nettement plus compliquée et ouvre la voie à de nombreux approfondissements.
1 1.1
Simulations de Monte-Carlo Principe
Lorsque l’on tire un très grand nombre de fois une pièce équilibrée, chaque face apparaît en moyenne une fois sur deux. Si l’on compte par exemple Pn le nombre de piles apparus après n lancers de dés, nous avons Pn /n → 1/2 : le taux de piles constaté converge vers 1/2. D’une manière générale, la moyenne d’une variable aléatoire peut être numériquement approchée en réalisant des simulations aléatoires de la variable et en calculant la moyenne des tirages. C’est cette tautologie qui est à la base des méthodes dites de « Monte-Carlo ». MonteCarlo est le quartier de la principauté de Monaco qui abrite le fameux casino éponyme ; il a donné son nom à la technique numérique que nous allons détailler dans la présente section car, avant l’ordinateur, les tirages de nombres aléatoires étaient réalisés par des moyens physiques : dés, roulette, jeu de carte, etc. Naturellement, la méthode que nous venons de décrire n’est pas très utile pour calculer la moyenne, déjà connue, du nombre de piles dans un lancer de pièces. Elle est en revanche très utile pour calculer des moyennes, espérances ou intégrales plus complexes pour lesquelles nous n’avons pas de solution exacte connue. Supposons par exemple que nous voulions connaître la valeur de π (π = 3,1415...). Une méthode, peu efficace mais très simple, serait de tirer aléatoirement des points dans un carré. Le nombre moyen de points qui sont dans le cercle inscrit au carré (le cercle placé au centre du carré qui touche les quatre côtés) est alors π/4 ; c’est le rapport de l’aire du cercle (πR2 si R est le rayon du cercle) et de l’aire du carré (2R × 2R = 4R2 pour un carré dont le cercle inscrit est de rayon R, le lecteur sceptique peut faire un dessin pour s’en convaincre). La démarche est exactement la même pour la valorisation des produits financiers. Nous avons vu au chapitre 4 que, sous l’hypothèse du non-arbitrage, il existe une mesure de probabilité sous laquelle les prix actualisés des actifs sont des martingales. L’une des conséquences de cette propriété est que le prix aujourd’hui de n’importe quel actif est la moyenne de ses prix futurs actualisés sous la mesure risque neutre. Or, les prix à l’échéance du produit financier que l’on souhaite valoriser sont en général aisément calculables. Ce sont des fonctions pré-définies d’un actif sous-jacent. Par exemple, dans le cas d’un call, nous avons vu que la valeur du call à échéance était, par définition, max(ST − K; 0) où ST est le prix de l’actif sous-jacent à l’échéance T et K le strike de l’option. Le prix aujourd’hui du call n’est autre que la valeur moyenne actualisée de cette valeur 126
Chapitre 7. Méthodes numériques
terminale lorsque l’actif St évolue selon une probabilité risque neutre. En notant P le prix du call, r le taux sans risque continu et E(.) l’espérance mathématique, cette phrase se traduit par l’équation : P = E max(ST − K, 0)e−rT (7.1) La résolution numérique de cette équation par la méthode de Monte-Carlo consiste simplement à réaliser des tirages aléatoires de ST , à calculer la valeur terminale actualisée de l’option max(ST − K, 0)e−rT et à faire la moyenne des résultats obtenus à travers tous les tirages. Dans un modèle de Black-Scholes simple, ST suit sous la mesure √ risque neutre une loi lognormale de dérive (r − σ2 /2) × T et de volatilité σ T. Dans les modèles de volatilités plus élaborés que nous avons abordés au chapitre précédent, il n’existe généralement pas de caractérisation simple de la loi de probabilité risque neutre de ST . En revanche, nous connaissons l’équation de diffusion de l’actif, par exemple dans le modèle de Heston : ⎧ ⎨ dS = rSt dt + σt St dWt (7.2) ⎩ d(σ2 ) = λ(σ2 − σ2 )dt + ησt ρdWt + 1 − ρ2 dZt t
t
Dans cette équation r, λ, σ, η et ρ sont des paramètres du modèle (r est toujours le taux sans risque) et Wt et Zt sont deux mouvements browniens. Le calcul du prix d’un call dans le modèle de Heston consiste donc à : 1. Simuler les trajectoires des deux mouvements brownien Wt et Zt . Cette simulation se fait selon un pas de temps discret dt. De cette manière, les accroissements dWt et dZt sur ce √ pas de temps sont simulés par une loi normale centrée et de volatilité dt. 2. En déduire, pour chaque simulation, la trajectoire de l’actif St et de la variance σt2 . Les accroissements des mouvements browniens dWt et dZt ayant été calculés à l’étape précédente, il suffit à cette étape d’appliquer l’équation (7.2). 3. En déduire pour chaque simulation la valeur de ST . 4. Évaluer pour chaque simulation la valeur terminale actualisée du call, explicitée par l’équation (7.1) 5. Calculer la moyenne des résultats. La méthode de Monte-Carlo consiste donc simplement à simuler les différents événements aléatoires et à en déduire les moyennes. Cette simplicité conceptuelle, qui se traduit en simplicité de programmation et de mise en œuvre, est un atout MATHÉMATIQUES DES MARCHÉS FINANCIERS
127
F IGURE 7.1. Mise en œuvre de la méthode de Monte-Carlo pour valoriser un call de strike 100 : chaque point représente le résultat de la simulation de la trajectoire d’un cours selon le modèle de Heston. Si le cours simulé est en dessous du strike de l’option, le gain réalisé est nul, sinon, le gain est donné par la différence actualisée entre le cours simulé et le strike. Le gain moyen sur les 100 simulations effectuées est 10,58 e alors que, compte tenu des paramètres choisis, le prix modèle exact est 11,69 e. Une meilleure précision aurait été obtenue avec plus de simulations.
certain de la méthode. Elle s’adapte facilement à de nombreuses situations et s’implémente sans peine même dans des modèles complexes comme les modèles à volatilité stochastique. Dans la diversité des options financières que nous avions présentées au précédent chapitre, seules les options américaines posent problème pour la méthode de Monte-Carlo. En effet, pour toutes les autres, aussi exotiques qu’elles puissent paraître, la simulation de la trajectoire de l’action pendant toute la durée de vie du produit permet de savoir exactement quelle sera la valeur terminale du produit. Nous laissons le soin au lecteur de le vérifier. Pour les options américaines, un problème se pose car cette option implique une décision de la part de son détenteur : à quel moment choisira-t-il d’exercer l’option ? Quel est le moment optimal d’exercice de l’option ? Ce problème n’est pas insoluble et peut même être résolu dans le cadre de simulations Monte-Carlo (cf. [Longstaff et Schwartz 2001]). Nous n’approfondirons pas cette méthode de valorisation des options américaines ; nous étudierons cependant d’autres utilisations des simulations Monte-Carlo qui suivent une démarche similaire mais un objectif différent : l’identification de stratégies de couverture optimales.
128
Chapitre 7. Méthodes numériques
1.2
Couvertures Monte-Carlo*
Les tirages aléatoires du graphique 7.1 conduisent à des résultats très dispersés, le payoff du call est nul dans la moitié des cas et monte jusqu’à plus de 85 e dans l’une des 100 simulations. Ces résultats sont censés reproduire les différents cas possibles : la dispersion du résultat des tirages reflète directement le risque pris par les trader sur les positions valorisées. Comme nous l’avions évoqué aux chapitres précédents, la réduction du risque passe par les stratégies de couverture, au sein desquelles le delta hedge occupe une place prépondérante. Dans le modèle de Black-Scholes, la protection par delta hedge est en théorie parfaite, le portefeuille couvert ne présente aucun risque. Rappelons que la couverture par delta hedge consiste à détenir à tout instant −Δt actions sousjacentes où Δt = ∂Πt (S)/∂S est la dérivée du prix du portefeuille par rapport au sous-jacent. La mise en pratique est moins idéale puisque la couverture ne peut pas être ajustée continûment mais uniquement à intervalles réguliers. La stratégie laisse donc un risque résiduel que l’on peut parfaitement simuler par la méthode de Monte-Carlo. Concrètement, pour étudier la couverture d’un call de strike K, nous pouvons procéder de la manière suivante : – Pour chaque simulation, nous tirons aléatoirement l’évolution de l’actif St1 , St2 , St3 ... à intervalles choisis et selon le modèle spécifié. – À chaque ti , nous calculons le Δti du portefeuille couvert et réajustons la couverture. Ce réajustement suppose de réinvestir −(Δti − Δti−1 ) × Sti dans la couverture. – À l’échéance tn de l’option, nous liquidons la couverture et exerçons l’option, pour un montant de max(Stn − K; 0) − Δtn−1 × Stn . Ce dernier flux diminué de la somme capitalisée des coûts de réajustements de couverture correspond exactement au résultat de la stratégie. Lorsque la couverture est parfaite, le résultat de la stratégie ainsi calculé est le même dans toutes les simulations, il n’y a pas de risque. Ce résultat actualisé correspond donc au gain réalisé grâce à la vente du call, autrement dit au prix du call. Dans le cas d’une couverture imparfaite, le résultat de la stratégie dépend de la simulation et le prix du call peut être estimé comme la moyenne des résultats actualisés. La démarche est présentée dans le graphique 7.2. Sans être parfaites, les techniques de couvertures réduisent significativement le risque pris par les trader ; elles permettent en parallèle de réduire la dispersion des tirages MonteCarlo et donc d’assurer une meilleure précision des résultats numériques. Cependant, l’approche que nous venons de suivre possède un défaut majeur : elle requiert de connaître le delta, et donc le prix, alors que nos simulations MonteCarlo avaient justement pour but premier de calculer ce prix et ce delta. Comme MATHÉMATIQUES DES MARCHÉS FINANCIERS
129
F IGURE 7.2. Mise en œuvre de la méthode de Monte-Carlo pour valoriser un call couvert. Les simulations sont réalisées dans les mêmes conditions que la figure 7.1 : la couverture ne modifie pas le prix théorique du portefeuille mais réduit fortement le risque total et donc la dispersion des tirages. Ce risque est mesuré par l’écart-type des tirages. L’impossibilité de couvrir continûment le call dans le modèle de Black-Scholes génère un risque résiduel sur le portefeuille couvert. Il est toutefois moins important que dans le modèle de Heston où le risque est issu de deux sources d’aléa distinctes dont une ne peut pas être couverte par le delta hedge. Sur le graphique du milieu, on constate qu’un delta calculé avec le mauvais modèle augmente le risque par rapport au calcul correct du delta (graphique du haut), sans toutefois remettre en cause substantiellement l’efficacité de la couverture. De manière générale, l’utilisation d’un delta calculé avec le modèle de Black-Scholes restera à peu près efficace dans un modèle quasi-gaussien, mais elle deviendra d’autant plus impuissante que le modèle d’évolution du sous-jacent s’éloignera de ce cadre.
l’a montré [Potters et al. 2001], il est bien possible d’utiliser les simulations MonteCarlo pour calculer en même temps le prix et le hedge optimal. Intéressons-nous à cette technique de détermination du prix et du hedge optimal par simulations Monte-Carlo. Supposons dans un premier temps connaître à tout instant le prix Pt (St ) d’un call. Nous allons chercher la couverture qui minimise le risque pris ; plus précisément, nous souhaitons minimiser la variance des simulations MonteCarlo. D’autres mesures de risque auraient pu être envisagées, mais nous nous restreindrons ici à associer le risque à la volatilité. Comme pour le delta hedge, la technique de couverture étudiée consiste simplement en la détention au temps t d’une certaine proportion ht de l’action sous-jacente au call (h sigle pour hedge). La quantité de hedge détenue dépendra naturellement de la valeur de l’action, aussi ht est une fonction de St ; c’est cette fonction ht (St ) que nous souhaitons optimale pour minimiser le risque. 130
Chapitre 7. Méthodes numériques
Entre t et t + dt, en négligeant les taux d’intérêt, l’évolution de la valeur de notre portefeuille est donnée par la formule : Pt+dt (St+dt ) − Pt (St ) + ht (St ) × (St+dt − St )
(7.3)
En effet, notre gain est constitué de l’évolution du prix du call et de l’évolution du prix de l’action proportionnellement à la quantité détenue. Nous nous intéressons ici à la variation de valeur de nos actifs et non aux flux d’entrée/sortie d’argent suite aux réajustements de couverture. Les deux visions conduisent au même résultat final puisqu’après liquidation du portefeuille, la somme des flux générés ne peut être que la variation de valeur du portefeuille. L’avantage de la vision retenue ici est qu’elle nous permet de capter à chaque instant les variations de valeur du call alors que, dans la vision par flux présentée précédemment, l’impact du call ne se manifeste qu’à échéance, au moment de son exercice. Conformément à notre objectif, la fonction ht (St ) est choisie pour minimiser la variance du portefeuille couvert ; cette variance s’estime comme la moyenne à travers toutes les simulations Monte-Carlo du carré de (7.3). En notant N le nombre de tirages Monte-Carlo, cette dernière phrase se traduit par l’équation : 1 N
∑
( Pt+dt (St+dt ) − Pt (St ) + ht (St ) × (St+dt − St ))2
(7.4)
Les N tirages de St et St+dt
Ainsi, à chaque instant t, la fonction ht (.) est choisie pour minimiser l’équation précédente. Cette construction conduit à une fonction ht (.) qui n’est pas très différente du delta de l’option. Elle représente en effet la sensibilité moyenne du prix de l’option aux variations du cours de l’action sur le pas de temps dt. Dans les modèles que nous avons vus jusqu’ici, ht (St ) converge vers Δt (St ) lorsque dt tend vers 0. Cependant, dans les modèles qui prévoient des variations de St plus brutales, ht (St ) et Δt (St ) divergent, même lorsque le pas de temps s’approche de 0. En effet, le delta capte la sensibilité à une variation infinitésimale du cours alors que le hedge ht (.) capte une sensibilité moyenne à travers toutes les variations possibles sur le pas de temps dt : si ces variations dSt restent infinitésimales, les deux notions seront identiques mais si dSt peut être grande même sur un petit pas de temps, les deux sensibilités seront différentes. Jusqu’ici nous avons résolu la moité du problème puisque nous avons calculé le hedge du portefeuille mais pas encore son prix. Commençons par le cas où il n’y a qu’un seul pas de temps T = dt et numérotons par l’index i nos N tirages MATHÉMATIQUES DES MARCHÉS FINANCIERS
131
Monte-Carlo. Le hedge h0 (S0 ) est choisi pour minimiser la quantité suivante, pour peu que nous ayons trouvé P0 (S0 ) : 1 N
N
∑
i =1
PT (SiT ) − P0 (S0 ) + h0 (S0 ) × (SiT − S0 )
2
(7.5)
Puisque nous travaillons sous la mesure risque neutre et que nous avons négligé les taux d’intérêt, le prix du call au temps t = 0 est nécessairement la moyenne des prix en T. Notons un instant Π ce prix. On peut démontrer mathématiquement que l’équation (7.5) est minimale lorsque P0 (S0 ) = Π, cette propriété étant vraie quelle que soit la valeur de h0 (S0 ). Il est ainsi remarquable que le prix du call Π soit également la quantité qui minimise la variance du portefeuille couvert 1 . L’utilisation d’une mesure autre que la variance pour évaluer le risque n’aurait pas permis un tel raccourci. Ainsi, dans le cadre de notre étude, les deux quantités P0 (S0 ) et h0 (S0 ) peuvent être cherchées en un seul passage, en cherchant le minimum d’une même équation. Cette propriété est vraie à chaque instant t de la simulation : le prix et le hedge optimal peuvent tous deux être calculés par minimisation de l’équation (7.4). En s’attardant sur cette équation, le lecteur remarquera que cette démarche nécessite de connaître le prix à l’instant t + dt. Ce n’est pas un problème, nous connaissons PT (.) à l’échéance de l’option : il s’agit par définition du payoff du call. Nous pouvons donc calculer PT −dt et h T −dt par minimisation de (7.4) au temps T − dt. Après ce calcul, nous connaissons PT −dt et pouvons poursuivre au temps T − 2dt, et ainsi de suite jusqu’à t = 0. En partant de la fin, nous pouvons ainsi remonter le temps pour calculer à chaque instant t le prix du call et son hedge optimal. Les résultats de l’application de cette méthode, dans les mêmes conditions que celles du graphique 7.2, sont récapitulés dans le tableau ci-après : Monte-Carlo Simple
Monte-Carlo avec hedge optimal
11,69
Prix modèle exact
1
Monte-Carlo avec hedge Black-Scholes
Prix simulé
10,58
11,36
11,05
Ecart-type résiduel du portefeuille
18,53
1,70
1,46
Le lecteur mathématicien notera que la quantité P0 (S0 ) qui minimise l’équation (7.5) est, lorsque N est infini, E( PT ) + h0 (S0 ) × ( E(ST ) − S0 ). Or, sous la mesure risque neutre et sans taux d’intérêt, St est une martingale et E(ST ) = S0 .
132
Chapitre 7. Méthodes numériques
Dans [Potters et al. 2001], les auteurs appliquent cette même méthode en sortant du cadre risque neutre, cela n’est possible que parce que le hedge neutralise partiellement les effets des taux de rendement ; nous n’entrerons pas dans les détails de cette discussion. Cela amène à une alternative remarquable offerte par les méthodes Monte-Carlo : l’utilisation de données historiques réelles plutôt que de données simulées. Cette alternative est très utile pour sortir des modélisations théoriques et étudier les produits financiers et les modèles sur des données concrètes. La figure 7.3 illustre ce type d’application.
F IGURE 7.3. Calcul du prix d’un call à partir de l’historique des cours du Dow Jones. Dix fenêtres d’historiques sont utilisées, chacune servant à la reconstitution de 100 chemins d’évolution du Dow Jones (1 000 simulations en tout). Dans chacune des fenêtres, le prix du call et son hedge sont calculés par minimisation à chaque instant de la variance du portefeuille couvert. La volatilité du portefeuille couvert présentée est estimée sur toute la durée de vie du call. Elle est calculée de deux manières : dans la première, la fonction de hedge optimale est directement utilisée sur l’échantillon qui a servi à sa calibration ; dans la seconde, la fonction de hedge calibrée sur la période précédente est utilisée pour simuler les résultats de la technique de couverture. Cette seconde approche vise à rendre compte du fait que la stratégie est calibrée sur des données du passé pour être appliquée aux situations futures. Deux éléments sont ici mis en avant pour quantifier la robustesse de la stratégie du hedge optimal : l’évolution dans le temps des prix calculés et l’augmentation de la volatilité entre l’échantillon de calibration et l’échantillon d’application. En effet, des prix stables indiquent que les prix passés pourront être utilisés pour calculer les prix futurs ; moins la volatilité se dégrade d’un échantillon à l’autre, plus la couverture calibrée par le passée restera optimale dans le futur.
1.3
Convergence de la méthode*
Les techniques que nous venons de voir permettent d’améliorer nettement la précision des simulations Monte-Carlo et même d’utiliser cette imprécision MATHÉMATIQUES DES MARCHÉS FINANCIERS
133
pour quantifier l’erreur résiduelle des stratégies de couverture. Cependant, le temps de calcul nécessaire à la mise en œuvre des méthodes Monte-Carlo reste un handicap majeur dans la mesure où la convergence des simulations est très lente ; beaucoup de calculs menés dans les banques mobilisent une nuit de ressources informatiques. Nous allons aborder ci-après certaines théories destinées à diminuer le temps de calcul nécessaire et à augmenter la précision des résultats numériques. Encadré 7.1. Vitesse de convergence.
La vitesse de convergence d’une méthode numérique est définie ici comme l’ordre de grandeur de l’évolution de la précision en fonction du nombre d’étapes de calculs. Par exemple, une convergence en 1/n2 signifie qu’en multipliant par 10 le nombre d’étapes de calculs, la précision du résultat est multipliée par 100. Ainsi, une convergence en 1/n2 est beaucoup plus rapide qu’une convergence en 1/n, cette dernière tend vers 0 beaucoup plus lentement. Seul l’ordre de grandeur nous importe, les constantes multiplicatives ne nous intéressent pas : nous considérons des convergences en 1/n, en 3/n ou 50/n comme équivalentes.
La question de la convergence se formule de la manière suivante : étant donné un degré de précision, combien d’étapes de calcul sont nécessaires ? De manière équivalente, étant donné un nombre d’étapes de calcul, quelle est la précision probable de nos résultats ? La réponse à cette question nous indique la vitesse de convergence de la méthode numérique. Dans le cadre de simulations Monte-Carlo, les statistiques permettent d’évaluer précisément cette vitesse. Schématiquement, lorsque l’on calcule la moyenne de n tirages aléatoires, la moyenne estimée (calculée en moyennant les résultats des tirages) s’écarte de la moyenne théorique √ (la moyenne réelle, que l’on cherche à estimer) d’un montant de l’ordre de 1/ n. Le résultat de la moyenne des tirages aléatoires est lui-même aléatoire : il est tout autant possible de tomber par hasard sur la valeur exacte recherchée que sur une valeur totalement aberrante. La théorie dit que l’erreur √ sera, en général, de l’ordre de 1/ n où n est le nombre de tirages aléatoires. Ce résultat est illustré dans le graphique 7.4. Cette convergence statistique est très lente : pour une précision 10 fois supérieure, il faut réaliser 100 fois plus de tirages. Dans son application aux résolutions d’équations financières, la méthode de Monte-Carlo est souvent encore plus longue car elle nécessite de calculer les valeurs de l’actif à tout instant avant l’échéance du produit, par exemple pour vérifier que des barrières n’ont pas été dépassées dans le cadre d’options à barrières. Chaque tirage aléatoire comprendra alors N étapes de calculs pour définir l’évolution de l’actif sous-jacent entre 0 et l’échéance T. En effet, nous devons discrétiser le temps, c’est-à-dire découper 134
Chapitre 7. Méthodes numériques
F IGURE 7.4. Estimation de π par méthode de Monte-Carlo. L’erreur moyenne statistique d’estimation décroît √ en 1/ n : lorsque l’on passe de 100 à 10 000 tirages, soit 100 fois plus de tirages, l’erreur d’estimation n’a été divisée que par 10 (elle passe de 0,16 à 0,016).
le temps continu t ∈ [0; T ] en N instants 0, T/N, 2T/N... Notre résultat final subira donc deux sources d’incertitude : – L’erreur statistique liée au √ nombre n de tirages de Monte-Carlo, que l’on a dit être de l’ordre de 1/ n. – L’erreur liée à la discrétisation du temps en N pas de temps, que l’on admettra être génériquement de l’ordre de 1/N. Le nombre total d’étapes de calcul est, dans cette configuration, de l’ordre de N × n : pour chacune des n simulations, nous devrons calculer la trajectoire des actifs sur les N pas de temps. Pour minimiser le nombre de pas de calcul, il faut MATHÉMATIQUES DES MARCHÉS FINANCIERS
135
choisir n et N intelligemment l’un par rapport à l’autre : comme les deux sources d’incertitude s’ajoutent, il n’est pas nécessaire d’avoir une précision extrême d’un côté alors que l’incertitude est très forte de l’autre. Il est possible de montrer √ que le meilleur choix est d’avoir des erreurs du même ordre de grandeur 1/ n ≈ 1/N, soit n ≈ N 2 . Finalement, pour une erreur approximative de 1/N, nous devrons donc découper l’échelle des temps en N points et réaliser N 2 tirages, soit au total N 3 étapes de calcul. Pour une précision 10 fois supérieure, nous devrons réaliser 1 000 fois plus de calculs. Cette convergence est extrêmement lente, voire handicapante dans un certain nombre de situations. Les techniques d’amélioration de la convergence des méthodes de Monte-Carlo sont, de ce fait, d’une importance capitale. Nous allons maintenant aborder une de ces techniques qui utilise les séries quasi aléatoires. Le lecteur intéressé pourra approfondir le sujet et découvrir d’autres méthodes dans [Jäckel 2002]. Regardons le détail d’une des simulations Monte-Carlo ayant servi à calculer π dans le graphique 7.4. Les points sont assez mal répartis dans le carré : certaines zones sont plus denses alors que d’autres espaces sont assez vides. Ce phénomène est un fardeau pour les estimations Monte-Carlo car les zones de trop grande concentration de points seront sur-pondérées par rapport aux zones de faible concentration. L’idée des séries quasi-aléatoires est, au contraire, d’occuper l’espace d’une manière plus efficace que l’aléatoire afin d’obtenir une meilleure convergence des estimations de Monte-Carlo. Nous allons aborder ce problème en nous concentrant sur les tirages aléatoires de points dans les hypercubes [0; 1]n , chaque point de l’hypercube représentant un tirage de n variables aléatoires ( X1 , X2 , ..., Xn ) indépendantes et uniformément réparties dans [0; 1]. Par exemple, pour n = 1, cela revient à choisir aléatoirement un point sur le segment [0; 1], pour n = 2 cela conduit à tirer aléatoirement un point dans le carré [0; 1] × [0; 1] comme nous l’avons fait pour estimer π. Les mathématiciens savent transformer n variables aléatoires indépendantes et réparties uniformément dans [0; 1] en n variables aléatoires de loi quelconque et de structure de corrélation quelconque. Nous ne rentrerons pas dans ces calculs ; retenons simplement que les résultats que nous illustrerons avec des tirages uniformes dans les hypercubes [0; 1]n se généralisent facilement à tout type de variables aléatoires, gaussiennes et lognormales en particulier. Revenons à notre problématique : comment réussir à choisir des points répartis de manière régulière et dense dans l’espace ? En dimension 1, la meilleure manière d’occuper le segment [0; 1] reste naturellement le découpage régulier de l’intervalle : 0, 1/N, 2/N, ... ( N − 1)/N, 1. Grâce à ce découpage en N + 1 points, 136
Chapitre 7. Méthodes numériques
nous avons quadrillé l’intervalle de telle sorte qu’aucun point du segment ne s’écarte de plus de 1/2N de l’un des points du quadrillage. Supposons que l’on cherche à estimer une espérance E ( f (u)) où u est une variable aléatoire répartie uniformément dans [0; 1] et où f est une fonction dont on cherche la moyenne. Par une méthode de Monte-Carlo brute, nous réaliserions des tirages aléatoires t1 , ..., tn dans [0; 1] et estimerions n1 ∑ √ f (ti ) : cette méthode conduit au résultat souhaité avec une convergence en 1/ n. Plutôt que d’utiliser nos n tirages aléatoires, si nous partions d’un quadrillage de [0; 1], nous calculerions n1 ∑ f (i/n) : sous l’hypothèse que f est à peu près régulière, cette méthode est nettement plus efficace et converge avec une vitesse de 1/n vers le résultat souhaité. En dimension 2, le problème est plus compliqué, car le quadrillage du carré demande N 2 points ; de ce fait le quadrillage simple du carré ne donnera pas de meilleurs résultats que les simulations de Monte-Carlo. En dimension d quelconque, le quadrillage devient totalement inefficace puisqu’il requiert N d points pour une précision de 1/N alors que la méthode de Monte-Carlo donne une précision de 1/N avec N 2 points. Le quadrillage simple est donc une bonne idée en dimension 1, mais il ne se généralise pas directement. Pour résoudre ce problème nous allons construire différentes suites dans [0; 1] qui occupent chacune l’espace presque aussi bien que le découpage régulier de l’intervalle et qui paraissent indépendantes les unes des autres : les suites de Van der Corput.
F IGURE 7.5. Représentation des 15 premières valeurs de la suite de Van der Corput en base 2. Ces 15 premiers tirages réalisent un découpage parfait (en 16 morceaux égaux) du segment [0; 1]. Les suites de Van der Corput peuvent être utilisées pour améliorer la convergence des simulations Monte-Carlo.
Les suites de Van der Corput de base p sont construites en découpant le segment [0; 1] en p sous-segments et en réitérant le découpage. MATHÉMATIQUES DES MARCHÉS FINANCIERS
137
La suite de Van der Corput de base 2 se construit ainsi : 1. Découpage de l’intervalle en 2 en mettant le premier point au milieu u1 = 1/2. 2. Découpage des deux sous-intervalles [0; u1 ] et [u1 ; 1] en deux en mettant le second point au milieu du premier intervalle (u2 = 1/4) puis le troisième point au milieu du second intervalle (u3 = 3/4). 3. Découpage en deux des 4 sous-intervalles [0; u2 ], [u1 ; u3 ], [u2 ; u1 ] et [u3 ; 1] qui nous conduit à : u4 = 1/8, u5 = 5/8, u6 = 3/8 et u7 = 7/8... Par cette technique illustrée en figure 7.5, la suite u1 , ...u2n −1 quadrille l’intervalle [0; 1] en 2n sous-segments de taille 1/2n . La méthode peut être utilisée en partant d’un découpage en base 2 comme dans notre exemple, mais aussi en base 3, 4, etc. La suite de Van der Corput en base 10 est ainsi 2 : 0,1 ; 0,2 ; 0,3 ; 0,4 ; 0,5 ; 0,6 ; 0,7 ; 0,8 ; 0,9 ; 0,01 ; 0,11 ; 0,21... L’utilisation d’une suite de Van der Corput est presque aussi efficace que le quadrillage régulier du segment [0; 1]. Ces suites qui occupent l’espace de manière régulière et dense sont dénommées suites à discrépance faible. Concrètement, pour réaliser ses simulations Monte-Carlo, le quant doit remplacer ses N tirages aléatoires t1 , t2 , ..., t N dans [0; 1] par les valeurs successives u1 , ..., u N d’une suite à discrépance faible. Cette méthode s’appelle quasi Monte-Carlo car elle repose sur des tirages non pas aléatoires mais sur des séquences déterministes bien choisies. Une méthode très simple pour construire des suites à discrépance faible en dimension d quelconque est d’utiliser directement d suites de Van der Corput de bases distinctes. En dimension 2 par exemple, nous pouvons créer la suite ( xn , yn ) où xn est une suite de Van der Corput de base p et yn une suite de Van der Corput de base q. De cette manière, la suite xn se répartit de manière optimale sur l’axe des abscisses et yn sur l’axe des ordonnées. Pour assurer que le couple ( xn , yn ) remplisse convenablement l’espace, il reste une dernière condition à ajouter, qui nous vient de l’arithmétique : p et q doivent être premiers en eux (ne pas avoir de diviseurs communs). Dans ce cas, les suites xn et yn jouissent de toutes les propriétés d’indépendance nécessaires qui permettent au couple de remplir convenablement l’espace. Dans le cas contraire, les suites xn et yn présentent des similarités qui les concentrent dans certaines zones. Dans le cas le plus extrême par exemple où p = q, nous avons xn = yn et la suite ( xn , yn ) reste sur la diagonale x = y (qui est alors occupée de manière parfaitement dense et régulière, mais ce n’est pas l’objet de la construction !). Pour éviter de se 2
Il s’agit d’un comptage simple 1, 2, 3, ..., 10, 11, 12, etc. dont on a inversé l’ordre des chiffres et ajouté une virgule ; par exemple le 1 040e terme d’une suite de Van der Corput en base 10 est 0,0401.
138
Chapitre 7. Méthodes numériques
Nuage aléatoire de points
Suites de Van der Corput de bases 2 (abscisses) et 3 (ordonnées)
Suites de Van der Corput de bases 2 ( ) et 4 (ordonnées) ( ) (abscisses)
Suites de Van der Corput de bases 6 ( ) et 3 (ordonnées) ( ) (abscisses)
F IGURE 7.6. Exemples de quadrillage de l’espace. Le graphique en haut à gauche correspond à des tirages aléatoires. Ces derniers ne se répartissent pas de manière optimale dans l’espace, ce qui ralentit la convergence des simulations Monte-Carlo. Au contraire, le graphique en haut à droite qui représente les tirages d’une suite de Halton (suite de Van der Corput de base 2 en abscisses et de base 3 en ordonnées) montre une occupation très dense et régulière de l’espace. Les graphiques en dessous représentent des tirages de points réalisés à partir de suites de Van der Corput de bases non premières entre elles qui laissent des zones vides d’occupation.
poser trop de questions d’indépendance, les suites sont en général construites en partant de bases p1 , p2 , etc. où les pi sont des nombres premiers. Les suites ainsi construites s’appellent les suite de Halton. Ces dernières ne sont toutefois pas les suites les plus efficaces, les quant leur préfèrent les suites de Sobol, plus difficiles à construire et que nous ne détaillerons pas. Grâce aux suites à discrépance faible, comme illustré dans le graphique 7.7 nous avons pu accélérer notablement la convergence des simulations. Il est conjecturé que la vitesse limite de convergence est MATHÉMATIQUES DES MARCHÉS FINANCIERS
ln(n)d n
où d est le nombre de 139
F IGURE 7.7. Convergence des méthodes de Monte-Carlo (utilisation de tirages aléatoires) et de quasi Monte-Carlo (utilisation d’une suite de Halton) dans l’estimation de π . La supériorité de la suite de Halton pour l’estimation de π est flagrante sur ce graphique, l’estimation converge beaucoup plus vite.
dimensions. Ce point reste toutefois en attente de démonstration ! En attendant, les suites que nous avons évoquées, de type Halton et Sobol restent les suites qui apportent empiriquement la meilleure vitesse de convergence. Les suites de Halton, si elles offrent une bonne convergence asymptotique, sont peu efficaces en dimension élevée. 2
Méthode des différences finies*
Cette section est essentiellement dédiée à la résolution numérique d’une équation aux dérivées partielles, le lecteur qui n’est pas familier avec de telles équations peut passer directement au prochain chapitre ; les notions développées ci-après sont relativement techniques et ne sont pas réutilisées dans la suite du livre. Nous avons introduit au chapitre 5 l’équation de Black-Scholes : ∂Πt ∂Πt 1 2 2 ∂2 Πt + rSt + σ St = rΠt ∂t ∂S 2 ∂S2
(7.6)
Dans le modèle de Black-Scholes, cette équation doit être satisfaite par n’importe quel produit financier, dont le prix Πt (St ) à un instant t dépend de la valeur St d’un actif sous-jacent. Pour mémoire, dans ce modèle, St suit un mouvement 140
Chapitre 7. Méthodes numériques
lognormal de volatilité annuelle σ (peu importe sa dérive) et le taux d’intérêt sans risque est constant et noté r. Pour fixer les idées, nous nous attacherons dorénavant à l’exemple d’un call sur une action St d’échéance T et de strike K. Le prix Πt (St ) de ce call devra non seulement satisfaire l’équation (7.6) mais aussi la condition terminale suivante : Π T (ST ) = max (0; ST − K )
(7.7)
Les deux équations (7.6) et (7.7) suffisent à caractériser le prix Πt : moyennant des hypothèses très peu restrictives, il n’existe qu’une seule fonction Πt (St ) qui satisfasse ces deux équations. Cette propriété n’est pas spécifique aux call, n’importe quelle condition terminale remplaçant (7.7) peut être utilisée. Néanmoins, pour ne pas rendre encore plus abstraite la présentation, nous resterons sur l’exemple du call qui est, normalement, bien connu du lecteur à ce stade du livre. La méthode des différences finies est une technique qui permet de résoudre numériquement les deux équations (7.6) et (7.7), c’est-à-dire qui permet de calculer explicitement les valeurs de Πt (St ) pour peu que les paramètres r, σ, K, T soient numériquement spécifiés. L’idée sous-jacente est très simple : – L’équation (7.6) peut être discrétisée : comme dans le cadre des arbres binomiaux, nous revenons vers un temps discret t = 0, dt, 2 × dt, ..., N × dt, ... et des valeurs possibles de St discrètes : 0, dS, 2 × dS, ..., N × dS... – Une fois discrétisée, l’équation (7.6) permet de calculer les valeurs de Πt à partir de celles de Πt+dt . – Or, les valeurs de Π T en T sont connues grâce à l’équation (7.7). Il suffit donc de remonter le temps en partant de T, puis T − dt, T − 2 × dt, etc. jusqu’à 0. Mettons cela en pratique et fixons-nous dt et dS les pas de discrétisation du temps et de l’action. Les dérivées partielles peuvent être exprimées, au premier ordre, par les différences suivantes : ⎧ ∂Πt ⎪ = Πt (St )−dtΠt−dt (St ) + O(dt) ⎪ ∂t ⎪ ⎪ ⎪ ⎨ Πt (St −dS) ∂Πt = Πt (St +dS)− + O(dS2 ) (7.8) ∂S 2dS ⎪ ⎪ ⎪ 2 ⎪ Πt (St +dS)−2Πt (St )+Πt (St −dS) ⎪ + O(dS2 ) ⎩ ∂∂SΠ2 t = dS2 Les signes O(dt) et O(dS2 ) signifient que l’erreur d’approximation que l’on commet est de l’ordre de grandeur de dt et dS2 . Plus les pas de discrétisation MATHÉMATIQUES DES MARCHÉS FINANCIERS
141
seront petits, plus l’erreur d’approximation sera faible. Dans ce jeu d’équations, toutes les expressions sont définies à partir de la fonction Πt (.) sauf un unique terme qui est écrit avec la fonction Πt−dt (.). De ce fait, en injectant les approximations (7.8) dans l’équation (7.6) et en réorganisant les termes, il est possible d’exprimer Πt−dt (.) à partir de Πt (.). Le résultat de ce calcul donne : 2 2 σ S dt t dt Πt−dt (St ) = Πt (St − dS) × 2dSt 2 − rS 2dS 2 2 σ S dt + Πt (St ) × 1 − rdt − dSt2 (7.9) 2 2 σ S dt t dt + Πt (St + dS) × 2dSt 2 + rS2dS
+ O(dt × dS2 ) + O(dt2 ) Cette équation est longue et rébarbative, mais elle ne présente aucune difficulté technique : elle énonce que la valeur de Πt−dt (St ) se calcule en ajoutant et multipliant différents termes et, parmi eux, les paramètres du modèle (σ, r, dt, dS) et les valeurs de Πt (.) en St − dS, en St et en St + dS. Ce calcul fait naître deux erreurs d’approximation, dont les tailles sont de l’ordre de dt2 et dt × dS2 . Ainsi, en oubliant les erreurs d’approximation O(dt2 ) et O(dt × dS2 ), la méthode des différences finies que nous étudions repose sur l’équation de propagation : 2 2 σ S dt t dt Πt−dt (St ) = Πt (St − dS) × 2dSt 2 − rS 2dS 2 2 σ S dt (7.10) + Πt (St ) × 1 − rdt − dSt2 2 2 σ S dt t dt + Πt (St + dS) × 2dSt 2 + rS2dS Cette équation permet à un ordinateur, en prenant pour point de départ la valeur connue en T de Π T (ST ) – c’est par définition l’équation (7.7) – de calculer successivement toutes les valeurs de Π T (.), puis celles de Π T −dt (.), celles de Π T −2×dt (.) et ainsi de suite ; le résultat des itérations étant Π0 (.) qui est le prix aujourd’hui du produit dérivé. Ainsi, la méthode des différences finies revient à parcourir une grille, telle que représentée sur la figure 7.8. Cette grille contient par construction T/dt abscisses et Smax /dS ordonnées. L’ordinateur ne peut en effet pas construire une grille infinie, il faudra en pratique limiter la valeur maximale possible de l’action à une valeur suffisamment grande. Cela pose le problème des conditions aux limites : comment calcule-t-on les valeurs Πt (S) lorsque S atteint les bords du graphe ? L’équation (7.10) ne peut pas être calculée en S = 0 et S = Smax . 142
Chapitre 7. Méthodes numériques
F IGURE 7.8. Illustration de la méthode des différences finies. Il s’agit de remplir à chaque point de la grille la valeur de l’option Πt (S) que l’on souhaite valoriser. À t = T , la valeur est donnée par la condition terminale. À S = 0 ou S = Smax , le calcul théorique permet en général de trouver des bonnes approximations du prix Πt (0) et Πt (Smax ) à chaque instant t. Pour les autres points, il suffit de propager l’équation (7.10).
Cependant, dans ces cas limites, dans l’hypothèse où Smax est grand, il est en général possible de calculer des formules explicites qui approchent Πt (0) et Πt (Smax ). La solution retenue dépend alors du produit à valoriser ; dans le cas d’un call, nous admettrons par exemple que Πt (0) = 0 et Πt (Smax ) ≈ Smax − Ke−r(T −t) . Ainsi, la méthode des différences finies revient à remplir la grille de la figure 7.8 de la manière suivante : 1. Remplissage de la dernière colonne grâce à l’équation (7.7). 2. Remplissage de la première et dernière ligne grâce aux conditions aux limites calculées : Πt (0) = 0 et Πt (Smax ) ≈ Smax − Ke−r(T −t) dans le cas du call. 3. Remplissage de l’intérieur de la grille par propagation de l’équation (7.10). Le principe d’application de la méthode des différences finies est simple, en revanche, il est nettement plus compliqué de démontrer que la méthode permet effectivement de retrouver la solution de (7.6). La vérification de la convergence étant le point névralgique des méthodes des différences finies, nous allons nous y atteler. Nous verrons d’ailleurs que la convergence n’est pas toujours MATHÉMATIQUES DES MARCHÉS FINANCIERS
143
assurée et que des instabilités peuvent apparaître dans certaines situations. Deux questions cernent la problématique de la convergence : 1. Quelle est l’erreur commise à chaque nœud de la grille ? 2. Comment cette erreur se propage-t-elle dans la grille ? Si nous pouvons montrer que l’erreur créée à chaque nœud et propagée dans toute la grille reste contenue, qu’elle tend vers 0 lorsque les pas de discrétisations tendent vers 0, nous aurons démontré la convergence. La réponse à la première question est le terme O(dt × dS2 ) + O(dt2 ), c’est l’erreur résultante de l’approximation des dérivées partielles dans les équations (7.8). Par définition du signe O(.), il existe une constante M telle que 3 :
(7.11) O(dt × dS2 ) + O(dt2 ) M dt × dS2 + dt2 La qualité de l’approximation à chaque nœud ne suffit pas à assurer la convergence des différences finies, encore faut-il que cette erreur ne s’amplifie pas lors de sa propagation. Notons t l’erreur maximale commise à chaque pas de temps. Formellement, t = max0SSmax (|Πt (S) − Π∗t (S)|), où Πt (.) est le prix calculé par la grille et Π∗t le prix théorique exact solution de (7.6). Par les équations (7.9) et (7.11), après quelques calculs intermédiaires, nous pouvons encadrer la propagation de l’erreur t de la manière suivante : dt dt dt 2 2 S2 t−dt t × 1 − σ2 Smax − rdt + σ + rS max dS max dS2 dS2 (7.12)
2 2 + M dt × dS + dt Le terme en facteur de t représente le taux d’accroissement de l’erreur. S’il est plus grand que 1, l’erreur commise au premier pas de temps T −dt s’amplifie au fur et à mesure de manière exponentielle : notre schéma numérique risque alors de diverger. Comment contrôler ce facteur d’amplification ? dt La première étape est de contenir le rapport dS 2 : si le pas de discrétisation de l’action est trop faible devant le pas de temps, cette quantité devient infinie, tout comme le facteur d’amplification de l’erreur. Le graphique 7.9 montre bien que cette condition n’est pas que théorique et que si le pas dS est trop faible, la méthode ne converge pas. Supposons dS2 choisi suffisamment grand devant dt dt pour que dS 2 reste borné, et regardons plus précisément les autres termes du dt max dt facteur d’amplification dans l’équation (7.12). Les termes rSmax = dS × rSdS 2 dS 3
Le lecteur mathématicien notera que nous supposons implicitement que les différentes dérivées partielles de Πt (St ) sont bornées sur toute la grille.
144
Chapitre 7. Méthodes numériques
et rdt tendront vers 0 lorsque les pas de discrétisation dS et dt tendront vers 0 : ils n’influeront pas significativement sur l’erreur commise. Pour simplifier, nous oublierons donc ces termes. Cela nous permet de simplifier l’équation de propagation de l’erreur : t−dt
2 dt 2 dt
σ2 Smax σ2 Smax t × 1 − + + M dt × dS2 + dt2 2 2 dS dS
(7.13)
Aussi, pour que le facteur d’amplification ne soit supérieur à 1 il faut alors que : 2 dt √ dS σ2 Smax 1 ⇔ dt (7.14) 2 dS σSmax Cette condition est la principale condition de convergence de la méthode des différences finies appliquée à l’équation de Black-Scholes (7.6). Sans elle, rien ne garantit que nos calculs mèneront effectivement à la bonne solution, comme l’illustre le graphique 7.9.
F IGURE 7.9. La courbe bleue représente le prix d’un call calculé par la méthode des différences finies en fonction du nombre de pas de discrétisation de l’action (le nombre de pas de temps étant fixé à 1 000 et Smax = 500). La méthode est de plus en plus précise entre 0 et 150 pas de discrétisation de St et diverge au-delà de 160.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
145
Si la condition est satisfaite, l’équation (7.13) se simplifie et se propage très simplement. Cela permet d’encadrer l’erreur en fin de grille, en t = 0 :
0 dt + M dt × dS2 + dt2
2∗dt + 2M dt × dS2 + dt2
...
M dt
(7.15)
dt × dS2 + dt2 = O(dt, dS2 )
En choisissant donc dS2 de l’ordre de dt, tout en respectant la condition fondamentale de stabilité (7.14), nous venons de montrer que l’erreur de convergence de notre schéma numérique est de l’ordre de dt. Schématiquement, pour une précision voulue de 1/N = dt, nous devons découper le temps en N points et √ 3 l’action en N points. Au total, on compte donc N 2 points dans la grille : la méthode est beaucoup plus efficace que les simulations de Monte-Carlo où nous avions besoin de N 3 étapes de calcul pour une même précision de 1/N. En revanche, dès que le nombre de dimensions augmente, la méthode des différences finies perd de son intérêt. On peut en effet montrer que le nombre de d pas de calcul nécessaires à une précision de 1/N est N 1+ 2 où d est le nombre de dimensions. La méthode de Monte-Carlo demande quant à elle d × N 3 étapes de calcul : elle devient vite plus efficace lorsque le nombre de dimensions augmente. Par ailleurs, la méthode des différences finies ne donne pas directement les distributions de probabilité des prix futurs des actifs. De ce fait, elle sera moins utile que les simulations de Monte-Carlo pour évaluer les valeurs futures probabilisées d’un actif ou d’un portefeuille d’actif et calculer des indicateurs de risque associé : probabilité de perte, probabilité de perte de plus de x %, Value at Risk que nous aborderons au prochain chapitre. En revanche, un grand avantage de la méthode des différences finies est que l’on résout en un seul passage l’intégralité de la fonction de valorisation Πt (St ) pour tout t et tout St , contrairement à la méthode de Monte-Carlo où l’on doit réitérer les calculs pour chaque point (t, St ) où l’on souhaite évaluer Πt (St ). Ainsi, la méthode nous offre une grande souplesse d’analyse et une vue complète des propriétés de valorisation. Par exemple, le calcul du delta, ∂Π ∂S , très utile pour élaborer des stratégies de couverture, peut être réalisé sans effort supplémentaire. Les autres dérivées partielles, appelées sensibilités peuvent être tout aussi facilement calculées à chaque point de la grille. Cet avantage 146
Chapitre 7. Méthodes numériques
est considérable par rapport à une méthode de Monte-Carlo ou le calcul des sensibilités nécessite de relancer les simulations. Cette vue d’ensemble de toute la grille permet également de raffiner facilement la modélisation : nous pourrions ainsi introduire des paramètres dépendant du temps et du niveau de l’action σ(t, St ) ou r (t), ajouter des sauts aux différents points de la grille, prendre en compte une incertitude de paramètre, etc. Dans la même logique, les méthodes des différences finies sont très efficaces pour calculer les prix des options américaines. Rappelons qu’un call américain offre à son détenteur l’option de demander au vendeur la somme max(St − K; 0) à n’importe quel moment de la vie de l’option, la demande ne pouvant intervenir qu’une seule fois. La problématique centrale est alors : quel est le meilleur moment pour exercer l’option (c’est-à-dire réclamer la somme max(St − K; 0)) ? Cette question s’aborde naturellement dans une grille de différences finies : à chaque nœud (t, St ) de la grille, le calcul de l’équation de propagation (7.10) donne la valeur de continuation de l’option, c’est-à-dire son prix si l’on décide de ne pas exercer à ce moment-là. Cette valeur de continuation est à comparer à la valeur d’exercice, c’est-à-dire le prix de l’option si l’on choisit de l’exercer, qui est par définition max(St − K; 0). Le choix rationnel est alors évident : si la valeur d’exercice est supérieure à la valeur de continuation il faut exercer l’option, et dans ce cas Πt (St ) = max(St − K; 0) ; sinon, il faut conserver l’option et dans ce cas Πt (St ) se calcule grâce à l’équation de propagation (7.10). En réitérant le raisonnement à chaque point de la grille, nous réussirions non seulement à valoriser notre option américaine mais aussi à identifier les situations d’exercice optimal de l’option. Comme dans le cas des méthodes Monte-Carlo, la méthode exposée ci-avant doit être raffinée pour améliorer la convergence, mieux prendre en compte les dimensions multiples, réduire et contrôler les instabilités, optimiser la calibration, etc. Nous sommes rentrés dans le détail de certains raffinements de la méthode de Monte-Carlo, nous laissons le lecteur approfondir les diverses méthodes des différences finies dans [Wilmott 2006] ou [Duffy 2006].
MATHÉMATIQUES DES MARCHÉS FINANCIERS
147
This page intentionally left blank
8 La Value at Risk (VaR) Les activités de marché des banques s’exercent sur des supports divers et variés. Les actions, les taux d’intérêt, les titres de crédit en représentent une part importante tout comme les matières premières (énergies, produits agricoles, métaux...). D’autres domaines d’application peuvent toutefois se rencontrer : immobilier, émissions de CO2 , risques climatiques, etc. Dès lors, on comprend bien l’intérêt et la difficulté à mesurer synthétiquement les risques engendrés par l’accumulation de ces activités. L’industrie financière et les régulateurs se sont dotés d’indicateurs clefs dont la Value at Risk qui est le plus utilisé pour la mesure agrégée des risques de marché. Preuve de l’importance que lui accorde la profession, la Value at Risk est aussi utilisée par les autorités de contrôle bancaire dans le calcul des fonds propres minimaux dont les banques doivent disposer pour continuer à intervenir sur les marchés. Cet indicateur, dont la traduction littérale en langue française, valeur en risque, n’est en pratique jamais utilisée, fera l’objet du présent chapitre et sera désigné dans la suite par son acronyme : VaR. Nous présenterons dans un premier temps une définition théorique de la VaR. Dans un second temps, les problématiques relatives à sa mise en œuvre pratique seront évoquées : sélection des facteurs de risque, choix des modèles d’évolution des facteurs de risque, modélisation de l’impact des variations potentielles des facteurs de risque sur le prix des produits financiers. En guise de conclusion, nous aborderons les limites de cet indicateur, dont certaines ont été mises en évidence durant la récente crise financière. Le présent chapitre introduit peu de nouveaux concepts théoriques ; en revanche, les problématiques qu’il développe sont très proches des sujets réels auxquels sont confrontés les professionnels des risques de marché.
1
Principe général
Les activités de marchés d’une banque internationale sont généralement constituées de plusieurs sous-activités sans lien direct les unes avec les autres et agissant potentiellement sur des types de risques très différents. Leurs fonctions peuvent être de fournir les clients de la banque en produits financiers. Dans ce cas, il s’agit alors principalement d’un rôle d’intermédiation, les trader n’ayant alors pas vocation à spéculer mais devant couvrir les positions issues de la vente de produits financiers à leur clientèle. D’autres activités sont dédiées à la spéculation : leur objectif est d’élaborer des stratégies d’investissements pour le compte de la banque dans le but de faire fructifier ses liquidités. Dans tous les cas, ces sous-activités sont susceptibles d’engendrer des pertes en cas de variation des prix des actifs. Ces risques s’appellent risques de marché. Au gré des crises financières, l’industrie s’est peu à peu dotée de standards en termes de mesure et de surveillance de ces risques de marché. Ainsi, il existe dans chaque banque une entité en charge de s’assurer que la mesure de ces risques est pertinente et que le niveau mesuré est en adéquation avec la structure financière de l’établissement et le projet stratégique de ses dirigeants. Pour une bonne maîtrise du risque, l’action de cette entité doit s’exercer à deux niveaux : – Au niveau individuel, elle doit s’assurer que les risques pris individuellement par chaque trader sont contenus dans des limites raisonnables. Elle vérifiera, par exemple, que les trader d’options sur actions ont bien couvert le delta de leur portefeuille ou que le risque de crédit relatif aux investissements sur la dette de l’État grec réalisés par un trader dédié n’est pas trop important. – Au niveau global, elle doit contrôler que l’agrégation de la totalité des investissements des trader n’est pas de nature à faire courir un risque trop important à l’établissement. Le niveau de contrôle individuel nécessite de bien identifier les risques que génèrent les activités de marché de la banque puis de mettre en place les indicateurs individuels idoines. Le niveau de contrôle global nécessite la construction d’un indicateur synthétique permettant d’agréger l’ensemble des risques individuels. En effet, sans un tel indicateur, comment apprécier le risque global résultant de deux investissements sur des supports aussi différents que, par exemple, le CAC 40 et le cuivre ? Le portefeuille constitué de 10 Me de cuivre et d’une position de vente à découvert de 5 Me sur le CAC 40 1 est-il plus ou 1
La vente à découvert est le fait de détenir une proportion négative d’un actif, c’est-à-dire de gagner de l’argent lorsque le cours de l’actif baisse.
150
Chapitre 8. La Value at Risk (VaR)
moins risqué qu’une simple position acheteuse de cuivre pour 7 Me ? La VaR, indicateur universellement utilisé, a pour ambition de répondre à ce type de questions, moyennant bien sûr de nombreuses hypothèses et approximations que nous préciserons par la suite.
F IGURE 8.1. VaR à horizon 1 jour et au seuil de confiance de 90 %. Généralement, la VaR est un gain négatif donc une perte, de 1,3 Me dans l’exemple ci-dessus. Concrètement, cela signifie que la probabilité de gagner plus de −1,3 Me en 1 jour est de 90 %. De manière équivalente, la probabilité de perdre plus de 1,3 Me est de 10 %.
Nous allons maintenant présenter les grands principes relatifs au calcul de la VaR d’un portefeuille d’actifs. Supposons que nous connaissions la densité de probabilité des gains quotidiens de ce portefeuille. La VaR à horizon 1 jour et au seuil de confiance de 90 % est alors définie comme le montant K tel que la probabilité pour que la perte quotidienne n’excède pas K soit égale à 90 % ; par commodité, nous écrirons par la suite simplement VaR 90 % 1 jour. En termes mathématiques, la VaR 90 % 1 jour se définit de la façon suivante : Proba(Pertes en 1 jour > VaR) = 10 %
(8.1)
Naturellement, de manière équivalente, nous aurions pu écrire : Proba(Gains −VaR) = 90 %. La même démarche aurait pu être menée pour la distribution des gains à un horizon de temps différent : 10 jours, 1 mois, 1 an, etc. Généralement, les gains sont d’autant plus volatils que l’horizon de temps est long, l’incertitude à long terme est plus prononcée que l’incertitude à court terme. Ainsi, la VaR sera d’autant plus importante que l’horizon de temps est long. MATHÉMATIQUES DES MARCHÉS FINANCIERS
151
Dans la plupart des cas, le calcul de VaR se fera non pas sur une densité de probabilité continue telle que présentée sur la figure 8.1 mais plutôt à partir d’un nombre fini de scénarios possibles de variations des valeurs du portefeuille. En effet, il est en général plus aisé de calculer, à partir de données historiques ou de simulations Monte-Carlo, un ensemble de scénarios équiprobables de variation des valeurs du portefeuille que la distribution de probabilité de ces variations. En ordonnant ces scénarios de la perte la plus élevée au gain le plus élevé, il est possible d’obtenir une estimation de la VaR du portefeuille. La VaR 90 % 1 jour sera alors : – la perte associée au 10e scénario si l’on a utilisé 100 scénarios au total ainsi que l’indique la figure 8.2 ; – la perte associée au 100e scénario si l’on a utilisé 1 000 scénarios ; ne scénario si l’on a utilisé n scénarios. – la perte associée au 10
F IGURE 8.2. Détermination de la VaR 90 % 1 jour à partir d’un jeu de 100 scénarios de variation quotidienne de la valeur du portefeuille. Chaque barre représente les gains réalisés en 1 jour dans l’un des 100 scénarios équiprobables simulés ; ces scénarios sont classés par ordre croissant de gain. La VaR est la perte (en ordonnées) du 10e scénario.
Le montant de VaR de 1,3 Me obtenu dans l’exemple de la figure 8.1 indique, qu’en moyenne, les pertes supérieures à ce montant ne devraient se produire qu’une fois tous les 10 jours, ainsi que l’illustre le graphique 8.3. Ce type de vérification, appelé backtesting est couramment employé afin de s’assurer que les hypothèses utilisées pour le calcul des scénarios sont adéquates. En effet, jusqu’alors, nous avons considéré comme acquise la connaissance de ce jeu de scénarios. Cependant, en pratique, la problématique de leur évaluation nécessite 152
Chapitre 8. La Value at Risk (VaR)
la formulation de nombreuses hypothèses et constitue le cœur de la mise en œuvre opérationnelle du calcul de VaR qui fera l’objet de la prochaine section.
F IGURE 8.3. Gains quotidiens générés par un portefeuille fictif durant 200 jours. Les pertes dépassent le montant de VaR 90 % 1 jour à environ 20 reprises, soit dans 20/200 = 10 % des cas, comme attendu.
2 2.1
La VaR en pratique La sélection des facteurs de risque
Le calcul d’une VaR d’un portefeuille d’actifs nécessite l’estimation de scénarios représentatifs des gains et pertes potentielles. Une première méthode simpliste pourrait être d’estimer directement, à partir de l’historique des variations de valeur du portefeuille, le profil de ses gains. Cependant, une telle méthode irait à l’encontre des bonnes pratiques statistiques selon lesquelles il est préférable de modéliser la cause d’un phénomène plutôt que ses conséquences. Pour le quant qui calcule une VaR, la conséquence modélisée est la variation de la valeur du portefeuille et les causes de cette variation sont l’évolution des cours des actions, des courbes de taux, des volatilités implicites, des spread de crédit... Aller à l’encontre de ce principe est susceptible de générer des biais dans la modélisation. En premier lieu, la composition du portefeuille peut changer au cours du temps, soit par l’action du trader, soit par le fait que les rendements différents des actifs vont modifier naturellement leurs poids respectifs dans le portefeuille. En second lieu, le prix de certains actifs va tendre vers une valeur limite au fil du temps et toutes choses égales par ailleurs : c’est notamment le cas des obligations dont la MATHÉMATIQUES DES MARCHÉS FINANCIERS
153
valeur va tendre vers le nominal ou des options dont le prix va tendre vers le payoff. Ces deux phénomènes sont de nature à rendre inexploitable l’historique puisque la distribution des rendements du portefeuille variera au fil du temps. Le calcul de la VaR ne peut ainsi se satisfaire d’une modélisation monolithique du portefeuille, il nécessite d’analyser puis de modéliser les différentes sources de risques du portefeuille. Qu’entend-on par « sources de risques » ? L’ensemble des activités de marché d’une grande banque d’investissement peut être assimilé à un portefeuille de produits financiers variés dont les valeurs dépendent de paramètres très divers comme le niveau du cours des actions, les courbes de taux, les cours de change, les cours des matières premières, les spread de crédit, les nappes de volatilité associées à chacune de ces données, des paramètres de dépendance comme la corrélation entre plusieurs actifs... En toute rigueur, chaque paramètre susceptible de faire évoluer la valeur des actifs constitutifs du portefeuille devrait être pris en compte dans la construction des scénarios. En pratique, procéder de la sorte s’avère généralement inapproprié. La multiplication de ces paramètres risque en effet de conduire à un accroissement significatif des ressources informatiques et humaines nécessaires à la construction de l’indicateur sans gain matériel en termes de précision. Il est donc généralement nécessaire de sélectionner les paramètres les plus importants. Ces paramètres ainsi sélectionnés sont les facteurs de risque du portefeuille, c’est-à-dire ceux qui sont les plus susceptibles d’avoir un impact sur la valorisation du portefeuille. La sélection de ces facteurs de risque procède globalement d’un arbitrage entre gain de précision et surcoût engendré. Elle requiert, pour ce faire, une prise en compte des stratégies des différents sous-portefeuilles. Par exemple, le prix d’une obligation dépend de l’intégralité de la courbe des taux et de sa courbe des spread de crédit. Doit-on pour autant conserver l’intégralité des points de ces courbes dans le calcul de VaR ? N’est-il pas préférable de n’utiliser que les mouvements principaux de la courbe des taux déterminés par l’analyse en composantes principales présentée au premier chapitre ? La réponse à ces interrogations n’est pas immédiate et dépendra notamment de la stratégie appliquée sur le portefeuille dont on cherche à calculer la VaR. Ainsi, pour une activité d’investissement traditionnel sur des obligations d’États, prendre en compte uniquement les trois principales déformations de la courbe des taux permettra de capter la plus grande partie du risque. En revanche, dans le cas d’une activité plus sophistiquée où le trader cherchera à exploiter ce qu’il estime être une anomalie de marché comme un écart de prix trop important entre deux obligations de maturités proches, cette sélection des facteurs de risque sera totalement inappropriée car elle ne pourra capter le risque principal de cette stratégie : la variation de l’écart de prix 154
Chapitre 8. La Value at Risk (VaR)
entre deux obligations de maturités proches. Un second exemple présenté en figure 8.4 illustre également combien la stratégie est déterminante dans le choix des facteurs de risque.
F IGURE 8.4. Les deux graphiques présentent le résultat de la simulation de 1 000 scénarios d’évolution de la valeur d’un portefeuille composé, respectivement, d’un call sans couverture en delta et d’un call couvert en delta. Pour rappel, le delta, noté Δ, est la sensibilité du prix de l’option à la variation du cours de l’action. Comme nous l’avons vu au chapitre 5, couvrir en delta signifie détenir l’option et −Δ actions, cela permet de neutraliser le risque de variation du prix de l’option en cas de variation du cours de l’action. Le profil de la distribution des gains de la première stratégie est relativement indifférent au fait de sélectionner ou non la volatilité implicite en tant que facteur de risque : le risque principal sur un call non couvert est la variation de valeur du sous-jacent et non de la volatilité. Cela n’est plus le cas pour la seconde stratégie pour laquelle le risque principal devient la variation de volatilité implicite. Ne pas sélectionner ce paramètre en tant que facteur de risque revient donc à nier l’existence du risque principal de cette stratégie. L’impression visuelle laissée par ces deux graphiques est confirmée par le calcul de la VaR 90 % 1 jour dans les différentes configurations.
Enfin, il est à noter que certains paramètres, comme certains spread de crédit, peuvent ne pas disposer d’historiques suffisants pour être exploitables statistiquement. De ce fait, leur intégration aux facteurs de risque nécessitera vraisemblablement le recours à des approximations ou des hypothèses supplémentaires. Cet élément est donc également à prendre en considération lors du choix des facteurs de risque.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
155
2.2
Modèles d’évolution des facteurs de risque
Une fois les facteurs de risque identifiés, l’étape suivante consiste à modéliser leur évolution. L’approche la plus naturelle est d’utiliser l’historique des variations des facteurs de risque sans formuler d’hypothèse sur la forme qu’elles peuvent prendre. Ce mode de calcul de VaR est communément appelé VaR historique. Il ne repose sur aucune hypothèse de modélisation des facteurs de risque mais suppose néanmoins la stationnarité de leur distribution – dire que la distribution des facteurs de risque est stationnaire signifie que leurs lois d’évolution sont constantes dans le temps. Une VaR historique peut être calculée sur des portefeuilles quelconques, contenant des produits complexes comme des options exotiques par exemple. Dans ce cas, l’historique devra comprendre les données relatives à tous les facteurs de risque sélectionnés ce qui sera d’autant plus difficile que certains d’entre eux peuvent être difficilement observables (volatilité de la volatilité par exemple). Le calcul de VaR à partir de ces historiques nécessitera ensuite l’utilisation d’un modèle de valorisation pour rendre compte de l’impact des variations des facteurs de risques sur la valeur du portefeuille. Alternativement au calcul de VaR historique, il est tout à fait possible d’imposer la forme de la distribution des facteurs de risque. À l’instar du problème de modélisation du risque de défauts multiples rencontré lors du chapitre 2, nous faisons face à un cas multidimensionnel puisque nous avons non seulement à modéliser la distribution individuelle des facteurs de risque mais également leurs probabilités conjointes d’évolution. Le cas le plus classique consiste à supposer que les facteurs de risque suivent une distribution gaussienne. Nous avons vu aux chapitres 2 et 5 la distribution gaussienne à une dimension. Sa version multidimensionnelle permet d’adjoindre aux distributions individuelles ce que l’on appelle une structure de corrélation. L’avantage principal de cette structure réside dans sa simplicité puisque la probabilité d’évolution conjointe de variables aléatoires suivant une loi gaussienne multidimensionnelle ne dépend que des moyennes et variances des distributions individuelles ainsi que d’un unique paramètre par couple de variables : le coefficient de corrélation. Ainsi, pour 2 facteurs de risque – par exemple les rendements des actions LVMH et PPR – 5 paramètres suffiront à décrire leur distribution conjointe : les moyennes des rendements (2 paramètres), les variances des rendements (2 paramètres) et un coefficient de corrélation. Pour 3 facteurs de risque, nous aurons besoin de 9 paramètres ; pour n facteurs de risque, 2n + n(n − 1)/2 (n couples moyenne/variance et n(n − 1)/2 coefficients de corrélation). Les facteurs de risque sont ainsi modélisés par ce que l’on appelle un vecteur gaussien. Une erreur largement répandue consiste à affirmer que n variables aléatoires suivant une loi normale forment un vecteur gaussien à n dimensions. Dans un 156
Chapitre 8. La Value at Risk (VaR)
vecteur gaussien, toute combinaison linéaire de ses composantes suit une loi normale. C’est cette dernière condition qui détermine la structure de corrélation et qui permet la description de l’intégralité de la dépendance entre deux variables aléatoires par un unique paramètre de corrélation. Conséquence de cette simplicité de paramétrisation, la forme de la distribution d’un vecteur gaussien est relativement rigide. La figure 8.5 présente, par exemple, la densité du vecteur gaussien à deux dimensions calibrée sur les rendements des actions PPR et LVMH. Les courbes formées par l’intersection de la surface avec des plans horizontaux forment des ellipses concentriques qui représentent les zones dans lesquelles les réalisations du vecteur gaussien sont les plus probables. Le coefficient de corrélation permet d’influer sur l’aplatissement de l’ellipse et son orientation comme le montre la figure 8.6 qui présente des réalisations de vecteurs gaussiens avec diverses valeurs de corrélation. Nous reviendrons dans la dernière section de ce chapitre sur les implications et les limites de cette modélisation gaussienne.
F IGURE 8.5. Densité d’un vecteur gaussien à deux dimensions paramétré à partir des rendements des actions PPR et LVMH. La structure de corrélation imposée par le vecteur gaussien est relativement rigide. Par exemple, ainsi que le montre la densité tronquée par un plan horizontal sur la figure de droite, les courbes formées par l’intersection de la surface avec des plans horizontaux sont nécessairement des ellipses concentriques.
2.3
Impact des facteurs de risque sur le portefeuille
À ce stade, nous disposons d’une liste de facteurs de risque et de leurs distributions, que ces dernières soient empiriques ou modélisées (par un vecteur gaussien par exemple). Il reste à retranscrire ces probabilités de variation des facteurs de risque en scénarios de variation de valeur du portefeuille. Le cas de la VaR historique semble simple : il suffit d’effectuer une valorisation du portefeuille à partir des niveaux des facteurs de risque de chaque jour de l’historique dont nous disposons. Quant au cas où la distribution des facteurs de risque a été modélisée, il est possible de simuler un pseudo-historique via MATHÉMATIQUES DES MARCHÉS FINANCIERS
157
F IGURE 8.6. Tirages de vecteurs gaussiens à deux dimensions pour diverses valeurs de corrélation. Ces graphiques illustrent l’impact du coefficient de corrélation. Si le coefficient est proche de 0, les variables constitutives du vecteur sont indépendantes et les quatre quadrants sont symétriques. Si le coefficient se rapproche de 1 ou −1, le nuage s’écrase sur une des deux diagonales. Lorsque la corrélation est 1 ou −1, le nuage devient un segment car les variables sont liées de façon déterministe.
la technique de Monte-Carlo qui a été précédemment abordée. Cette méthode permet en effet de simuler un jeu de scénarios d’évolution conjointe de l’ensemble des facteurs de risque qui pourra donc être utilisé pour le calcul d’une VaR appelée VaR Monte-Carlo. Cette apparente simplicité masque néanmoins une difficulté de taille. Comment calculer la variation de valeur d’un portefeuille constitué de produits dérivés, comme des options complexes par exemple ? La valorisation de ce type d’instruments nécessite généralement l’usage de méthodes de résolution numérique gourmandes en temps de calcul et en espace mémoire. Est-il envisageable de recalculer pour chaque instrument et chaque scénario une nouvelle valeur à l’aide de tels modèles de valorisation ? La réponse à cette 158
Chapitre 8. La Value at Risk (VaR)
dernière question dépend bien évidemment de nombreux paramètres : le nombre et la complexité des produits à traiter, les ressources informatiques à disposition, la fréquence de calcul des indicateurs de VaR...
F IGURE 8.7. Développements au premier et second ordre du prix d’un call sur l’action PPR. Les deux approximations sont acceptables à proximité du point initial (matérialisé en rouge sur le graphe) mais deviennent peu précises lorsque la variation du prix de l’action sous-jacente est trop importante. On note également que l’approximation au second ordre est toujours supérieure au prix du call.
Dans de nombreux cas, un recalcul systématique n’est pas envisageable. Une solution alternative consiste alors à utiliser les sensibilités du portefeuille à chacun des facteurs de risque. Illustrons la par un exemple simple : le cas d’un portefeuille constitué d’un unique call sur l’action PPR. La valeur d’un tel instrument dépend principalement du prix de l’action sous-jacente et du niveau de la volatilité implicite. À l’aide des sensibilités du prix de l’option à ces deux facteurs de risque, il est possible d’approximer la nouvelle valeur de l’option après un choc sur ces deux paramètres. Comme le montre la figure 8.7, l’approximation ne sera acceptable que si les chocs appliqués ne sont pas trop importants. Cette sensibilité peut être prise en compte à l’ordre un, c’est-à-dire en utilisant les dérivées premières des prix par rapport aux paramètres. Le développement des sensibilités à l’ordre deux, c’est-à-dire la prise en compte des dérivées secondes, est souvent employé afin d’affiner l’approximation. Néanmoins, la figure 8.7 montre que cela ne garantit pas toujours une meilleure précision ou une approche plus conservatrice lorsque les chocs sont importants. Outre les contraintes de temps de calcul, la linéarisation du portefeuille (c’està-dire l’approximation du prix des produits par les sensibilités) comporte un MATHÉMATIQUES DES MARCHÉS FINANCIERS
159
autre avantage : il permet de calculer la VaR par une formule mathématique directe, sans recours aux simulations Monte-Carlo. C’est ce que l’on appelle la VaR paramétrique. Cette VaR est calculée dans un environnement où toutes les variations sont approximées au premier ordre et suivent des lois et des structures de corrélation gaussiennes. Dans cette configuration, rappelons que toute combinaison linéaire de ces variations suit une loi normale. Ainsi, après linéarisation, le gain d’un portefeuille peut s’exprimer comme la somme des variations des facteurs de risques multipliés par les sensibilités. Finalement, les variations de valeurs du portefeuille suivront une loi gaussienne, et grâce à cela, il devient possible de déduire la VaR sans simulations Monte-Carlo.
F IGURE 8.8. Logigramme récapitulatif des étapes nécessaires au calcul de VaR. Ce schéma résume notamment les 3 types de VaR : VaR paramétrique, VaR Monte-Carlo et VaR historique.
3 3.1
Limites de la VaR Diversification et sous-additivité
La définition du risque auquel est soumis un portefeuille est un sujet théorique mais qui comporte des implications pratiques fortes. Le risque mesuré par la VaR est le niveau de pertes qui sera atteint à une fréquence donnée. Toutefois, l’indicateur ne renseigne pas sur la gravité des pertes au delà de la VaR. Imaginons ainsi deux portefeuilles A et B : – Le portefeuille A a un niveau de VaR 90 % 1 jour de 2 Me et une moyenne estimée des pertes supérieures à la VaR de 5 Me. 160
Chapitre 8. La Value at Risk (VaR)
– Le portefeuille B a un niveau de VaR 90 % 1 jour de 2 Me et une moyenne estimée des pertes supérieures à la VaR de 2,5 Me. Si l’on se réfère uniquement à la VaR, ces deux portefeuilles semblent comporter un risque équivalent. Néanmoins, le second indicateur, c’est-à-dire la moyenne des pertes attendues supérieures à la VaR permet de déclarer que le portefeuille A est plus risqué. Modifions quelque peu notre exemple : – Le portefeuille C a un niveau de VaR 90 % 1 jour de 1,5 Me et une moyenne estimée des pertes supérieures à la VaR de 3 Me. – Le portefeuille D a un niveau de VaR 90 % 1 jour de 2 Me et une moyenne estimée des pertes supérieures à la VaR de 2,5 Me. Lequel de ces deux portefeuilles C et D est le plus risqué ? Cette question n’admet pas de réponse universelle et dépendra de la définition et de la mesure de risque employée. Afin de forger un consensus des différentes propriétés que devraient vérifier un indicateur de risque, la notion de mesure de risque cohérente a été définie. Il existe plusieurs mesures cohérentes de risque mais il n’existe pas de critères universels qui permettent d’en privilégier une à toutes les autres. Ainsi, comme nous l’avons illustré dans les exemples ci-dessus, la hiérarchisation du risque revêt nécessairement un caractère arbitraire. En revanche, il est souvent souvent reproché à la VaR de ne pas satisfaire à l’une des propriétés fondatrices des mesures cohérentes de risque : la sousadditivité. Celle-ci indique que toute diversification du portefeuille conduira nécessairement à une diminution de la mesure de risque. Sa traduction en langage mathématique est la suivante. Notons M (.) la mesure de risque et X et Y des actifs financiers différents ; la sous-additivité impose : M ( X + Y ) M ( X ) + M (Y )
(8.2)
Cette propriété semble naturelle et est notamment en accord avec les théories du portefeuille que nous avons abordées dans le chapitre 3 du présent ouvrage : la diversification réduit le risque. Il s’avère cependant que la VaR ne satisfait pas à cette propriété en toutes circonstances. Ces critiques, relatives au fait que la VaR n’est pas sous-additive, nous semblent cependant d’une importance secondaire. En effet, dans la plupart des cas, la diversification du portefeuille se traduira bien par une diminution du montant de VaR ; ce comportement sera même systématique dans le cas de la VaR gaussienne qui est bien sous-additive. De plus, les contre-exemples construits pour illustrer ce défaut font généralement état de profils de pertes potentielles très atypiques par rapport aux portefeuilles rencontrés en pratique. MATHÉMATIQUES DES MARCHÉS FINANCIERS
161
3.2
Stationnarité des facteurs de risque
L’hypothèse de stationnarité des facteurs de risque est indispensable au calcul de VaR car c’est grâce à elle que leur comportement futur peut-être déduit de l’observation du passé. Pour autant, les praticiens s’accordent à dire que cette hypothèse est infondée. L’observation de l’évolution des variances du CAC 40 et coefficients de corrélation des rendements des actions PPR et LVMH présentée en figure 8.9 permet de le confirmer. Corrélation glissante sur 100 jours
Variance glissante sur 100 jours
F IGURE 8.9. Évolution des variances du CAC 40 et du coefficient de corrélation des rendements des actions PPR et LVMH calculés sur une période glissante de 100 jours. Ce graphique illustre l’absence de stabilité des variances et corrélations.
De part cette instabilité, les VaR calculées ne pourront jamais être prédictives des pertes potentielles futures. Toutefois, l’existence de périodes de relative stabilité de la variance permet de pondérer ce constat. De plus, la VaR peut être interprétée non pas comme un estimateur prédictif des pertes potentielles futures mais comme un indicateur synthétique renseignant sur l’évolution du risque du portefeuille. Cette évolution peut être le fruit de l’action des trader, auquel cas, le mode de calcul doit être suffisamment stable pour ne pas masquer un éventuel changement de stratégie d’investissement. Elle peut également être due à une augmentation de la volatilité des actifs. Dans ce cas, le modèle de VaR doit être en mesure de capter cette évolution. Un des enjeux cruciaux du calcul devient donc l’ajustement de la période d’estimation des paramètres. La fenêtre d’estimation doit être : – suffisamment longue pour rendre compte de la tendance de fond tout en maintenant une certaine stabilité des estimateurs ; – suffisamment réactive pour répercuter dans le résultat les changements de conjoncture et de volatilité des marchés. 162
Chapitre 8. La Value at Risk (VaR)
La non-stationnarité des facteurs de risque constitue un défaut majeur de la VaR en tant qu’indicateur prédictif des pertes futures, il n’est toutefois pas rédhibitoire dans le cadre d’une utilisation de la VaR à des fins de mesure de l’évolution du risque. Ainsi, dès lors que la période d’estimation des paramètres est adéquate, la VaR est à même de déceler les risques découlant d’un changement dans la stratégie d’investissement des trader ou de variation des conditions de marché. 3.3
Limites de la modélisation gaussienne des facteurs de risque
La modélisation gaussienne de l’évolution du niveau des facteurs de risque présente de nombreux avantages : simplicité de calibration, simplicité de calcul. Comme souvent, ces avantages sont compensés par des défauts majeurs. Nous verrons au prochain chapitre que la modélisation gaussienne rend compte imparfaitement des variations du cours des actions : en particulier les variations extrêmes sont sous-représentées dans le cadre de cette modélisation. Cela est particulièrement problématique lorsque l’on cherche à modéliser les variations extrêmes des actifs financiers, et en particulier dans le cadre du calcul de la VaR. De façon équivalente, l’utilisation d’une structure de corrélation gaussienne est inapte à modéliser le comportement réel de certains facteurs de risque, comme nous allons le voir maintenant. Remémorons-nous les figures 8.5 et 8.6. Le tirage aléatoire d’un échantillon de vecteurs gaussiens produira un nuage de points formant plus ou moins une ellipse. Le nuage de points résultant présente donc une symétrie centrale par rapport au centre de l’ellipse. La forme du nuage est en effet identique dans le quadrant Sud-Est et dans le quadrant Nord-Ouest du graphique 8.6 : cela implique que la dépendance entre les actifs est identique en situation de pertes (quadrant Sud-Est) et en situation de gains (quadrant Nord-Ouest). Or, la représentation par un nuage de points de l’historique réel des rendements des actions PPR et LVMH conduit à une conclusion différente (graphique 8.10). On observe sur ce graphique qu’en cas de baisse du cours d’une des actions, l’autre aura tendance à baisser dans des proportions équivalentes. Ce phénomène ne se manifeste pas aussi clairement en cas de hausse des cours. Il s’agit d’un phénomène classiquement observé pour l’ensemble des actifs financiers : les corrélations augmentent en temps de crise. La structure de corrélation gaussienne est dans l’incapacité de modéliser un tel phénomène ce qui constitue un inconvénient de taille. La modélisation gaussienne des facteurs de risque comporte un certain nombre de défauts qui ont fait l’objet de nombreuses critiques à l’issue de la MATHÉMATIQUES DES MARCHÉS FINANCIERS
163
F IGURE 8.10. Représentation de l’historique des couples de rendements des actions PPR et LVMH. La dépendance en cas de rendements négatifs semble plus élevée que lorsque les rendements sont positifs puisque le nuage de points est plus dispersé dans le quadrant en haut à droite. Au contraire, lorsque les rendements sont négatifs (quadrant en bas à gauche) les points tendent plus à s’aligner sur la diagonale, ce qui montre une plus forte dépendance.
dernière crise financière. L’utilisation d’une telle modélisation n’est pas toujours adaptée et sa pertinence se doit d’être vérifiée. Toutefois, nous pensons que les principales critiques à formuler à l’encontre la VaR vont au-delà des débats techniques et tiennent à l’utilisation et la compréhension de la mesure. C’est l’objet de la section suivante. 3.4
Stress tests et VaR stressée
Les calculs de VaR sont utilisés par les autorités de contrôle bancaire pour estimer les montants de fonds propres réglementaires. Ceux-ci représentent les capitaux propres minimaux dont les banques ont besoin pour être autorisées à maintenir leur activité. Or, en période de crise, l’indicateur de VaR a tendance à croître fortement du fait de l’augmentation de la volatilité des facteurs de risque. Ce faisant, il réduit la marge de manœuvre des banques qui se voient parfois dans l’obligation de céder une partie de leurs actifs, précipitant ainsi d’autant plus la chute des marchés. La VaR peut ainsi être qualifiée de pro-cyclique en cela que son mode de calcul amplifie les tendances de l’économie. En conséquence, plutôt que d’aider à la maîtrise du risque, la VaR a pu contribuer à fragiliser le système. 164
Chapitre 8. La Value at Risk (VaR)
C’est notamment pour cette raison que les régulateurs des organismes bancaires ont imposé le recours à une VaR dite stressée en complément de la VaR traditionnelle. Le calcul de celle-ci s’appuie sur un historique comportant une période de crise susceptible de faire connaître des pertes majeures à l’entreprise. Par construction, cet indicateur est insensible aux cycles économiques et intègre l’effet d’une crise économique sur la distribution des facteurs de risque. Pour éviter la pro-cyclicité, les régulateurs ont également prévu d’introduire un mécanisme qui permet d’ajuster les exigences de capital en période de crise économique. Par nature, la modélisation des événements extrêmes est un exercice périlleux et critiquable. Il est impossible d’affecter des probabilités à des événements très rares et brutaux comme les crises financières. C’est pour cela que la VaR utilisée en tant qu’estimateur des pertes extrêmes est vouée à l’échec : – La VaR ne pourra jamais anticiper d’événements très rares qui ne se sont pas produits dans un passé relativement proche et si tel est le cas, la probabilité d’occurrence de cet événement risque d’être surévaluée et de biaiser le calcul. – Calculer une VaR 90 % 1 jour aura du sens car les événements conduisant à des pertes supérieures à cet indicateur arriveront en moyenne 10 fois sur un historique de 100 jours. Il sera en revanche inutile de calculer une VaR 99 % 1 an car les événements conduisant à des pertes supérieures à cet indicateur arriveront en moyenne 1 fois sur un historique de 100 ans. L’intérêt de la VaR réside donc dans sa capacité à modéliser des événements rares mais suffisamment fréquents pour être statistiquement exploitables. Lui reprocher de ne pas pouvoir modéliser et prédire des phénomènes statistiquement inobservables n’est simplement pas pertinent. Encadré 8.1. Le comité de Bâle.
Le comité de Bâle réunit les autorités de contrôle de plusieurs pays (essentiellement européens et d’Amérique du Nord) ; il propose des standards en matière de mesure des risques bancaires, de surveillance de ces risques, de calcul des exigences en fonds propres, etc. Les recommandations du comité de Bâle sont en général appelées les normes, ou accords, Bâle I (publiées en 1988), Bâle II ([Basel Committee 2006]), Bâle 2,5 ([Basel Committee 2009b]) et Bâle 3 ([Basel Committee 2010]). Ces recommandations ont ensuite vocation à être traduites dans les réglementations nationales.
C’est pourquoi le dispositif de mesure des risques est généralement complété d’indicateurs représentatifs de l’impact de scénarios de variations extrêmes des facteurs de risque. Ces indicateurs appelés stress tests préexistaient à la crise financière récente mais les scénarios les plus pessimistes se sont finalement MATHÉMATIQUES DES MARCHÉS FINANCIERS
165
révélés dépassés par l’ampleur réelle de celle-ci. Parmi les raisons de ce relatif échec identifiées par [Basel Committee 2009a] : – Une schématisation trop radicale voire l’oubli de sources de risque comme le risque de base. Le risque de base est le risque généré par une couverture imparfaite d’un actif par un autre : par exemple, couvrir le risque de crédit d’une obligation de maturité 5 ans par un CDS de maturité 10 ans, générera un risque de base. Nous sommes ici à nouveau dans la problématique de l’identification des facteurs de risque. – Une frilosité dans la construction des scénarios, les dirigeants des banques ayant généralement jugé improbables les stress tests les plus pessimistes au regard des historiques disponibles. – La schématisation excessive du fonctionnement des produits dérivés ayant masqué des risques potentiels. – Une mauvaise prise en compte du wrong way risk comme la corrélation entre le défaut d’un titre et le défaut du vendeur de protection sur ce titre. De manière générale, ce wrong way risk est la situation dans laquelle le défaut d’une contrepartie est d’autant plus probable que les contrats que nous avons avec elle sont à notre avantage. – La sous-estimation de la durée des mouvements extrêmes de marché. – Une réticence à envisager des schémas de corrélation différents de ceux observés dans le passé. – Mais aussi, une faible implication des dirigeants dans la construction et l’analyse de ces indicateurs, une organisation des banques ne favorisant pas la transversalité des informations, des systèmes d’information insuffisamment fiables ou interconnectés... Certaines de ces déficiences sont en passe d’être corrigées mais la construction de stress tests pertinents demeure une tâche complexe. En particulier, il reste difficile de se dégager de l’influence des historiques et des crises passées dans l’élaboration des scénarios de crise alors même que l’objectif de complémentarité avec la VaR l’imposerait.
166
Chapitre 8. La Value at Risk (VaR)
9 Modèles non gaussiens Les modèles que nous avons étudiés à partir du chapitre 5 reposaient tous sur des lois de probabilités gaussiennes. Au chapitre 6, nous avons affiné et adapté cette base gaussienne aux anticipations de prix du marché par le truchement des modèles de volatilité. De nombreux chercheurs et professionnels de la finance, au sein des écoles françaises notamment, proposent de sortir de ces paradigmes gaussiens pour aller vers de nouveaux types de modèles. Pour y parvenir, la première étape est d’étudier les comportements historiques des marchés financiers pour en tirer les leçons utiles et comprendre à quels endroits la modélisation gaussienne échoue ; nous présenterons cette démarche en première section. Nous ne pourrons pas, dans le cadre de ce livre, faire un tour d’horizon complet des modèles non gaussiens. Parmi les écoles très actives, évoquons les éconophysiciens dont la démarche est de partir d’une analyse empirique, physique, des marchés pour rendre compte de ses lois d’évolution. Les quant traditionnels ne sont cependant pas en reste dans l’exploration des modèles non gaussiens et continuent de développer des classes de modèles plus larges et mieux adaptées aux historiques telles que les processus de Lévy ou les processus multifractals. Dès 1963, Mandelbrot remettait en cause la loi gaussienne car elle sous-estime la probabilité d’occurrence des variations extrêmes des cours que l’on appelle « queues de distribution ». Dans [Mandelbrot 1963], il propose un modèle alternatif, fondé sur les lois Pareto-stables qui semblent à l’inverse, au vu des analyses actuelles, sur-estimer les queues de distributions empiriques. Sa modélisation offre cependant deux voies d’approfondissement majeures que nous étudierons respectivement en deuxième et troisième section : – Ses queues de distribution suivent une loi puissance. – Ses diffusions sont des processus de Lévy.
1
Mise à l’épreuve des modèles gaussiens
Jusqu’au précédent chapitre, nous évaluions la pertinence de nos modèles par leur capacité à être en phase avec les prix du marché – c’est ce qui nous a conduit au smile de volatilité. Nous allons maintenant revenir aux observations empiriques afin de confronter nos modèles aux réalités historiques des cours de bourse.
F IGURE 9.1. Historique des cours du CAC 40, du S&P 500 et du Dow Jones en base 100 au 16/07/1987.
Distribution du CAC 40 (échelle traditionnelle)
Distribution du CAC 40 (échelle logarithmique)
F IGURE 9.2. Distributions historiques des log-rendements quotidiens du CAC 40 et comparaison à la distribution d’une loi normale centrée de même volatilité. Les deux graphiques présentent les mêmes données, seule l’échelle des ordonnées diffère d’un graphe à l’autre. Ces figures démontrent que les logrendements des cours historiques ne suivent pas une loi gaussienne. Les distributions sont plus étroites et les variations extrêmes (inférieures à −4 % par exemple) sont plus probables : les mathématiciens parlent d’épaisseur des queues de distribution. Le phénomène est flagrant s’il est observé à l’échelle logarithmique, il nécessite un zoom dans le cas contraire.
Le constat que l’on doit tirer du graphique 9.2 est que le modèle gaussien ne s’accorde pas à la réalité. Le phénomène le plus flagrant est que la distribution 168
Chapitre 9. Modèles non gaussiens
historique des log-rendements 1 est moins aplatie que la distribution normale : le cœur de la distribution historique est plus pointu, concentré, et les queues de distribution sont plus épaisses. Concrètement cela signifie que, dans la distribution historique, les variations habituelles, de moindre amplitude, sont moins volatiles (cœur de distribution pointu), alors que les valeurs extrêmes sont quant à elles beaucoup plus probables que celles prévues par la loi gaussienne (queues de distribution épaisses). En d’autres termes, le modèle gaussien sous-évalue les événements rares que sont les crises et les pertes et gains exceptionnels. D’après [Haug 2007b], les premières identifications des queues de distributions épaisses reviennent à [Mitchell 1915], près de 60 ans avant le modèle de Black-Scholes. Pour détailler un peu plus ce phénomène, nous avons reproduit dans le graphique 9.3 ci-dessous les variations quotidiennes du CAC et du Dow Jones en identifiant les variations qui dépassaient les 1er et 99e centiles gaussiens. Théoriquement, dans un modèle lognormal, le taux de dépassement de chacun de ces seuils devrait être d’environ une fois sur cent, soit autour d’une soixantaine de dépassements par seuil sur les 5 980 jours d’historiques présentés. Rendements historiques du CAC 40
Rendements historiques du Dow jones
F IGURE 9.3. Les log-rendements historiques du CAC 40 et du Dow Jones Industrial Average sont ici comparés aux 1er et 99e centiles gaussiens (droites rouges). Ces seuils sont, par définition, les niveaux franchis en moyenne 1 fois sur 100 par des log-rendements gaussiens indépendants (modèle de BlackScholes). On note au contraire que les dépassements de seuils sont beaucoup plus fréquents et arrivent par grappes dans des périodes de plus grande instabilité des cours.
Or, le graphique 9.3 montre 104 dépassements à la baisse et 84 dépassements à la hausse. Ces taux de dépassement sont de plus de 30 % supérieurs à ce que 1
Pour rappel, les log-rendements sont la quantité ln dans le modèle de Black-Scholes.
MATHÉMATIQUES DES MARCHÉS FINANCIERS
S t +1 St
≈
St +1− St . Ils suivent une loi gaussienne St
169
prédit le modèle gaussien. Si l’on observe à la loupe certaines variations : – Le 19 octobre 1987 le CAC 40 perd 10 % et le Dow Jones 25 %. – Le 13 octobre 2008 le CAC 40 et le Dow Jones gagnent tous deux 10 %. – Le 28 octobre 2008 le Dow Jones gagne 10 %, le CAC 40 gagne 9 % le lendemain. De telles variations sont tout à fait aberrantes dans un modèle gaussien, leur fréquence probable d’occurrence est inférieure à 1 fois toutes les 30 millions d’années. Le graphique 9.3 montre un second phénomène très intéressant : il existe différents régimes d’amplitude de rendements. L’historique alterne les périodes calmes, de faibles variations, et des périodes de turbulence où les amplitudes de rendement sont très élevées. On constate en outre des dépassements consécutifs de nos centiles gaussiens : dans notre historique il y a 8 occurrences d’un dépassement du 99e centile gaussien 2 jours consécutifs. Si les variations étaient réellement indépendantes, la probabilité d’observer 2 dépassements consécutifs du seuil serait de (104/5 980)2 ≈ 0,03 % alors que le taux que nous constatons est 4 fois supérieur (8/5 980 ≈ 0,13 %). Ainsi, il semble bien que l’hypothèse d’indépendance des rendements soit tout aussi injustifiée que l’hypothèse gaussienne. Le graphique 9.4 retrace ces corrélations historiques sur notre période d’étude (juillet 1987 à mars 2011). Les conclusions que l’on peut tirer de ce graphique sont les suivantes : – Il ne semble pas qu’il existe de corrélation entre les log-rendements (la corrélation tourne autour de 0). En d’autres termes, la valeur du logrendement un jour donné ne nous informe pas sur les log-rendements futurs. – En revanche, il est clair que les valeurs absolues des log-rendements sont positivement corrélées. Cela signifie que si le log-rendement d’un jour donné est élevé en valeur absolue, il est probable que le log-rendement du lendemain (et des 10 jours qui suivent d’après notre graphique) soit également élevé en valeur absolue. Les sens des variations restent quant à eux incertains, ce qui garantit la non-corrélation des log-rendements. Cela signifie que les amplitudes de rendement sont liées entre elles. Les rendements sont bien décorrélés ce qui signifie que la valeur présente du rendement ne nous permet par de prédire un rendement moyen futur positif ou négatif – heureusement, sinon, il y aurait des opportunités d’arbitrage. En revanche, les rendements ne sont pas indépendants au sens où il existe un lien statistique entre les rendements passés et les rendements futurs : une forte variation passée présage, en moyenne statistique, d’une forte variation future, sans que l’on puisse pour autant en prévoir le sens. 170
Chapitre 9. Modèles non gaussiens
F IGURE 9.4. Autocorrélations historiques des log-rendements et de leur valeur absolue. Le graphique montre que les log-rendements sont décorrélés mais ne sont pas indépendants. En effet, les valeurs absolues des log-rendements semblent quant à elles bien corrélées d’un jour sur l’autre.
D’autres phénomènes peuvent être observés à la lumière des données historiques ; ils concourent tous à spécifier les exigences que nous devrions nous imposer dans la modélisation de l’évolution des actifs financiers. Nous invitons le lecteur intéressé à approfondir le sujet dans [Bouchaud et Potters 2003]. Dans cette section, nous nous sommes concentrés sur les deux observations les plus marquantes : épaisseur non gaussienne des queues de distribution ; décorrélation mais non indépendance des rendements. Il est possible d’utiliser des modèles de volatilité, tels qu’étudiés au chapitre 6, pour corriger ces imperfections du modèle gaussien. Mais une bonne compréhension des phénomènes nécessite de sortir du cadre gaussien et de ses avatars et d’étudier de nouvelles voies.
2
Les lois puissances
En 1963, Benoît Mandelbrot publie un article démontrant l’inadéquation du modèle gaussien ; il propose une famille de lois alternatives, les lois Paretostables, appelées également α-stable. Les lois gaussiennes vérifient la propriété remarquable que la somme de deux variables gaussiennes indépendantes est une variable gaussienne : les lois α-stables sont, par définition, celles qui vérifient également ce type d’assertion (la somme de lois α-stable est α-stable). Nous MATHÉMATIQUES DES MARCHÉS FINANCIERS
171
n’entrerons pas dans la théorie des lois stables mais nous nous arrêterons sur deux de leurs propriétés : – Elles possèdent en général (sauf pour le cas particulier gaussien !) une queue de distribution épaisse, qui suit une loi puissance. – Elles peuvent être modélisées par des processus de Lévy. Le second point fera l’objet de la section suivante, concentrons-nous sur les queues de distribution. Le graphique 9.5 montre un exemple de distribution αstable, la loi de Cauchy, comparée à la distribution gaussienne. Nous retrouvons exactement les caractéristiques observées dans les graphiques de la figure 9.2 : distribution plus étroite et valeurs extrêmes plus probables.
F IGURE 9.5. Comparaison des distributions d’une loi gaussienne et d’une loi de Cauchy. La loi de Cauchy possède une queue de distribution nettement plus épaisse que la loi gaussienne.
On peut démontrer que, hormis dans certains cas particuliers, les queues de distribution des lois α-stables suivent une loi puissance, c’est-à-dire que la probabilité d’observer des valeurs supérieures à x, pour x suffisamment grand, est proportionnelle à 1/x α avec 0 < α < 2. En notant S la variable aléatoire modélisée, nous dirons qu’elle suit une loi puissance si, pour x suffisamment grand : 1 P (|S| > x ) ≈ α (9.1) x Les études historiques (voir inventaire dans [Gabaix 2009] ou [Bouchaud et Potters 2003]) montrent que cette loi puissance est une bonne modélisation des queues de distribution historiques. Ces études, réalisées sur différents marchés 172
Chapitre 9. Modèles non gaussiens
(américains, européens, asiatiques) semblent même toutes montrer une loi puissance de paramètre α = 3 : p (9.2) n3 Ainsi, si la probabilité d’observer une variation plus grande que 1 % est p – la valeur de p dépend des caractéristiques propres du marché – alors la probabilité d’observer une variation de n % sera p/n3 .
P (Rendement supérieur à n %) ≈
Tout en s’inspirant des lois Pareto-stables proposées par Mandelbrot, notre constat empirique invalide ces lois car elles ne peuvent pas présenter de décroissance en 1/x3 (le paramètre α d’une loi Pareto-stable est nécessairement compris entre 0 et 2). Les distributions historiques des rendements montrent une queue de distribution moins lourde que les lois α-stables. La loi 1/x3 semble valide pour des rendements journaliers ou intra-journaliers mais sur une plus longue période, mensuelle ou annuelle par exemple, les rendements paraissent toutefois convenablement modélisés par une loi gaussienne. Ce phénomène est d’ailleurs bien pris en compte par les marchés et peut être observé via le smile et le skew de volatilité qui tendent à s’estomper sur les échéances lointaines, nous l’avions vu en fin du chapitre 5. On dit ainsi que les distributions de rendements présentent un effet d’échelle ; nous n’aurons pas le temps de l’approfondir ici. Sur une courte période de temps, les modélisations par des lois puissances en 1/x3 présentent une grande robustesse, et captent correctement les périodes de crise. En effet, les crises historiques ne semblent pas être des anomalies statistiques lorsque les rendements sont modélisés par des lois puissances ([Gabaix 2009]). Dans ces modèles, de telles crises sont des événements certes rares mais possibles alors que nous avons vu qu’elles sont complètement irréalistes dans un modèle gaussien. S’il est intéressant de relever de telles constatations empiriques, encore faut-il les expliquer : quels mécanismes, quelles hypothèses pourraient faire apparaître ces lois puissances sur les marchés ? C’est à cette question que s’attèlent certains éconophysiciens, s’inspirant d’autres domaines de modélisation. Les lois puissances sont en effet très largement répandues, elles apparaissent régulièrement dans les phénomènes physiques et socio-économiques. Le modèle de [Cont et Bouchaud 2000] utilise la théorie de la percolation pour rendre compte de l’influence qu’ont les différents opérateurs de marché les uns sur les autres. Il constitue un excellent exemple de modélisation physique de comportements financiers. La théorie de la percolation étudie les propriétés des réseaux de connections, à l’image de l’interaction des petits canaux dans une éponge dont la connectivité déterminerait les capacités filtrantes de l’éponge (dans un modèle simple, s’il MATHÉMATIQUES DES MARCHÉS FINANCIERS
173
F IGURE 9.6. Représentation graphique de la loi puissance P (|S| > x ) ≈ x1α et comparaison avec la loi gaussienne. Plus le paramètre α est élevé, plus la décroissance de la probabilité P (|S| > x ) est rapide et donc, plus les événements extrêmes sont improbables. La gaussienne décroît quant à elle plus rapidement que toutes les lois-puissances.
existe suffisamment de canaux interconnectés d’un bout à l’autre de l’éponge, alors l’eau pourra traverser l’éponge, sinon, elle sera étanche). Dans [Cont et Bouchaud 2000], les canaux sont remplacés par les trader et la connectivité des trader entre eux déterminera l’effet de troupeau, ou le degré de mimétisme. Considérons ainsi que chaque opérateur de marché est indexé par un chiffre i. Deux trader i et j peuvent être connectés ou non ; s’ils sont connectés, ils auront le même avis sur une action donnée : il faut la vendre, il faut l’acheter, il faut ne rien faire. La variation du prix de l’action est alors directement proportionnelle au solde du nombre d’acheteurs et de vendeurs : ΔSt ≈
N
∑ φi
(9.3)
i =1
Dans cette équation, i est le numéro du trader, N le nombre total d’intervenants et φi représente la position du trader : φi = −1 si le trader i vend l’action, φi = 0 s’il n’intervient pas sur le marché et φi = 1 s’il est acheteur. Le lecteur familier avec le théorème central limite (que nous aborderons dans la section suivante) remarquera immédiatement que ce modèle conduit à une variation gaussienne des prix dès lors que les avis des trader sont suffisamment indépendants et que le nombre d’intervenants est grand (N >> 1). Au contraire, le modèle de Cont et Bouchaud rend compte de l’effet de troupeau : les trader ne sont pas indépendants 174
Chapitre 9. Modèles non gaussiens
entre eux, deux trader connectés partageant nécessairement le même avis. En revanche, les avis de deux trader non connectés sont bien indépendants entre eux. Ce modèle est caractérisé par plusieurs grandeurs : – Le nombre de trader total N ; il est supposé être très grand. – Le nombre moyen de connections d’un trader est noté c. Ce paramètre fixe également la probabilité que deux trader i et j soient connectés qui est alors c/( N − 1). – Le nombre moyen total de trader intervenant effectivement sur le marché, c’est-à-dire pour lesquels φi = 0, est noté nordre . Il représente ce que l’on appelle en général la profondeur de marché. La probabilité que φi = 0 est alors par définition nordre /N.
F IGURE 9.7. Deux tirages aléatoires du modèle de mimétisme de [Cont et Bouchaud 2000]. Chaque point représente un trader, les liens entre les trader sont tirés aléatoirement. Cela permet de créer des groupes de trader liés entre eux qui auront la même position (vendeuse, neutre ou acheteuse), cette dernière étant tirée aléatoirement pour chaque groupe. Il y a 64 trader dans notre illustration, le paramètre c est fixé à 0,8 et nordre à 13 ; cela correspond à une probabilité d’acheter de 10 % environ, une probabilité de ne pas intervenir de 80 % et une probabilité de vendre de 10 %.
Si le nombre moyen de connections c est supérieur à 1, l’effet de troupeau l’emporte sur le système et le modèle diverge : les réseaux de connections (ensemble de trader connectés directement ou par l’intermédiaire d’autres trader) sont de taille tellement importante que le solde de l’offre et de la demande est arbitrairement grand. Intéressons-nous au cas où l’effet de troupeau reste modéré, si c est proche de 1 tout en étant inférieur à 1. Supposons en outre que nordre reste fini, ce qui est réaliste : le nombre d’ordres de bourse à un instant donné reste en général fini. Le modèle conduit alors à une loi puissance exponentiellement tronquée du type :
P (|S| > x ) ≈ MATHÉMATIQUES DES MARCHÉS FINANCIERS
1 − x/A e xα
(9.4)
175
Cette fonction ressemble à une loi puissance tant que x