129 59 2MB
English Pages 207 [204] Year 2023
Mathématiques et Applications 89
Jean-Pierre Crouzeix Abdelhak Hassouni Eladio Ocaña-Anaya
Optimisation convexe et inéquations variationnelles monotones
Mathématiques et Applications Volume 89
Editors-in-Chief Gilles Blanchard, Institut de Mathématiques d’Orsay, Université Paris-Saclay, Orsay, France Claire Chainais-Hillairet, Laboratoire Paul Painlevé, Université de Lille, Villeneuve d’Ascq, France
Series Editors Rémi Abgrall, Institut für Mathematik, Universität Zürich, Zurich, Switzerland Grégoire Allaire, CMAP, École Polytechnique, Palaiseau, France Karine Beauchard, ENS Rennes, Bruz, France Michel Benaïm, Institut de mathématiques, Université de Neuchâtel, Neuchâtel, Switzerland Gérard Biau, LPSM, Sorbonne Université, Paris, France Arnak Dalalyan, ENSAE / CREST, Palaiseau, France Arnaud Debussche, ENS Rennes, Bruz, France Sourour Elloumi, UMA, ENSTA, Palaiseau, France Isabelle Gallagher, DMA, ENS, Paris, France Josselin Garnier, CMAP, École Polytechnique, Palaiseau, France Stéphane Gaubert, INRIA, École Polytechnique, Palaiseau, France Emmanuel Gobet, CMAP, École Polytechnique, Palaiseau, France Raphaèle Herbin, Institut de Mathématiques de Marseille, Université d’AixMarseille, Marseille, France Claude Le Bris, CERMICS, École des Ponts ParisTech, Marne la Vallée, France Sylvie Méléard, CMAP, École Polytechnique, Palaiseau, France Felix Otto, MPI MiS, Leipzig, Germany Gabriel Peyré, DMA, ENS, Paris, France Pierre Rouchon, CAS, MINES ParisTech, Paris, France Annick Sartenaer, Département de mathématique, Université de Namur, Namur, Belgium
Eric Sonnendrücker, MPI für Plasmaphysik, Garching, Germany Alain Trouvé, Centre Borelli, ENS Paris-Saclay, Gif-sur-Yvette, France Cédric Villani, IHP, Paris, France Enrique Zuazua, Department of Mathematics, Friedrich-Alexander-Universität, Erlangen-Nürnberg, Germany
Le but de cette collection, créée par la Société de Mathématiques Appliquées et Industrielles (SMAI), est d’éditer des cours avancés de Master et d’école doctorale ou de dernière année d’école d’ingénieurs. Les lecteurs concernés sont donc des étudiants, mais également des chercheurs et ingénieurs qui veulent s’initier aux méthodes et aux résultats des mathématiques appliquées. Certains ouvrages auront ainsi une vocation purement pédagogique alors que d’autres pourront constituer des textes de référence.La principale source des manuscrits réside dans les très nombreux cours qui sont enseignés en France, compte tenu de la variété des diplômes de fin d’études ou des options de mathématiques appliquées dans les écoles d’ingénieurs. Mais ce n’est pas l’unique source: certains textes pourront avoir une autre origine. This series was founded by the “Société de Mathématiques Appliquées et Industrielles” (SMAI) with the purpose of publishing graduate-level textbooks in applied mathematics. It is mainly addressed to graduate students, but researchers and engineers will often find here advanced introductions to current research and to recent results in various branches of applied mathematics. The books arise, in the main, from the numerous graduate courses given in French universities and engineering schools (“grandes écoles d’ingénieurs”). While some are simple textbooks, others can also serve as references.
Jean-Pierre Crouzeix • Abdelhak Hassouni • Eladio Ocaña-Anaya
Optimisation convexe et inéquations variationnelles monotones
Jean-Pierre Crouzeix LIMOS, UMR CNRS 6158 Université Clermont-Auvergne Aubière, France
Abdelhak Hassouni Laboratoire LAMA, Faculté des Sciences Université Mohammed 5 Rabat, Morocco
Eladio Ocaña-Anaya IMCA & FC Universidad Nacional de Ingeniería Lima, Peru
ISSN 1154-483X ISSN 2198-3275 (electronic) Mathématiques et Applications ISBN 978-3-031-30680-8 ISBN 978-3-031-30681-5 (eBook) https://doi.org/10.1007/978-3-031-30681-5 Mathematics Subject Classification: 46A55, 46N10, 49N15, 52A41 © The Editor(s) (if applicable) and The Author(s), under exclusive license to Springer Nature Switzerland AG 2023 This work is subject to copyright. All rights are solely and exclusively licensed by the Publisher, whether the whole or part of the material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation, broadcasting, reproduction on microfilms or in any other physical way, and transmission or information storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology now known or hereafter developed. The use of general descriptive names, registered names, trademarks, service marks, etc. in this publication does not imply, even in the absence of a specific statement, that such names are exempt from the relevant protective laws and regulations and therefore free for general use. The publisher, the authors, and the editors are safe to assume that the advice and information in this book are believed to be true and accurate at the date of publication. Neither the publisher nor the authors or the editors give a warranty, expressed or implied, with respect to the material contained herein or for any errors or omissions that may have been made. The publisher remains neutral with regard to jurisdictional claims in published maps and institutional affiliations. This Springer imprint is published by the registered company Springer Nature Switzerland AG The registered company address is: Gewerbestrasse 11, 6330 Cham, Switzerland
Ce livre est dédié à Mireille, Nathalie et Thomas, Asma, Oumayma et Omar, Emperatriz et Máximo.
Préface
Ce livre est destiné aux étudiants en master de mathématiques appliquées, aux doctorants, chercheurs et ingénieurs désirant comprendre les fondements de l’analyse convexe et de la théorie des inéquations variationnelles monotones. Il a été conçu de façon à les présenter de la manière la plus simple et naturelle avec une approche géométrique faisant plus jouer la part de l’intuition que ne le permettrait une approche analytique. Nous avons pris grand soin à la clarté des démonstrations et donné de nombreux exemples pour illustrer certains résultats et fourni des contreexemples pour en indiquer les limites. La dualité est une notion fondamentale en optimisation convexe. Pour donner un exemple, un polyèdre convexe est défini comme une intersection de demi espaces affines fermés ou, de façon équivalente, à partir de ses sommets et de ses directions. La dualité permet d’aborder un même problème sous deux angles différents, chaque angle donnant un éclairage différent, permettant une meilleure vision du problème dans son ensemble. Elle permet de regarder le comportement des solutions face à des perturbations sur les données. Les problèmes d’optimisation convexe peuvent se mettre sous forme de systèmes d’inéquations variationnelles monotones, mais la réciproque est fausse. Nous avons rédigé les chapitres consacrés aux systèmes d’inéquations variationnelles avec le même esprit que celui pris pour l’optimisation convexe en soulignant l’aspect géométrique. Nous avons fait le lien entre les résultats obtenus pour une ou autre formulation. Enfin, nous avons en particulier développé une théorie de la dualité permettant ainsi un nouvel éclairage sur certains résultats et leurs justifications. Géométrie et dualité sont les deux lignes fortes retenues dans la rédaction de cet ouvrage. Ce livre s’intéresse principalement à l’aspect théorique et peu à l’aspect numérique. Nous avons fait exception pour deux algorithmes de programmation linéaire que nous avons développés en raison de la dualité qui y est sous-jacente.
vii
viii
Préface
L’algorithme du simplexe qui fournit en même temps les solutions des problèmes primal et du dual et l’algorithme de Karmarkar pour lequel nous avons proposé une démonstration complète, concise et rigoureuse. Aubière, France Rabat, Morocco Lima, Peru
Jean-Pierre Crouzeix Abdelhak Hassouni Eladio Ocaña-Anaya
Introduction
L’optimisation et les inéquations variationnelles interviennent dans des domaines très variés tels l’économie, la logistique, la production, la gestion des ressources naturelles, la théorie des jeux, la théorie de l’information, le traitement du signal et des images, la physique, la mécanique, et bien d’autres. Très souvent, la convexité est présente dans les problèmes d’optimisation à travers la fonction à minimiser et les contraintes. Très souvent une structure de monotonie est présente dans les modélisations par des inéquations variationnelles. Ce livre est consacré à la théorie des ensembles et fonctions convexes, à la théorie des opérateurs monotones et à la résolution des inéquations variationnelles monotones. Si tout problème d’optimisation convexe peut, à travers les conditions d’optimalité, se transcrire sous la forme d’inéquations variationnelles monotones, certaines modélisations de problèmes de mécanique, économie, théorie des jeux, transport,..., conduisent à un système d’inéquations variationnelles monotones qui ne peut se transcrire sous forme d’un problème d’optimisation convexe : la théorie des inéquations variationnelles monotones n’est point une simple généralisation de la théorie de la convexité. Cet ouvrage se divise en deux parties. La première, les chapitres 1 à 3, est consacrée à l’étude des ensembles et des fonctions convexes. La convexité est dans son essence même géométrique. C’est pour cette raison que nous avons suivi dans ce livre une approche géométrique et non analytique comme cela est fait habituellement, une approche analytique masquant trop souvent, à notre avis, la géométrie sous-jacente. On peut en effet considérer la convexité comme une notion prétopologique – en dimension finie, l’intérieur géométrique d’un convexe n’est rien d’autre que son intérieur topologique. C’est afin de garder cette vision géométrique, que nous nous sommes limités à la dimension finie - certains résultats n’étant plus valables (l’intérieur relatif d’un convexe non vide est non vide en dimension finie) ou bien s’étendant mal (intérieur relatif) à la dimension infinie et cela au prix d’un formalisme assez lourd. Après avoir étudié les propriétés essentielles des ensembles convexes, nous abordons celles des fonctions convexes à travers leurs épigraphes. La conjugaison des fonctions convexes est abordée dans le chapitre 2, comme conséquence de la ix
x
Introduction
dualité entre cônes convexes, puis nous passons à l’étude du sous-différentiel et de ses propriétés de continuité en tant qu’opérateur multivoque. Nous décrivons dans le chapitre 3 un schéma général de dualité tout à fait symétrique pour les problèmes d’optimisation convexe basé sur des perturbations du problème initial. Cette dualité permet une meilleure compréhension et une meilleure interprétation du problème originel, elle permet en outre l’étude des solutions optimales sous l’effet de perturbations sur les contraintes. Nous avons mis plus particulièrement l’accent sur la dualité en programmation linéaire. Le chapitre se termine avec deux algorithmes emblématiques, l’algorithme du simplexe et l’algorithme de Karmarkar. La seconde partie de cet ouvrage, les chapitres 4 à 6, est consacrée aux inéquations variationnelles monotones. De la même manière que, pour la convexité nous avions mis l’accent sur l’aspect géométrique des ensembles convexes, nous abordons l’étude des multiapplications monotones à travers les propriétés de leurs graphes. Puisque les inéquations variationnelles monotones généralisent les problèmes d’optimisation convexes, nous nous attachons à mettre en évidence les liens entre ces deux objets d’étude. C’est ainsi que nous nous penchons sur l’existence et la caractérisation des solutions d’inéquations variationnelles monotones, de la régularité de ces solutions sous l’effet de perturbations. Enfin, le dernier chapitre présente un schéma de dualité parfaitement symétrique.
Table des matières
1 Ensembles et fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Ensembles convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Théorème de Carathéodory. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3 Topologie des ensembles convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.4 Ensembles presque convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.5 Cône de récession d’un ensemble convexe . . . . . . . . . . . . . . . . . . . . 1.1.6 Projection sur un convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.7 Séparation de deux convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.8 Théorèmes de type Helly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.9 Points extrémaux, théorème de Minkowsky . . . . . . . . . . . . . . . . . . . 1.2 Fonctions, continuité et convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Définitions et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Semi-continuité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3 Fonctions convexes, définition et premières propriétés . . . . . . . 1.2.4 Fonctions convexes d’une variable réelle . . . . . . . . . . . . . . . . . . . . . . 1.2.5 Fonctions convexes de plusieurs variables. . . . . . . . . . . . . . . . . . . . . 1.2.6 Normes vectorielles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.7 Fonctions de récession. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Solutions optimales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Unicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Existence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.4 Forte convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.5 Principe variationnel d’Ekeland . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1 1 3 6 8 9 11 13 14 16 17 17 18 19 22 24 27 28 29 29 29 32 33 35
2
37 37 37 39
Dualité et Sous-Différentiabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 La dualité sur les cônes convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Ensembles polaires et cônes duaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 La dualité sur les polyèdres convexes. . . . . . . . . . . . . . . . . . . . . . . . . .
xi
xii
Table des matières
2.2 La dualité sur les fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Fonctions convexes conjuguées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Fonctions indicatrice et support, cône barrière . . . . . . . . . . . . . . . . 2.2.3 Opérateurs d’aggrégation ordonnés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Analyse en composantes principales. . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.5 Normes duales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.6 Homogénéisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Sous-différentiel d’une fonction convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Multiapplications : définition et continuité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Domaine du sous-différentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Continuité du sous-différentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Sous-différentiel et dérivées directionnelles . . . . . . . . . . . . . . . . . . . 2.4.4 Fréchet différentiabilité des fonctions convexes. . . . . . . . . . . . . . . 2.4.5 Monotonie et intégration convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43 43 45 47 48 49 50 51 52 54 56 56 58 60
3
Dualité, Lagrangien, Points de Selle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.1 Dualité en optimisation convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.1.1 Un schéma général de dualité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.1.2 Cône normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.2 Sous-différentiel d’une somme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.3 Conditions d’optimalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.3.1 Minimisation sous contraintes inégalités . . . . . . . . . . . . . . . . . . . . . . 74 3.3.2 Contraintes égalités et inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.3.3 Minimisation d’une fonction différentiable sur un convexe . . 78 3.4 Programmation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.4.1 La dualité en programmation linéaire. . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.4.2 Théorèmes d’alternatives, lemme de Farkas. . . . . . . . . . . . . . . . . . . 80 3.5 Minimax et points de selle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.5.1 Théorème du point de selle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.5.2 Jeu à somme nulle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.5.3 Théorème du minimax de Maurice Sion. . . . . . . . . . . . . . . . . . . . . . . 87 3.5.4 Le modèle d’expansion économique de von Neumann . . . . . . . 89 3.6 Inf-convolution et application proximale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.6.1 Somme et Inf-convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.6.2 Application proximale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 3.6.3 Méthode proximale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.7 Algorithmes de programmation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 3.7.1 L’algorithme du simplexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 3.7.2 L’algorithme de Karmarkar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4
Monotonie et maximale monotonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Introduction aux inéquations variationnelles . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Maximale monotonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Maximalité et domaine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Maximalité locale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Bifunctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
117 117 120 122 125 130
Table des matières
xiii
4.2.4 Caractérisation de la maximale monotonie . . . . . . . . . . . . . . . . . . . . 4.2.5 Retour sur l’algorithme proximal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.6 Maximalité d’une somme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.7 Composition avec une application linéaire . . . . . . . . . . . . . . . . . . . . 4.2.8 Maximale monotonie : construction et existence. . . . . . . . . . . . . . 4.3 Cyclique Monotonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Cyclique maximalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
131 134 136 139 140 141 143
5
Inéquations Variationnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Inéquations variationnelles monotones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Existence de solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Quelques exemples. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Optimisation convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Points de selle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.3 Jeu bimatriciel, équilibre de Nash. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Compléments sur l’ensemble solution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Problèmes d’équilibre monotones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
145 145 146 148 153 154 155 155 157 161
6
Dualité et Inéquations Variationnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Un schéma général de dualité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Composition avec une application linéaire . . . . . . . . . . . . . . . . . . . . 6.2.2 Somme de deux multiapplications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.3 Comment traiter les contraintes? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Problèmes de complémentarité. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.1 Complémentarité linéaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.2 Quelques mots sur l’aspect algorithmique . . . . . . . . . . . . . . . . . . . . .
163 163 167 167 169 171 176 178 180
Commentaires et notes bibliographiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
Chapter 1
Ensembles et fonctions convexes
Soit E un espace vectoriel sur .R.
1.1 Ensembles convexes 1.1.1 Définitions Un sous-ensemble . C de .E est dit être convexe si tx + (1 − t)y ∈ C
.
∀ x, y ∈ C, ∀ t ∈ [0, 1].
Il est clair que toute intersection d’ensembles convexes de E est un ensemble convexe de E. En particulier, l’intersection de tous les convexes contenant un ensemble .A ⊂ E est convexe - on l’appelle enveloppe convexe de A et on la note .conv (A) - c’est aussi le plus petit convexe contenant A. On voit qu’un sousensemble C de E est convexe si et seulement si .C = conv (C). Il est clair que . conv (A1 ) ⊂ conv (A2 ) lorsque . A1 ⊂ A2 ⊂ E. Proposition 1.1 La fermeture d’un convexe dans un espace vectoriel topologique est convexe. Preuve : Soit C un sous-ensemble convexe de l’espace vectoriel topologique E. Etant donnés .a, b ∈ C et .t ∈ ] 0, 1 [, il faut montrer que .V ∩ C = ∅ pour tout voisinage V de .ta + (1 − t)b. Il existe .V1 voisinage de ta et .V2 voisinage de .(1 − t)b tels que .V1 + V2 ⊂ V . Il existe .W1 voisinage de a et .W2 voisinage de b tels que .tW1 ⊂ V1 et .(1−t)W2 ⊂ V2 . Puisque .a, b ∈ C, il existe .x1 ∈ W1 ∩C et .x2 ∈ W2 ∩C. Mais alors .tx1 +(1−t)x2 ∈ V ∩ C. .
© The Author(s), under exclusive license to Springer Nature Switzerland AG 2023 J.-P. Crouzeix et al., Optimisation convexe et inéquations variationnelles monotones, Mathématiques et Applications 89, https://doi.org/10.1007/978-3-031-30681-5_1
1
2
1 Ensembles et fonctions convexes
Fig. 1.1 Illustration d’un ensemble convexe
Fig. 1.2 Illustration d’enveloppe convexe
Lorsque E est un espace vectoriel topologique, l’enveloppe convexe fermée de A, notée .conv (A), est l’intersection de tous les convexes fermés contenant un ensemble .A. C’est aussi le plus petit convexe fermé contenant A. En outre, en raison de la proposition précédente, .conv (A) = conv (A). Un ensemble .K ⊂ E est dit être un cône, si .λx ∈ K pour tout .x ∈ K et pour tout .λ > 0. Il est dit être épointé s’il ne contient pas l’origine. Le cône engendré par un sous-ensemble S de E, noté cône .(S), est l’ensemble .{λx : x ∈ S, λ > 0}. Les propriétés suivantes se déduisent immédiatement des définitions. a) b) c) d)
Un cône K est convexe si et seulement si . K + K ⊂ K. Si . {Ki }i∈I est une famille de cônes, .∩i∈I Ki est aussi un cône. Si S est convexe, cône .(S) est convexe. cône .(S) coïncide avec l’enveloppe conique de S qui est l’intersection de tous les cônes qui contiennent S, c’est aussi le plus petit cône contenant S.
Un ensemble .H ⊂ E est dit être un sous-espace affine si, étant donné .a ∈ H arbitraire, le translaté .H − a = {h − a : h ∈ H } est un sous-espace vectoriel. Etant donné .S ⊂ E, le sous-espace affine engendré par S, dénoté par .aff (S) désigne le plus petit sous espace affine contenant S. Par définition, la dimension de S, notée .dim(S), est la dimension du sous-espace vectoriel .aff (S) − a. Les propriétés suivantes se déduisent immédiatement des définitions. a) Si H est un sous-espace affine, alors .H − a = H − b pour tout .a, b ∈ H . b) Si .{Hi }i∈I est une famille de sous-espaces affines de E, alors .∩i∈I Hi est aussi un sous-espace affine.
1.1 Ensembles convexes
3
c) Si .a ∈ S ⊂ E, alors aff (S) = {a +
p
.
p
p
ti (bi − a) : p ∈ N, {ti }i=1 ⊂ R, {bi }i=1 ⊂ S}.
i=1
d) Si .S1 ⊂ S2 , alors . aff (S1 ) ⊂ aff (S2 ). e) .aff (S) = aff (conv (S)).
Fig. 1.3 L’enveloppe conique d’un ensemble
1.1.2 Théorème de Carathéodory On dit que .x ∈ E est combinaison convexe des points .x1 , x2 , · · · , xp de E s’il est de la forme x=
p
.
i=1
λi xi ,
λ1 , λ2 , · · · , λp ≥ 0,
1=
p
λi .
i=1
On montre facilement par récurrence qu’un ensemble C est convexe si et seulement s’il contient les combinaisons convexes finies de ses points. Le résultat suivant est fondamental.
4
1 Ensembles et fonctions convexes
Théorème 1.1 Soit .a ∈ A ⊂ E. Alors, ⎧ ⎨
⎫ ∃ p ∈ N, p ≥ 1, ⎬ .conv (A) = x=a+ λi (xi − a) : ∃ xi ∈ A, ∃ λi > 0, i = 1, · · · , p , p ⎩ ⎭ i=1 tels que 1 ≥ i=1 λi p
les p vecteurs .(xi − a) étant linéairement indépendants. Preuve : Si .x ∈ conv (A), il est de la forme x = λ0 a +
p
.
λi xi = a +
i=1
p
λi (xi − a)
(1.1)
i=1
p avec .1 = λ0 + i=1 λi et, pour .i = 1, · · · , p, .xi ∈ A et .λi > 0, .λ0 ≥ 0 étant éventuellement nul. Si les vecteurs .(xi − a) sont linéairement indépendants, c’est terminé. Sinon, on peut trouver des quantités .μ1 , μ2 , · · · , μp ∈ R non toutes nulles telles p que .0 = i=1 μi (xi − a). Soit k tel que .μk = 0. On a x=a+
.
ξi (xi − a) avec ξi = λi −
i=k
λk μi λi λk = μk μk
μk μi . − λk λi
On observe que l’on a .
i=k
ξi =
p i=1
⎡ ⎤ p λk ⎣ λk ⎦ λi − μi = 1 − λ0 − μi . μk + μk μk i=k
i=1
p Sans perte de généralité, on impose . i=1 μi ≥ 0 (sinon changer les signes des .μi ). Puisque les .μi ne sont pas tous nuls, certains d’entre eux sont strictement −1 positifs. On renumérote les .μj de façon à avoir .μp λ−1 p ≥ μi λi pour tout i. On a alors ξi ≥ 0 ∀ i et
p−1
.
ξi ≤ 1 − λ0 ≤ 1.
i=1
On élimine les i pour lesquels .ξi = 0. On a alors une nouvelle expression de x sous la forme (1.1) et on recommence le processus. Celui-ci se termine en un nombre finie d’étapes puisque p diminue à chaque fois d’au moins une unité. . Lorsque E est de dimension finie, le théorème s’écrit comme suit. Théorème 1.2 Soit .a ∈ A ⊂ Rn . Si .x ∈ conv (A), il existe un entier .p ≤ n, .x1 , x2 , · · · , xp ∈ A, .λ1 , λ2 , · · · , λp > 0 tels que
1.1 Ensembles convexes
5 p
.
λi ≤ 1 et x = a +
i=1
p
λi (xi − a).
i=1
Preuve : Dans .Rn, il ne peut y avoir plus de n vecteurs qui soient linéairement indépendants. . Ce théorème s’énonce souvent comme suit : Tout point de l’enveloppe convexe d’un sous-ensemble A de .Rn peut s’écrire comme combinaison convexe d’au plus .n + 1 de points de A. C’est le célèbre théorème de Carathéodory [13]. x2
x3
x4
x1
x5
x6
Fig. 1.4 Théorème de Carathéodory sur .R2
Il est facile de montrer que dans un espace vectoriel normé l’enveloppe convexe d’un ensemble borné est bornée. Cependant l’enveloppe convexe d’un ensemble fermé n’est pas nécessairement fermée. Considérer par exemple dans .R2 l’ensemble .S = {(x, y) : x > 0, xy ≥ 1} ∪ {(0, 0)}. Son enveloppe convexe 2 .conv (S) = {(x, y) ∈ R : x > 0, y > 0} ∪ {(0, 0)} n’est pas fermée. Proposition 1.2 Soit .S ⊂ Rn fermé borné non vide. Alors .conv (S) est un convexe fermé borné. Preuve : Posons . = {λ ∈ [0, +∞ [n+1 : ni=0 λi = 1}. Soit f définie sur .S n+1 × par f (x0 , x1 , · · · , xn , λ) =
n
.
λi xi .
i=0
En raison du théorème de Carathéodory, .conv (S) n’est rien d’autre que l’image par . la fonction continue f du compact .S n+1 × , donc est compact.
6
1 Ensembles et fonctions convexes
1.1.3 Topologie des ensembles convexes A partir de maintenant on supposera que .E est un espace vectoriel normé. On désigne par .B(0, r) la boule ouverte de centre 0 et de rayon r. Si .E = Rn , sauf indications particulières, la norme utilisée est la norme euclidienne. Théorème 1.3 Soit C un sous-ensemble convexe de E. 1) Si .a ∈ int (C), . b ∈ C et .t¯ ∈ [ 0, 1 [, alors .c = a + t¯ (b − a) ∈ int (C). 2) La fermeture de C et l’intérieur de C sont convexes. 3) Si .int (C) = ∅, alors .C = int (C) et . int (C) = int (C). Preuve : 1) Choisissons .r > 0 tel que .c ∈ / B(a, r) ⊂ C. Soit V = {z = c + t (c − y) : y ∈ B(a, r), t > 0 }.
.
V est un voisinage ouvert de b. Il existe donc .z ∈ V ∩ C. Soit W = {x = z + t (y − z) : y ∈ B(a, r), t ∈]0, 1[ }.
.
Par construction W est ouvert et .c ∈ W ⊂ C. Il s’ensuit que .c ∈ int (C). 2) Voici une autre démonstration de la fermeture qui s’applique aux espaces normés. Soient .a, b ∈ C et .t ∈]0, 1[. Il existe une suite .{(ak , bk )}k ⊂ C convergeant vers .(a, b). Donc la suite .{ak + t (bk − ak }k est contenue dans C et elle converge vers .a + t (b − a). Donc .C est convexe. Supposons .a, b ∈ int (C) et .t ∈]0, 1[. Puisque .b ∈ int (C) ⊂ C, on a .a + t (b − a) ∈ int (C) en raison de 1). 3) Par hypothèse un point .a ∈ int (C) existe. Prenons .b ∈ C, alors pour tout .k > 1, −1 (a − b) ∈ int (C). Il s’ensuit .b ∈ int (C). .b + k On sait que .int (C) ⊂ int (C). Soient .a ∈ int (C) et .b ∈ int (C). il existe .λ > 0 tel que .c = b + λ(b − a) ∈ C. Mais alors .b = (1 + λ)−1 (c + λa) ∈ int (C) en raison de 1) et donc .b ∈ int (C). . Ce théorème montre combien les structures géométrique et topologique des ensembles convexes s’interférent entre elles. Il est quelquefois dit que la convexité est une structure prétopologique, c’est particulièrement vrai en dimension finie comme montré ci-dessous. On dit que a appartient à l’intérieur géométrique de .C ⊂ Rn si, pour tout n .d ∈ R , il existe .td > 0 tel que .a + td ∈ C pour tout .t ∈ [ −td , td ]. On le note .intg (C). Proposition 1.3 L’intérieur géométrique d’un convexe de . Rn coïncide avec son intérieur topologique. Preuve : Dénotons par .{e1 , e2 , · · · , en } la base canonique de .Rn . Soit .a ∈ intg (C). Pour chaque i il existe .ti > 0 tel que .a + tei ∈ C pour tout .t ∈ [ −ti , ti ] . C étant
1.1 Ensembles convexes
7
convexe contient l’enveloppe convexe des 2n points .a ± ti ei et en conséquence int (C) ⊃ intg (C). L’inclusion inverse est évidente. .
.
Lorsque C a un intérieur vide, on utilise son intérieur relatif. Celui-ci est défini comme l’intérieur de C pour E muni de la topologie induite par celle de E sur le (la fermeture du) sous-espace affine engendré par C. On le note par .ri (C). La proposition suivante ne s’applique qu’à la dimension finie. Théorème 1.4 L’intérieur relatif d’un sous-ensemble convexe de .Rn non vide est non vide. Preuve : Soit .C ⊂ Rn convexe non vide et .a ∈ C. Dénotons par H le sous espace affine engendré par le convexe .C ⊂ Rn . Soit p la dimension de H . Si .p = 1, terminé. Sinon, on peut trouver .x1 , x2 , · · · , xp ∈ C tels que les vecteurs .xi − a soient linéairement indépendants et que l’on ait H = {x = a +
p
.
λi (xi − a) : λ ∈ Rp }.
i=1
L’ensemble V = {x = a +
p
.
λi (xi − a) : λ ∈]0, 1[p ,
i=1
p
λi < 1}
i=1
est contenu dans C puisque ses points sont des combinaisons convexes de points de C. C’est aussi un ouvert pour la topologie de H . Donc, .ri (C) est non vide. . Le théorème 1.3 se transpose comme suit. Théorème 1.5 Soit C un sous-ensemble convexe non vide de .Rn . 1) Si .a ∈ ri (C), . b ∈ C et .t¯ ∈ [ 0, 1[, alors .c = a + t¯ (b − a) ∈ ri (C). 2) La fermeture de C et l’intérieur relatif de C sont convexes. 3) .C = ri (C) et . ri (C) = ri (C). Preuve : Il suffit de transposer les démonstrations du théorème 1.3.
.
La notion d’intérieur relatif perd son intérêt en dimension infinie. Ceci joint au théorème de Carathéodory et à la proposition 1.3 fait que l’analyse convexe en dimension finie mérite un traitement à part, certaines de ses nombreuses propriétés fondamentales étant difficilement transposables, sinon au moyen de conditions techniques, en dimension infinie. A partir de maintenant, nous nous limiterons à l’étude des notions de convexité sur les espaces de dimension finie.
8
1 Ensembles et fonctions convexes
1.1.4 Ensembles presque convexes On dit que .C ⊂ Rn est presque convexe si son intérieur relatif et sa fermeture sont convexes et ont même intérieur relatif et même fermeture.
Fig. 1.5 Ensemble presque convexe
Proposition 1.4 Soient .A : Rn → Rp une application linéaire et .C un sousensemble de .Rn qui est presque convexe et non vide. Alors, .A(ri (C)) = ri (A(C)) = ri (A(C)) et .A(ri (C)) = A(C) = A( C ). Il s’ensuit que .A(C) est presque convexe. Preuve : i) Supposons dans un premier temps C convexe. Il est facile de voir que A(ri (C)) ⊂ A(C) ⊂ A( C ) = A( ri (C) ) ⊂ A(ri (C)) ⊂ A(C).
.
En passant à la fermeture on obtient .A(ri (C)) = A(C) = A( C ). Les trois ensembles convexes .A(ri (C)), A(C) et .A(C) ont même fermeture, ils ont donc même intérieur relatif. Ainsi A(ri (C)) ⊃ ri (A(ri (C))) = ri (A(C)) = ri (A(C)).
.
ii) Le convexe .A(C) est non vide, il en est de même de son intérieur relatif. Il existe donc .x0 ∈ C tel que .Ax0 ∈ ri (A(C)). Soit .y¯ ∈ A(ri (C)) arbitraire. Il existe .x ¯ ∈ ri (C) tel que .y¯ = Ax. ¯ Prenons .x1 ∈ C et .λ > 0 tels que .x1 = x¯ + λ(x¯ − x0 ), de tels .x1 et .λ existent puisque .x0 ∈ C et .x¯ ∈ ri (C). .y¯ = Ax¯ ∈ ri (A(C)) puisque .Ax1 ∈ A(C) et .Ax0 ∈ ri (A(C)). Ainsi .A(ri (C)) ⊂ ri (A(C)). iii) Plaçons-nous maintenant dans le cas où C est presque convexe. .C est alors convexe et donc A(C) ⊃ A(ri (C)) = A(ri (C)) = ri (A(C)) ⊃ ri (A(C)).
.
Observons que .A(ri (C)) est un ouvert relatif puisqu’il coïncide avec .ri (A(C)). En passant aux intérieurs relatifs, on obtient
1.1 Ensembles convexes
9
ri (A(C)) ⊃ A(ri (C)) = ri (A(C)) ⊃ ri (A(C)).
.
Donc .ri (A(C)) = A(ri (C)) = A(ri (C)) = ri (A(C)). .ri (A(C)) est donc convexe. Passer ensuite à la fermeture. . Corollaire 1.1 Soient C et D deux sous-ensembles de .Rn presque convexes non vides, alors .C + D est presque convexe et on a .ri (C) + ri (D) = ri (C + D). Preuve : Il est clair que .ri (C × D) = ri (C) × ri (D). Considérer l’application linéaire .A : Rn × Rn → Rn définie par .A(x, y) = x + y. . Proposition 1.5 Etant donnés .C ⊂ Rn × Rp presque convexe et .u ∈ Rp , on pose .Cu = {x : (x, u) ∈ C}. S’il existe .x0 tel que .(x0 , u) ∈ ri (C), l’ensemble .Cu est presque convexe et on a ri (Cu ) = {x ∈ Rn : (x, u) ∈ ri (C)},
.
Cu = {x ∈ Rn : (x, u) ∈ C }.
Preuve : i) Etudions tout d’abord le cas où C est d’intérieur non vide. Supposons .(y, u) ∈ int (C). On peut trouver un voisinage Y de y et un voisinage U de u tel que .Y × U ⊂ int (C). Mais alors .Y ⊂ int (Cu ) et .int (Cu ) × {u} ⊃ int (C) ∩ [ Rn × {u} ]. Supposons maintenant .y ∈ int (Cu ). On peut trouver .x1 ∈ Cu et .λ > 0 tels que .x1 = y + λ(y − x0 ), de tels .x1 et .λ existent puisque .x0 ∈ Cu et .y ∈ int (Cu ). Puisque .(x1 , u) ∈ C et .(x0 , u) ∈ int (C) on a .(y, u) ∈ int (C) et donc n .int (Cu ) × {u} ⊂ int (C) ∩ R × {u}. Passer ensuite à la fermeture. ii) Plaçons-nous maintenant dans le cas où .int (C) = ∅. Considérons le sous espace affine E engendré par C. .(x0 , u) appartient à l’intérieur de C considéré comme sous-ensemble de E muni de la topologie induite. Appliquer le résultat précédent. . Voici un exemple montrant la nécessité de la condition sur l’intérieur. Prenons C = ] 0, ∞ [2 ∪ [ [0, 1] × {0} ] ⊂ R2 . C est convexe, .ri (C) = ]0, ∞[2 , .C0 = {x ∈ R : (x, 0) ∈ C} = [0, 1]. On a .ri (C0 ) = ] 0, 1 [ tandis que .{x ∈ R : (x, 0) ∈ ri (C)} = ∅.
.
1.1.5 Cône de récession d’un ensemble convexe Etant donnés .C ⊂ Rn convexe fermé non vide et .a ∈ C, on pose C∞ (a) = {d ∈ Rn : a + td ∈ C ∀ t > 0}.
.
Il est facile de voir que .C∞ (a) est un cône convexe fermé. Nous allons montrer que C∞ (a) ne dépend pas du point a choisi dans C. Soient donc .a, b ∈ C, il nous faut
.
10
1 Ensembles et fonctions convexes
montrer que si .d ∈ C∞ (a), alors pour tout .λ > 0 on a .b + λd ∈ C. Pour tout .k > λ entier, .a + kd ∈ C et donc .xk = b + λk (a + kd − b) ∈ C. Or .xk → b + λd lorsque .k → +∞ puisque C est fermé. D’où le résultat attendu. Il n’est donc pas nécessaire de mentionner le point choisi. Par définition, le cône de récession appelé aussi cône asymptote d’un convexe fermé non vide C est défini par C∞ = {d ∈ Rn : a + td ∈ C ∀ t > 0},
.
a étant un point arbitraire de C. .C∞ est un cône convexe fermé non vide, éventuellement réduit à l’origine.
C = {(x, y): x 0, y 0, xy 1}
(0, 0)
C∞ = {(x, y): x 0, y 0}
(0, 0)
Fig. 1.6 Cône de récession d’un ensemble
Proposition 1.6 Soient .C ⊂ Rn un convexe fermé, .a ∈ C et .d¯ ∈ Rn tels qu’il existe une suite .{dk } convergeant vers .d¯ et une suite .{tk } convergeant vers .+∞ avec .a + tk dk ∈ C pour tout k. Alors .d¯ ∈ C∞ . Preuve : Si .d¯ ∈ / C. Puisque C est fermé et la / C∞ il existe .t¯ > 0 tel que .a + t¯d¯ ∈ suite .{dk } converge vers d, il existe un voisinage V de d tel que .a + t¯d ∈ / C pour tout .d ∈ V. Maintenant, il existe un entier positif .k¯ tel que pour tout .k > k¯ on ait ¯ .tk > t¯ et .dk ∈ V. On ne peut avoir .a + tk dk ∈ C puisque .a + t¯d ∈ / C et .k > k. . Proposition 1.7 Soit .C ⊂ Rn un convexe fermé non vide. C est borné si et seulement .C∞ = {0}. Preuve : Soit .a ∈ C arbitraire. Il est clair que C est non borné lorsqu’il existe .d ∈ C∞ non nul. Si C est non borné, il existe une suite .{xk } ⊂ C telle que .xk → +∞ lorsque .k → +∞. Prendre .tk = xk − a et .dk = tk−1 (xk − a). Considérer une valeur d’adhérence .d¯ de la suite .{dk } et utiliser la proposition ci-dessus. . L’image d’un convexe fermé non borné par une application linéaire n’est point nécessairement fermée. Considérer la fonction .f : R2 → R définie par .f (x1 , x2 ) = x1 et l’ensemble .C = {(x1 , x2 ) ∈ R2 : x1 ≥ 0, x1 x2 ≥ 1}. L’image .f (C) = ] 0, ∞ [ n’est pas fermée.
1.1 Ensembles convexes
11
Proposition 1.8 Soient .C ⊂ Rn un convexe fermé et .f : Rn → Rp une application linéaire tels que .C∞ ∩ ker(f ) = {0}. Alors, .f (C) est un convexe fermé borné. Preuve : Il est clair que .f (C) est convexe. Supposons .f (C) non fermé, il existe alors .y ∈ f (C) non dans .f (C). Il existe donc une suite .{xk } ⊂ C telle que .f (xk ) → y lorsque .k → +∞. Cette suite .{xk } est non bornée. .a ∈ C étant fixé, on pose −1 .tk = xk − a et .dk = t k (xk − a). Soit d une valeur d’adhérence de la suite .{dk }. Par construction, .0 = d ∈ C∞ . D’autre part .f (xk ) = f (a) + tk f (dk ) → y, ce qui n’est possible que si .f (d) = 0 contredisant .C∞ ∩ ker(f ) = {0}. .f (C) est donc fermé. Supposons maintenant .f (C) non borné. Il existe une suite .{xk } ⊂ C telle que .f (xk ) → +∞ lorsque .k → +∞. Procéder de la même manière que ci-dessus.. La somme de deux convexes fermés n’est pas nécessairement fermée. Considérer les deux ensembles .C = {(x1 , x2 ) ∈ R2 : x1 ≥ 0, x1 x2 ≥ 1} et .D = {(x1 , 0) ∈ R2 : x1 ≥ 0}. Alors .C − D = {(z1 , z2 ) ∈ R2 : z2 > 0}. Proposition 1.9 Soient .A, B ⊂ Rn deux convexes fermés non vides. Si .A∞ ∩B∞ = {0}, alors .A − B est un convexe fermé. Preuve : Considérer l’application linéaire .f : Rn × Rn → Rn définie par .f (x, y) = x − y et .C = A × B. Alors .f (C) = A − B, .C∞ = A∞ × B∞ et .ker(f ) = {d1 , d2 ) : d1 = d2 }. Appliquer la proposition précédente. .
1.1.6 Projection sur un convexe Etant donnés .a ∈ Rn et .C ⊂ Rn convexe fermé non vide, on considère le problème “ trouver .x ∈ C qui minimise .f (x) = x − a2 sur .C ”, la norme .. étant la norme euclidienne. Soit .x¯ ∈ C arbitraire, le problème revient à résoudre le problème α = min [ f (x) = x − a2 : x ∈ C, x − a2 ≤ x¯ − a2 ].
.
x
Il s’agit donc de minimiser une fonction continue sur un compact. Le problème admet au moins une solution optimale. Supposons que l’on ait deux solutions optimales x et y. Puisque .x, y ∈ C, il en est de même de .(x + y)/2. On a donc α = x − a2 = y − a2 ≤
.
x+y − a2 , 2
x − a2 = α = x − a y − a ≤ x − a, y − a ≤ x − a y − a.
.
Ce qui n’est possible que si .x − a = y − a.
12
1 Ensembles et fonctions convexes
Il y a donc existence et unicité de la solution optimale. On l’appelle projection de a sur C et on la note .proj C (a). Fig. 1.7 Projection sur un convexe
Proposition 1.10 Soit .C ⊂ Rn un convexe fermé non vide et .a ∈ Rn . i) Le point .p ∈ C est la projection de a sur C si et seulement si p − a, x − p ≥ 0
.
∀ x ∈ C.
ii) Pour tout .x ∈ C on a l’inégalité x − a2 ≥ x − proj C (a)2 + proj C (a) − a2 .
.
Preuve : .p = proj C (a) si et seulement si pour tout .x ∈ C et .t ∈ [0, 1] on a p − a2 ≤ p + t (x − p) − a2 = p − a2 + 2tp − a, x − p + t 2 x − p2 .
.
Faire tendre t vers 0. Pour ii) développer x − a2 = (x − proj C (a)) + (proj C (a) − a)2
.
et utiliser la première inégalité.
.
Proposition 1.11 (Propriété de Lipschitz) Soit .C ⊂ R un convexe fermé non vide. Alors pour tout .a, b ∈ Rn on a n
proj C (a) − proj C (b)2 ≤ proj C (a) − proj C (b), b − a.
.
On en déduit que la projection est Lipschitz de constante 1.
1.1 Ensembles convexes
13
Preuve : Puisque .proj C (a) et .proj C (b) sont dans C on a proj C (a) − a, proj C (b) − proj C (a) ≥ 0,
.
proj C (b) − b, proj C (a) − proj C (b) ≥ 0.
.
On en déduit le résultat.
.
Les résultats précédents s’étendent aux espaces de Hilbert. Les preuves sont identiques, excepté celle sur l’existence de la projection puisque l’ensemble .{x ∈ C : x − a2 ≤ x¯ − a2 } n’est pas compact pour la topologie induite par la norme. La démonstration devient un peu plus lourde et repose sur la complétude des espaces de Hilbert.
1.1.7 Séparation de deux convexes Théorème 1.6 (Séparation forte) Soient C et D deux convexes non vides de Rn tels que C ∩ D = ∅ et C − D est fermé. Alors, il existe a ∗ = 0 et α > 0 tels que .
inf [ a ∗ , x : x ∈ C ] ≥ α + sup [ a ∗ , y : y ∈ D ]. x
y
Preuve : Posons A = C − D. Alors A est un convexe fermé et 0 ∈ / A. Désignons par a ∗ la projection de 0 sur A. La proposition 1.10 implique a ∗ − 0, x − y − a ∗ ≥ 0 ∀ x ∈ C, ∀ y ∈ D.
.
Prendre α = a ∗ 2 .
Théorème 1.7 (Séparation faible) Soit C un convexe non vide de Rn tel que 0 ∈ / ri (C). Alors, il existe x ∗ = 0 tel que x ∗ , x ≥ 0 ∀ x ∈ C et
.
x ∗ , x > 0 ∀ x ∈ ri (C).
Preuve : Soit a ∈ ri (C) fixé. Soit E le sous-espace othorgonal au sous espace vectoriel aff (C) − a. L’ensemble D = C + E est convexe et on a 0 ∈ / int (D) = ri (C) + E. Le cas où 0 ∈ / D , c’est à dire, {0} ∩ D = ∅ est une conséquence directe du théorème 1.6. Supposons maintenant 0 ∈ D. Donnons-nous une suite {ak } convergeant vers 0 telle que ak ∈ / D pour tout k. Dénotons par bk la projection de ak sur D . Alors, bk − ak , 0 − bk ≥ 0 et ak 2 = bk 2 + ak − bk 2 + 2bk , ak − bk ≥ bk 2 + ak − bk 2 .
.
La suite {bk } converge donc vers 0.
14
1 Ensembles et fonctions convexes
Posons bk∗ = bk − ak −1 (bk − ak ). Soit b∗ une valeur d’adhérence de la suite Par continuité, b∗ , x ≥ 0 pour tout x ∈ D. Puisque int (D) est non vide, on a aussi b∗ , x > 0 pour tout x ∈ int (D). Revenir à C et ri (C). {bk∗ }.
Ce théorème se transpose à la séparation de deux convexes non vides C et D tels que 0 ∈ / ri (C − D). C’est le cas dans le résultat suivant. Corollaire 1.2 Soient C et D deux convexes non vide de Rn tels que C est d’intérieur non vide et int (C) ∩ D = ∅. Alors, a ∗ = 0 et α ∈ R existent tels que .
inf [ a ∗ , x : x ∈ C ] ≥ α ≥ sup [ a ∗ , y : y ∈ D ]. x
y
On peut formuler bien d’autres variations de ce théorème.
Fig. 1.8 Séparation de deux convexes
Les deux théorèmes possèdent sous certaines conditions des généralisations en dimension infinie. Ils sont connus sous le nom de théorèmes de Hahn-Banach.
1.1.8 Théorèmes de type Helly p
Théorème 1.8 (Théorème de Helly) Soit {Ci }i=1 une famille de convexes non vides de Rn telle que ∩j ∈J Cj = ∅ pour tout J ⊂ {1, · · · , p} avec card (J ) ≤ n + 1. p Alors ∩i=1 Ci = ∅. Preuve : On procède par récurrence. Le résultat est vrai lorsque p ≤ n + 1, supposons le vrai pour p ≥ n + 1 et montrons qu’il est vrai pour p + 1.
1.1 Ensembles convexes
15
En raison de l’hypothèse de récurrence, pour tout i = 1, · · · , p + 1, il existe un n point ai ∈ ∩j =i Cj . Les p + 1 ≥ n + 2 points ai sont dans R , il existe donc des quantités αi non toutes nulles telles que 0 = αi et 0 = αi ai . = {i : αi ≥ 0} et I− = {i : αi < 0}. Posons σ = Les i se partagent en I+ α , on a alors σ = − i i∈I+ j ∈I− αj > 0. Posons a =
.
αi −αi ai . Alors a = ai . σ σ
i∈I+
i∈I−
Montrons que a ∈ Ck pour tout k. Si k ∈ I+ alors a est combinaison convexe des ai , i ∈ I− . Si k ∈ I− , alors a est combinaison convexe des ai , i ∈ I+ . Dans les deux cas a ∈ Ck pour tout k. Le théorème de E. Helly publié en 1923 a fait l’objet de nombreuses variantes connues sous le nom générique de théorèmes de l’intersection, citons J. K. Radon en 1921, A. Horn en 1949, V. L. Klee en 1951. Celui de Berge, que nous utiliserons plus tard, date de 1959. Fig. 1.9 Illustration du Théorème de Helly
C2 C3 C1 C4
Une famille finie d’ensembles {Ci }i∈I , card (I ) > 1, est dite d’être d’intersection minimale si ∩i∈I Ci = ∅ et si pour tout J I on a ∩j ∈J Cj = ∅. Il est facile, lorsqu’on est en présence d’une famille finie d’ensembles non vides {Ci }i∈I d’intersection vide, d’en extraire une famille d’intersection minimale. Si ce j ∈I n’est pas le cas pour la famille originale, il existe i1 ∈ I telle que ∩j =i1 Cj = ∅, prendre alors I1 = {j ∈ I : j = i1 }. Si ce n’est pas le cas pour la famille {Cj }j ∈I1 , j ∈I il existe i2 ∈ I1 telle que ∩j =i12 Cj = ∅, réitérer en prenant I2 = {j ∈ I1 : j = i2 }, etc. Le processus se termine en un nombre fini d’étapes. Théorème 1.9 (Théorème de l’intersection de Berge) Si {Ci }i∈I est une famille finie de convexes compacts non vides d’intersection minimale, la réunion des Ci est non convexe. Preuve : Traitons le cas card (I ) = 2. Supposons C1 ∩ C2 = ∅, C1 ∪ C2 convexe et C1 , C2 non vides. Il existe alors 0 = a ∈ Rn et α tels que a, x1 < α < a, x2 pour tout x1 ∈ C1 et tout x2 ∈ C2 . Considérer le point x du segment [x1 , x2 ] pour lequel α = a, x. D’une part il appartient à C1 ∪ C2 et d’autre part il n’appartient ni à C1 ni à C2 . Une contradiction.
16
1 Ensembles et fonctions convexes
Supposons le théorème vrai pour card (I ) = m ≥ 2 et montrons qu’il est vrai m+1 pour card (I ) = m + 1. Supposons D = ∪i=1 Ci convexe. Posons C = ∩m i=1 Ci et m+1 supposons C ∩ Cm+1 = ∩i=1 Ci = ∅. Par hypothèse, C et Cm+1 sont convexes non vides, il existe alors a ∈ Rn et α tels que C ⊂ E+ = {x : a, x > α} et Cm+1 ⊂ E− = {x : a, x < α}.
.
Posons H = {x ∈ Rn : a, x = α}. En procédant comme ci-dessus, on montre que D ∩ H est un convexe compact non vide. D’une part, puisque Cm+1 ∩ H = ∅, m+1 m+1 D ∩ H = (∪i=1 Ci ) ∩ H = ∪i=1 (Ci ∩ H ) = ∪m i=1 (Ci ∩ H ).
.
D’autre part, ∩m i=1 (Ci ∩ H ) = C ∩ H = ∅. En raison de l’hypothèse de récurrence, il existe J ⊂ {1, 2, · · · , m} avec 0 < card (J ) < m tel que ∅ = ∩j ∈J (Cj ∩ H ) = A ∩ H où A = ∩j ∈J Cj . Le convexe compact A ne rencontre pas H , il est soit dans E− et alors A∩C = ∅, soit dans E+ et alors A ∩ Cm+1 = ∅. Dans chacun des deux cas nous sommes en face d’une intersection d’au plus m convexes de la famille {Ci }i∈I d’intersection vide. Une contradiction.
1.1.9 Points extrémaux, théorème de Minkowsky Soit C un ensemble convexe. On dit qu’un point .x ∈ C est un point extrémal de C si .
[ a, b ∈ C, 0 < t < 1 et x = ta + (1 − t)b ] ⇒ x = a = b.
Il est facile de voir que si les points extrémaux d’un convexe sont contenus dans sa frontière relative, les points de la frontière relative d’un convexe fermé ne sont pas nécessairement extrémaux (considérer l’enveloppe convexe des points .(0, 0), (1, 0) et .(0, 1)). Un ensemble convexe fermé peut même ne pas avoir de points extrémaux (considérer l’ensemble .C = [ 0, ∞ [×R). Théorème 1.10 (Minkowsky) Tout convexe compact C de dimension finie est l’enveloppe convexe de ses points extrémaux. Preuve : Soit n la dimension de C. On procède par récurrence. C’est vrai pour n = 1, en effet C est alors un intervalle fermé borné .[a, b] et est donc l’enveloppe convexe des deux points extrémaux a et b. Supposons le résultat vrai pour .p < n et montrons qu’il est vrai pour .p = n. Soit .x¯ ∈ C non extrémal. Alors, il existe .d = 0 et .t1 < 0 < t2 tels que .x¯ + t1 d ∈ C et .x¯ + t2 d ∈ C.
.
1.2 Fonctions, continuité et convexité
17
Puisque C est borné les quantités suivantes sont bien définies t− = min [ t : x¯ + td ∈ C ],
.
t+ = max [ t : x¯ + td ∈ C ].
x¯ appartient à l’enveloppe convexe des deux points .x− = x¯ + t− d et .x+ = x¯ + t+ d. ∗ tel que .x ∗ , x − x > 0 pour tout On note que .x− ∈ / ri (C). Il existe donc .x− − − ∗ .x ∈ ri (C). L’ensemble .C− = {y ∈ C : x− , y − x− = 0} est un convexe compact de dimension égale ou inférieure à .n − 1. Donc .x− est combinaison convexe de points extrémaux de .C− . Ces points sont aussi des points extrémaux de C. De même .x+ est combinaison convexe de points extrémaux de C. Il en est de même de .x¯ qui est combinaison convexe de .x− et .x+ . . .
Fig. 1.10 Illustration des points extrémaux d’un ensemble convexe
Ce théorème possède une généralisation en dimension infinie. C’est le théorème de Krein-Milman.
1.2 Fonctions, continuité et convexité 1.2.1 Définitions et notations On note par . R la droite réelle achevée, c’est-à-dire, . R = R ∪ {−∞, +∞}. Le domaine, l’épigraphe et l’épigraphe strict d’une fonction .f : Rn → R sont les ensembles définis respectivement comme suit : dom (f ) = {x ∈ Rn : f (x) < +∞},
.
epi (f ) = {(x, λ) ∈ Rn × R : f (x) ≤ λ}, (f ) = {(x, λ) ∈ Rn × R : f (x) < λ}. epi
18
1 Ensembles et fonctions convexes
L’ensemble de niveau .λ et l’ensemble de niveau strict .λ de f sont les ensembles Sλ (f ) = {x ∈ Rn : f (x) ≤ λ},
.
Sλ (f ) = {x ∈ Rn : f (x) < λ}.
• • .• .• .• .• .• .• .• .• . .
Les relations suivantes sont des conséquences immédiates des définitions. .dom (f ) = λ∈R Sλ (f ) = λ∈R Sλ (f ); .dom (f ) = proj Rn (epi (f )) = proj Rn (epi (f )); .λ < μ ⇒ Sλ (f ) ⊂ Sλ (f ) ⊂ Sμ (f ) ⊂ Sμ (f ); .λ < μ et (x, λ) ∈ epi (f ) ⇒ (x, μ) ∈ epi (f ); .f (x) = inf[λ : (x, λ) ∈ epi (f )] = inf[λ : x ∈ Sλ (f )]; (f )] = inf[λ : x ∈ .f (x) = inf[λ : (x, λ) ∈ epi Sλ (f )]; .f1 ≤ f2 ⇔ epi (f1 ) ⊃ epi (f2 ) ⇔ Sλ (f1 ) ⊃ Sλ (f2 ) pour tout .λ ∈ R; (f1 ) ⊃ epi 2) ⇔ .f1 ≤ f2 ⇔ epi Sλ (f1 ) ⊃ Sλ (f2 ) pour tout .λ ∈ R; (f n .Sλ (f ) × {λ} = epi (f ) [R × {λ}] pour tout λ ∈ R; (f ) [Rn × {λ}] pour tout λ ∈ R. . Sλ (f ) × {λ} = epi
1.2.2 Semi-continuité On dit qu’une fonction .f : Rn → R est – semi-continue inférieurement (sci) en a si pour tout .λ < f (a) il existe un voisinage V de a tel que .λ < f (x) pour tout .x ∈ V ; – semi-continue supérieurement (scs) en a si .−f est sci en a, c’est-à-dire si pour tout .λ > f (a) il existe un voisinage V de a tel que .λ > f (x) pour tout .x ∈ V ; – sci (scs) si elle est sci (scs) en tout .x ∈ Rn . Théorème 1.11 Les trois conditions suivantes sont équivalentes: 1) f est sci, 2) .epi (f ) est fermé, 3) .Sλ (f ) est fermé quel que soit .λ ∈ R. Preuve : a) .1 ⇒ 2. Pour cela on va montrer que .[epi (f )]c est ouvert. Soit .(x0 , λ0 ) ∈ / epi (f ), alors .λ0 < f (x0 ). Soit .μ tel que .λ0 < μ < f (x0 ). Puisque f est sci en .x0 , il existe un voisinage V de .x0 tel que .μ < f (x) pour tout .x ∈ V . Ainsi .V × ] − ∞, μ [ est un voisinage de .(x0 , λ0 ) qui ne rencontre pas .epi (f ). Donc .[epi (f )]c est ouvert. b) .2 ⇒ 3. En effet, pour tout .λ, Sλ (f ) × {λ} = epi (f ) ∩ [Rn × {λ}].
.
c) .3 ⇒ 1. Si .f (x0 ) = −∞ alors f est sci en .x0 par définition. Montrons que f est / Sλ (f ) qui est sci en tout .x0 tel que .f (x0 ) > −∞. Soit .λ < f (x0 ), alors .x0 ∈
1.2 Fonctions, continuité et convexité
19
fermé par hypothèse. Donc, il existe un voisinage V de .x0 tel que .λ < f (x) pour tout .x ∈ V . . Il est facile de voir que si deux fonctions .f, g : Rn → R sont sci en un point a, alors .f + g et .min(f, g) sont aussi sci en a. Le supremum d’une famille finie ou non sci au point a est aussi sci en a. Etant donnée une fonction .f : Rn → R, on définit la fonction .f par f (x) = inf [ λ : (x, λ) ∈ epi (f ) ] = inf [ λ : x ∈ Sλ (f ) ].
.
Il est facile de voir que l’on a epi (f ) = epi (f ) et Sλ (f ) = ∩μ>λ Sμ (f ).
.
La fonction .f est donc sci. On dit qu’elle est la régularisée sci de la fonction f . C’est aussi le supremum de toutes les fonctions sci majorées par f , c’est aussi la plus grande fonction sci majorée par f . Attention, si on a toujours .Sλ (f ) ⊂ Sλ (f ) = ∩μ>λ Sμ (f ), on peut avoir .Sλ (f ) = Sλ (f ). Considérer la fonction .f (x) = −x si .x < 0 et .f (x) = 1 − x si .x ≥ 0. Proposition 1.12 f est sci en a si et seulement si .f (a) = f (a). Preuve : On sait que .f ≥ f . Supposons .f (a) = f (a). Puisque .f est sci en a, il en est de même de f . Supposons maintenant .f (a) > f (a). Prenons .λ, μ tels que .f (a) > μ > λ > f (a). Pour tout V voisinage de a l’ensemble .V ×] − ∞, μ [ est un voisinage de .(a, λ) ∈ epi (f ) donc il rencontre .epi (f ). La fonction f est donc non sci au point a. .
1.2.3 Fonctions convexes, définition et premières propriétés Etant donnée une fonction f définie sur un ensemble .C ⊂ Rn , on la prolonge par continuité sur l’espace .Rn tout entier en posant .f (x) = +∞ si .x ∈ / C. On va donc travailler sur des fonctions .f : Rn → R. Les conventions suivantes sont appropriées à l’étude des fonctions convexes. ∞ + α = α + ∞ = +∞
.
.
− ∞ + α = α − ∞ = −∞
pour tout α ∈ R; pour tout α ∈ R;
(−∞) + ∞ = ∞ + (−∞) = +∞.
.
Une fonction est dite être convexe si son épigraphe est convexe (Fig. 1.11). Ainsi la fonction .f : R → R définie par
20
1 Ensembles et fonctions convexes
⎧ ⎨ +∞ si x < 0, .f (x) = 1 si x = 0, ⎩ −∞ si x > 0. est convexe puisque son épigraphe est l’ensemble .{0} × [1, ∞[ ∪ ]0, ∞[×R qui est convexe.
Fig. 1.11 Fonction convexe: épigraphe convexe
Proposition 1.13 Soit .f : Rn → R convexe. S’il existe un point a tel que .f (a) = −∞, alors .f (x) = −∞ pour tout .x ∈ ri (dom (f )). Preuve : Soit .x ∈ ri (dom (f )). Il existe .t ∈ ]0, 1[ et .y ∈ dom (f ) tels que .x = ta + (1 − t)y. Il s’ensuit .f (x) ≤ tf (a) + (1 − t)f (y) puis .f (x) = −∞. . Ainsi, si f est convexe et s’il existe a tel que .f (a) = −∞, f ne prend des valeurs finies que sur la frontière relative de son domaine. Afin d’éviter ce genre de situations pathologiques, on introduit la définition suivante : On dit qu’une fonction .f : Rn → R est propre si son domaine est non vide et si .f (x) > −∞ pour tout .x ∈ Rn .
1.2 Fonctions, continuité et convexité
21
Les propriétés suivantes se vérifient facilement : 1) f est convexe si et seulement si pour tout x, .y ∈ Rn et pour tout .t ∈ ]0, 1[ on a f (tx + (1 − t)y) ≤ tf (x) + (1 − t)f (y) ;
.
(f ) est convexe ; 2) f est convexe si et seulement si .epi 3) f est convexe si et seulement si pour tout .x ∈ Rn et pour tout .d ∈ Rn la fonction d’une variable réelle .fx,d définie par .fx,d (t) = f (x + tx) est convexe ; 4) Si f est convexe, son domaine .dom (f ) = proj Rn (epi (f )) et ses ensembles de niveau .λ ∈ R .Sλ (f ) sont convexes ; 5) Si f est convexe, .f est convexe ; 6) Si f est convexe et .λ > 0, .λf est convexe ; 7) Si .f : Rn → R est convexe et .k : R → R est convexe croissante, .k ◦ f est convexe ; 8) Si f et g sont convexes, .f + g est convexe ; 9) Soit .{fi }i∈I une famille de fonctions convexes définies sur .Rn , la fonction .supi∈I fi est convexe. Etant donnée une fonction .ϕ : Rn × Rp → R, la fonction .h : Rn → R définie par h(x) = inf p ϕ(x, y), y∈R
.
est appelée fonction marginale. Les fonctions marginales sont très importantes en économie, programmation mathématique. Nous les trouverons très souvent dans ce livre. Voici deux résultats importants. Proposition 1.14 Si .ϕ est convexe sur .Rn × Rp , il en est de même de h sur .Rn . Preuve : Il suffit de remarquer que l’épigraphe strict de h n’est rien d’autre que la projection sur .Rn de l’épigraphe strict de .ϕ et par conséquent est convexe comme . étant la projection d’un convexe par une application linéaire. Proposition 1.15 Soit .ϕ : X × Y → R avec .X ⊂ Rn , .Y ⊂ Rp . On considère h définie par h(x) = inf ϕ(x, y),
.
y∈Y
Si Y est compact et .ϕ est sci en .(x, ¯ y) pour tout .y ∈ Y , alors h est sci en .x¯ et l’ensemble S(x) ¯ = {y ∈ Y : h(x) ¯ = ϕ(x, ¯ y)}
.
est un compact non vide.
22
1 Ensembles et fonctions convexes
Preuve : La compacité de Y et la semi-continuité inférieure de la fonction .ϕ(x, ¯ ·) : Y → R impliquent la compacité de l’ensemble .S(x). ¯ Montrons que pour tout .λ < h(x) ¯ il existe un voisinage V de .x¯ tel que .h(x) > λ pour tout .x ∈ V . Donnons-nous .μ tel que .λ < μ < h(x). ¯ Pour tout .y ∈ Y on a .μ < ϕ(x, ¯ y) et donc on peut trouver .Vy voisinage ouvert de .x¯ et .Wy voisinage ouvert de y tels que .μ < ϕ(x, z) pour tout .(x, z) ∈ Vy × Wy . Puisque Y est compact et .Y = ∪y∈Y Wy , il existe un sous-ensemble fini J de Y tel que .Y = ∪y∈J Wy . Prenons .V = ∩y∈J Vy , V est un voisinage ouvert de .x. ¯ Pour tout .(x, z) ∈ V × Y , on a .ϕ(x, z) > μ > λ et par conséquent .h(x) ≥ μ > λ pour tout .x ∈ V . .
1.2.4 Fonctions convexes d’une variable réelle Nous avons vu qu’une fonction .f : Rn → R est convexe si et seulement si pour tout .x, d ∈ Rn la fonction .fx,d : R → R définie par .fx,d (t) = f (x + td) est convexe. Cela justifie une étude spécifique et approfondie des fonctions convexes d’une variable réelle. Notons tout d’abord que le domaine d’une fonction convexe d’une variable réelle est convexe, donc est un intervalle de .R. Théorème 1.12 Soit I un intervalle non vide de .R et .θ : I → R. Chacune des trois conditions suivantes est équivalente à la convexité de .θ : .
θ (c) − θ (b) θ (c) − θ (a) ≤ ∀ a, b, c ∈ I tels que a < b < c, c−a c−b
(1.2)
.
θ (c) − θ (a) θ (b) − θ (a) ≤ ∀ a, b, c ∈ I tels que a < b < c, b−a c−a
(1.3)
.
θ (c) − θ (b) θ (b) − θ (a) ≤ ∀ a, b, c ∈ I tels que a < b < c. b−a c−b
(1.4)
Preuve : La fonction .θ est convexe si et seulement si pour tout .a, b, c ∈ I tels que a < b < c on ait
.
θ (b) ≤ tθ (a) + (1 − t)θ (c)
.
avec t =
b−c . c−a
Les équivalences sont de simples réécritures de cette inégalité.
.
On en déduit le résultat suivant. Théorème 1.13 Soient I un intervalle non vide de .R et .θ : I → R une fonction convexe. Soient .a, b, c ∈ I tels que .a < b < c. Alors la fonction .θ est continue en b et admet des dérivées à droite et à gauche en ce point. En outre
1.2 Fonctions, continuité et convexité
.
23
θ (b) − θ (a) θ (c) − θ (b) ≤ θ− (b) ≤ θ+ (b) ≤ . b−a c−b
(1.5)
Preuve : Prendre .y2 , y1 , x1 , x2 tels que .a < y2 < y1 < b < x1 < x2 < c. En raison du théorème précédent on a .
.
θ (y2 ) − θ (b) θ (y1 ) − θ (b) θ (a) − θ (b) ≤ ≤ ≤ ······ a−b y2 − b y1 − b
······ ≤
θ (x2 ) − θ (b) θ (c) − θ (b) θ (x1 ) − θ (b) ≤ ≤ . x1 − b x2 − b c−b
Faire tendre les y et les x vers b. On obtient l’existence des deux demi-dérivées. La continuité en b s’ensuit. . Fig. 1.12 Comparaison des pentes des trois cordes d’une fonction convexe.
a
b
c
Voici deux conséquences immédiates. Corollaire 1.3 Toute fonction convexe d’une variable réelle est continue sur l’intérieur de son domaine. Corollaire 1.4 Soit I un intervalle non vide de .R et .θ : I → R convexe. Alors pour tout .a, b, c ∈ int (I ) tels que .a < b < c on a θ+ (a) ≤
.
θ (b) − θ (a) θ (c) − θ (b) ≤ θ− (b) ≤ θ+ (b) ≤ ≤ θ− (c). b−a c−b
Si .θ est dérivable, les deux demi-dérivées coïncident. On obtient la caractérisation du premier ordre. Proposition 1.16 Supposons .θ dérivable sur un ouvert contenant l’intervalle I . Alors les trois conditions suivantes sont équivalentes: a) .θ est convexe sur I ; b) .(t − s)(θ (t) − θ (s)) ≥ 0 pour tout .t, s ∈ I ; c) .θ (t) ≥ θ (s) + (t − s)θ (s) pour tout .t, s ∈ I . Preuve : Si .θ est convexe, on obtient b) et c) à partir du corollaire précédent. Supposons b) , soit .a, b, c ∈ I avec .a < b < c. Puisque .θ est dérivable et .θ
24
1 Ensembles et fonctions convexes
est croissante, r et s t existent tels que a < r < b < s < c,
.
θ (b) − θ (a) θ (c) − θ (b) = θ (r) ≤ θ (s) = . b−a c−b
Ainsi .θ est convexe. Finalement, supposons c), alors pour tout .t ∈ I , .θ (t) = sups∈I [θ (s) + (t − s)θ (s)] (faire .s = t). Ainsi .θ est convexe car sup de fonctions affines. . Ainsi .θ dérivable est convexe si et seulement si sa dérivée est croissante. On en déduit immédiatement la condition du second ordre suivante Proposition 1.17 Supposons .θ deux fois dérivable sur un ouvert contenant l’intervalle I . Alors .θ est convexe sur I si et seulement si . θ (t) ≥ 0 pour tout .t ∈ I .
1.2.5 Fonctions convexes de plusieurs variables Nous allons dériver les propriétés de ces fonctions à partir de celles des fonctions d’une variable réelle. Pour ce premier résultat, nous supposons ici que E est un espace vectoriel normé. Théorème 1.14 Soit .f : E → R convexe et propre. Si f est majorée dans un voisinage de a, alors f est localement Lipschitz dans un voisinage de a. Preuve : On peut, sans perte de généralité, imposer .f (a) = 0. Donnons-nous .r > 0 et .M > 0 tels que .f (x) ≤ M lorsque .x − a ≤ 2r. Soit .x ∈ B(a, 2r). Construisons .y = a + 2rx − a−1 (a − x). Alors y − a = 2r
.
et a =
2r x − a y+ x. x − a + 2r x − a + 2r
Puisque f est convexe, .f (a) = 0 et .f (y) ≤ M on a .f (x) ≥ −Mx − a(2r)−1 . La fonction f est donc minorée par .−M sur .B(a, 2r). Soient maintenant .x1 , x2 ∈ B(a, r), x2 = x1 arbitraires. Construisons les points x3 = x1 + rx2 − x1 −1 (x2 − x1 )
.
et x0 = x2 + rx2 − x1 −1 (x1 − x2 ).
Les 4 points .x0 , x1 , x2 et .x3 sont dans .B(a, 2r), ils sont alignés et ordonnés sur le segment .[x0 , x3 ]. En raison de la convexité de f .
−
2M f (x2 ) − f (x0 ) f (x2 ) − f (x1 ) f (x3 ) − f (x1 ) 2M ≤ ≤ ≤ ≤ . r r x2 − x1 r r
On en déduit que f est Lipschitz sur .B(a, r).
.
1.2 Fonctions, continuité et convexité
25
On obtient un résultat plus fort lorsque E est de dimension finie. Théorème 1.15 Soit .f : Rn → R convexe et propre. Alors f est localement Lipschitz, donc continue, sur l’intérieur de son domaine. Preuve : Soit .a ∈ int (dom (f )). Il suffit de montrer que f est majorée dans un voisinage de a. Il existe .r > 0 tels que les 2n points .a ± rei appartiennent à .int (dom (f )), les vecteurs .ei étant les vecteurs de la base canonique. L’enveloppe convexe V des 2n points est un voisinage de a et est contenue dans .dom (f ). Puisque par hypothèse la fonction f est convexe on a .f (x) ≤ maxi [f (a + rei ), f (a − rei )] pour tout .x ∈ V . . Lorsque l’intérieur du domaine de f est vide, on utilise l’intérieur relatif. Corollaire 1.5 Soit .f : Rn → R convexe et propre. Alors f est sci sur l’intérieur relatif de son domaine. Preuve : On applique le résultat précédent à f restreint au sous-espace affine . engendré par son domaine. Proposition 1.18 Soit .f : Rn → R convexe et propre. Alors, dim(Sλ (f )) = dim(dom (f ))
.
pour tout λ > inf f (x). x
Preuve : Soit a arbitraire tel que .f (a) < λ. Soit .x ∈ ri (dom (f )). Alors .f (xt = a + t (x − a)) ≤ f (a) + t[f (x) − f (a)] et par conséquent il existe .t¯ ∈] 0, 1 [ tel que .f (xt¯) < λ. Comme .xt¯ ∈ ri (dom (f )), la restriction de f à .aff (dom(f )) est continue en .xt¯ et en conséquence .Sλ (f ) contient un voisinage de .xt¯ pour la topologie de .aff (dom(f )). . Corollaire 1.6 Si f est convexe propre, .f est aussi convexe propre. Preuve : On montre facilement que si .A : Rn → Rq est continue alors .A(C) ⊂ A(C) ⊂ A(C) pour tout .C ⊂ Rp . Appliquons ce résultat au cas où .C = epi (f ) ⊂ Rn × R et .A : Rn × R → R est la projection sur .Rn . On obtient dom (f ) ⊂ dom (f ) ⊂ dom (f )
.
et par conséquent .ri (dom (f )) = ri (dom (f )) et .f (x) > −∞ en tout .x ∈ . ri (dom (f )). En raison de la proposition 1.13, .f (x) > −∞ en tout .x ∈ Rn . Les propositions suivantes se déduisent immédiatement des caractérisations du premier et second ordre de convexité des fonctions convexes d’une variable réelle, considérer la fonction .θ (t) = f (x + t (y − x)). Proposition 1.19 Supposons f différentiable sur un ouvert . de .Rn contenant l’ensemble convexe C. Les trois conditions suivantes sont équivalentes:
26
1 Ensembles et fonctions convexes
a) f est convexe sur C; b) .∇f (x) − ∇f (y), x − y ≥ 0 pour tout .x, y ∈ C; c) .f (y) ≥ f (x) + ∇f (x), x − y pour tout .x, y ∈ C. Proposition 1.20 Supposons f deux fois différentiable sur un ouvert . de .Rn contenant l’ensemble convexe C. Alors .f est convexe sur C si et seulement si la matrice .∇ 2 f (x) est semi-définie positive pour tout .x ∈ C. Nous terminons ce paragraphe en observant qu’une fonction convexe sci continue sur l’intérieur de son domaine n’est pas nécessairement continue sur sa frontière, comme le montre ce contre-exemple. Soit .f : R2 → R définie par f (x, y) =
.
x2 y
si y > 0, +∞ sinon.
Pour tout .(x, y) ∈ R× ]0, ∞[ , 2 .∇ f (x, y) = y3 2
y 2 −xy −xy x 2
,
La matrice .∇ 2 f (x, y) étant semi-définie positive, la fonction f est convexe sur .R×] 0, +∞ [ . D’autre part, pour tout .μ ∈ R, Sμ (f ) =
.
⎧ ⎨ {(x, y) : y > 0, x 2 − μy ≤ 0} si μ ≥ 0, ⎩
∅
si μ < 0,
et donc, pour tout .λ ∈ R, Sλ (f ) =
.
μ>λ
Sμ (f ) =
⎧ ⎨ {(x, y) : y ≥ 0, x 2 − λy ≤ 0} si λ ≥ 0, ⎩
∅
si λ < 0.
Il s’ensuit que
f (x, y) = inf[λ : (x, y) ∈ Sλ (f )] =
.
⎧ ⎪ ⎨
x2 y
si y > 0, 0 si x = y = 0, ⎪ ⎩ +∞ autrement .
La fonction .f n’est pas scs en .(0, 0) puisque .f ( k1 , k12 ) = 1 pour tout .k ∈ N.
1.2 Fonctions, continuité et convexité
27
1.2.6 Normes vectorielles. 1) Soit .B ⊂ Rd convexe fermé borné tel que .B = −B et .0 ∈ int (B ). Construisons la fonction n définie par n(x) := inf [ λ : x ∈ λB ].
.
λ>0
Par construction .n(0) = 0, .0 < n(x) < +∞ si .x = 0, .n(λx) = |λ| n(x) pour tout x ∈ Rd et .λ ∈ R. L’épigraphe de n n’est rien d’autre que le cône de .Rd+1 généré par le convexe .B × {1}, n est donc convexe. Il s’ensuit
.
n(x + y) = 2n (
.
x y x+y ) ≤ 2 [ n( ) + n( ) ] ≤ n(x) + n(y) ∀ x, y ∈ Rd . 2 2 2
La fonction n définit donc une norme sur .Rd , B est la boule unité fermée associée. 2) Soit .p ≥ 1. L’épigraphe de la fonction .θ définie sur .R par .θ (t) = |t|p pour tout t est convexe, .θ estpdonc convexe. Il en est de même de la fonction définie sur d .R par .f (x) = i |xi | , ce qui implique la convexité de l’ensemble suivant d
Bp = { x :
.
|xi |p ≤ 1} = { x : [
i=1
d
1
|xi |p ] p ≤ 1}.
i=1
Désignons par ..p la norme construite par le procédé ci-dessus. On a xp = [
d
.
1
|xi |p ] p
∀ x ∈ Rd .
i=1
On remarquera que .Bp ⊂ Bq si .1 ≤ p < q et donc .xp ≥ xq pour tout .x ∈ Rd . La norme ..2 n’est rien d’autre que la norme euclidienne classique. 3) On appelle norme du max la norme sur .Rd construite à partir de l’ensemble d .Bmax = [−1, 1] . On a alors xmax = max |xi |
.
i
∀ x ∈ Rd .
Il est clair que .Bmax ⊃ Bp pour tout .p ≥ 1. Il est aussi facile de voir que si x ∈ int (Bmax ), .x ∈ int (Bp ) pour p assez grand. .Bmax et ..max peuvent être considérés comme limites de .Bp et ..p lorsque .p → +∞. Pour cette raison, on utilisera également .B∞ et ..∞ en place de .Bmax et ..max . On a .xp ≤ x∞ pour tout .p ≥ 1 et .x ∈ Rd . Nous étudierons plus tard certaines propriétés complémentaires des normes ..p
.
28
1 Ensembles et fonctions convexes
1.2.7 Fonctions de récession Soit .f : Rn → R une fonction convexe sci propre. Son épigraphe est donc un convexe fermé non vide. Son cône de récession est un cône convexe fermé. D’une part .(0, 1) ∈ [epi (f )]∞ , d’autre part (d, λ) ∈ [epi (f )]∞ et μ > λ ⇒ (d, μ) ∈ [epi (f )]∞ .
.
Il s’ensuit que .[epi (f )]∞ est non vide et est l’épigraphe d’une fonction convexe sci appelée fonction asymptotique de f (ou encore fonction de récession de f ). Elle est dénotée par .f∞ (ou encore par .f 0+ ). Théorème 1.16 Soit f une fonction convexe sci propre. Alors, .f∞ est convexe sci propre et on a pour tout d f∞ (d) = sup
.
t>0
f (a + td) − f (a) f (a + td) = lim , t→+∞ t t
où a est un point arbitrairement choisi dans .dom (f ). On a aussi .f∞ (0) = 0 et f∞ (kd) = kf∞ (d) pour tout .d ∈ Rn et tout .k > 0.
.
Preuve : Soit .a ∈ dom (f ), alors .(a, f (a)) ∈ epi (f ). Il s’ensuit que (d, λ) ∈ epi (f∞ ) ⇐⇒ (a + td, f (a) + tλ) ∈ epi (f )
.
∀ t > 0,
(d, λ) ∈ epi (f∞ ) ⇐⇒ f (a + td) ≤ f (a) + tλ ∀ t > 0.
.
Or .f∞ (d) = inf [ λ : (d, λ) ∈ epi (f∞ ) ]. On a donc f∞ (d) = sup
.
t>0
f (a + td) − f (a) . t
Considérons la fonction d’une variable réelle .θ (t) = f (a + td) − f (a). C’est une fonction convexe. Le théorème 1.12 implique .
θ (t2 ) − θ (0) θ (t1 ) − θ (0) ≤ t1 − 0 t2 − 0
lorsque t2 > t1 > 0.
Donc, f∞ (d) = sup
.
t>0
f (a + td) − f (a) f (a + td) = lim . t→+∞ t t
Les autres résultats sont immédiats.
.
1.3 Solutions optimales
29
Théorème 1.17 Soit f une fonction convexe sci et propre. Alors, .[Sλ (f )]∞ = S0 (f∞ ) pour tout .λ tel que .Sλ (f ) = ∅. Preuve : Soit .a ∈ Sλ (f ) fixé. Supposons tout d’abord .f∞ (d) ≤ 0. Alors, pour tout t > 0, on a .f (a + td) ≤ f (a) ≤ λ. Donc .d ∈ [Sλ (f )]∞ . Supposons réciproquement .d ∈ [Sλ (f )]∞ . Pour tout .t > 0, .a + td ∈ Sλ (f ) et donc .(a + td, λ) ∈ epi (f ). De là, .(d, 0) ∈ (epi (f ))∞ = epi (f∞ ), puis .d ∈ . S0 (f∞ ).
.
1.3 Solutions optimales La formulation générale d’un problème d’optimisation dans .Rn est comme suit : m = inf [ f (x) : x ∈ C ],
.
où .f : Rn → R et C est un sous ensemble de .Rn . L’ensemble des solutions optimales est l’ensemble .S = {x ∈ C : f (x) = m }. Il est clair que l’on a : S=
.
{x ∈ C : f (x) ≤ λ} = C ∩ {x ∈ Rn : f (x) ≤ m}.
λ>m
On va s’intéresser successivement à la structure de S, à l’unicité et à l’existence de solutions optimales.
1.3.1 Structure Il est clair que l’ensemble S est fermé lorsque la fonction f est sci et l’ensemble C est fermé. L’ensemble S est convexe lorsque la fonction f est convexe et l’ensemble C est convexe.
1.3.2 Unicité Une question importante est l’unicité de la solution optimale s’il en existe. C’est la raison d’être de la définition suivante : .f : Rn → R est dite être strictement convexe si son domaine est convexe et f (x +t (y −x)) < f (x)+t (f (x)−f (y))
.
∀ x, y ∈ dom (f ), x = y, ∀ t ∈ ] 0, 1 [.
30
1 Ensembles et fonctions convexes
Une fonction strictement convexe est convexe. Lorsque f est strictement convexe et C est convexe, l’ensemble des solutions optimales S contient au plus un élément. Proposition 1.21 Soit .C ⊂ Rn convexe ouvert non vide et .f : C → R différentiable. Les trois conditions suivantes sont équivalentes. a) f est strictement convexe; b) .∇f (x) − ∇f (y), x − y > 0 pour tout .x, y ∈ C, x = y; c) .f (y) > f (x) + ∇f (x), x − y pour tout .x, y ∈ C, x = y. Proposition 1.22 Soient .C ⊂ Rn un convexe ouvert non vide et .f : C → R deux fois différentiable. Si pour tout .x ∈ C la matrice .∇ 2 f (x) est définie positive, alors f est strictement convexe sur .C. La réciproque est fausse. La fonction .f (t) = t 4 est strictement convexe sur .R mais .f (0) = 0. Plaçons-nous maintenant dans le cas où l’intérieur du convexe non vide C est vide. Les propositions ci-dessus deviennent Proposition 1.23 Supposons f deux fois continûment différentiable sur . ⊂ Rn ouvert contenant l’ensemble convexe C dont le sous-espace engendré est .E = {x ∈ Rn : Ax = a} avec A matrice .p × n de rang p et .a ∈ Rp . Alors, f est convexe sur C si et seulement si pour tout .x ∈ C ∇ 2 f (x)h, h ≥ 0 ∀ h ∈ Rn tel que Ah = 0.
.
Si pour tout .x ∈ C ∇ 2 f (x)h, h > 0
.
∀ h ∈ Rn tel que Ah = 0 et h = 0,
la fonction est strictement convexe sur C. Comment tester ces conditions ? Posons .P = I −At (AAt )−1 A. Puisque .Ah = 0 si et seulement si .h = P h, la (semi-)définie positivité de .∇ 2 f (x) sur E équivaut à la (semi-)définie positivité de la matrice .P ∇ 2 f (x) P . Malheureusement, P étant non inversible, cela ne permet pas de tester la (semi-)définie positivité de .∇ 2 f (x) sur E. Nous allons montrer comment procéder. Etant donnée une matrice symétrique B, on définit son inertie comme étant le triplet .In (B) = (μ+ (B), μ0 (B), μ− (B)) composé des nombres des valeurs propres strictement positives, nulles et strictement négatives de B, ces valeurs propres étant comptées avec leur ordre de multiplicité. Le théorème sur la conservation de l’inertie de Sylvester [99] dit que .In (P t BP ) = In (B) lorsque P est une matrice inversible. Supposons maintenant la matrice B de la forme B=
.
P Q , Qt R
1.3 Solutions optimales
31
où P et R sont symétriques et P est inversible. Proposition 1.24 (Complément de Schur [17]) Sous les conditions ci-dessus, In (B) = In (P ) + In (R − Qt P −1 Q).
.
Preuve : .
I 0 −Qt P −1 I
P Q Qt R
I −P −1 Q 0 I
=
P 0 . 0 R − Qt P −1 Q
Le résultat est alors une conséquence du théorème de Sylvester.
.
La matrice .S = R − Qt P −1 Q est appelé complément de Schur de B par P . Dans le résultat suivant, Chabrillac-Crouzeix [15], M est une matrice symétrique 2 .n × n (dans notre cas .M = ∇ f (x)), A est une matrice .p × n de rang p et B est la matrice (dite bordée) suivante B=
.
M At A 0
.
Théorème 1.18 On a toujours .μ+ (B) ≥ p et .μ− (B) ≥ p. M est semi-définie positive sur .E = {x ∈ Rn : Ax = 0} si et seulement si .μ− (B) = p. M est définie positive sur E si et seulement si .μ+ (B) = n. Preuve : Procéder à une permutation de lignes et colonnes de manière à ce que les p premières colonnes de A soient indépendantes. Il existe alors une matrice .n × n inversible P telle que .P At = (Ip , 0)t . La matrice N=
.
P 0 0 Ip
B
Pt 0 0 Ip
est de la forme ⎛
⎞ N11 N12 Ip t ⎠. .N = ⎝ N 12 N22 0 Ip 0 0 Les matrices B et N ont même inertie. La matrice M est semi-définie positive (définie positive) sur E si et seulement si la matrice symétrique .N22 est semi-définie positive (définie positive) sur .Rn−p . La matrice N11 Ip . .C = Ip 0
32
1 Ensembles et fonctions convexes
est inversible, en effet, .
N11 Ip Ip 0
0 Ip Ip −N11
=
Ip 0 0 Ip
.
D’autre part, .λ est valeur propre de C si et seulement si .μ = λ − λ−1 est valeur propre de .N11 . A chaque valeur propre .μ de .N11 correspond deux valeurs propres .λ de C de signes contraires. Ainsi .In (C) = (p, 0, p). Appliquons la proposition 1.24 ⎛
⎞ N11 Ip N12 .In (N ) = In ⎝ Ip 0 0 ⎠ = In (C) + In (T ), t N12 0 N22 où T = N22 −
.
t N12
0
0 Ip Ip −N11
N12 0
= N22 .
Le théorème est démontré.
.
On peut maintenant récrire la proposition 1.23 à partir de la matrice B(x) =
.
∇ 2 f (x) At A 0
,
Proposition 1.25 Supposons f deux fois continuement différentiable sur . ⊂ Rn ouvert contenant l’ensemble convexe C dont le sous-espace engendré est .E = {x ∈ Rn : Ax = a} avec A matrice .p × n de rang p et .a ∈ Rp . f est convexe sur C si et seulement si .μ− (B(x)) = p pour tout .x ∈ C. Si .μ+ (B(x)) = n pour tout .x ∈ C alors la fonction f est strictement convexe sur C.
1.3.3 Existence La question suivante est l’existence de solutions optimales. Etant donnés .C ⊂ Rn et n .f : R → R, on dit que f est inf-compacte sur C si pour tout .λ ∈ R l’ensemble n .{x ∈ C : f (x) ≤ λ} est un compact. Lorsque .C = R on dit simplement que f est inf-compacte. La notion d’inf-compacité est fondamentale pour l’étude de l’existence de solution optimales des problèmes d’optimisation. Ceci est dû au résultat suivant. Proposition 1.26 S’il existe .x ∈ C tel que .f (x) < +∞ et si la fonction f est inf-compacte sur C, l’ensemble S est un compact non vide. Preuve : Il suffit de voir que
1.3 Solutions optimales
33
S=
.
{ x ∈ C : f (x) ≤ λ}.
λ>m
S est non vide comme intersection de compacts non vides.
.
Voici une première caractérisation d’inf-compacité. Proposition 1.27 Supposons la fonction f sci et l’ensemble C fermé. f est infcompacte sur C si et seulement si pour toute suite .{xk }k ⊂ C telle que .xk → +∞ lorsque .k → +∞ on a .f (xk ) → +∞. Preuve : L’ensemble .Sλ (f ) ∩ C est fermé pour tout .λ. Si f est non inf-compacte sur C, il existe .λ < +∞ et une suite .{xk } ⊂ Sλ (f ) ∩ C qui est non bornée. La réciproque est immédiate. . Les caractérisations suivantes sont spécifiques aux fonctions convexes. Théorème 1.19 Si f est une fonction convexe sci propre et si .C ⊂ Rn est un convexe fermé tel que .C ∩ dom (f ) = ∅, alors S est un ensemble convexe compact non vide si et seulement si .C∞ ∩ {d : f∞ (d) ≤ 0} = {0}. Preuve : Notons que .[Sλ (f ) ∩ C]∞ = C∞ ∩ {d : f∞ (d) ≤ 0} pour tout .λ > m en raison du théorème 1.17. Si la condition tient alors la fonction f est inf-compacte sur C et donc S est un compact non vide. Si S est un compact non vide, alors .{0} = . S∞ = [Sm (f ) ∩ C]∞ . Appliquer à nouveau le théorème 1.17. Théorème 1.20 Si f est une fonction convexe sci propre et si .C ⊂ Rn est un convexe fermé tel que .C ∩ dom (f ) = ∅, alors f est inf-compacte sur C si et seulement s’il existe .λ ∈ R tel que .Sλ (f ) ∩ C soit un compact non vide.
Preuve : Utiliser le théorème 1.17.
.
1.3.4 Forte convexité Une fonction .f : Rn → R est dite fortement convexe de coefficient .α > 0 si pour tout .t ∈ [0, 1] et tout .x, y ∈ dom (f ), f (tx + (1 − t)y) ≤ tf (x) + (1 − t)f (y) −
.
α t (1 − t)x − y2 . 2
Il est clair qu’une fonction fortement convexe est strictement convexe. La caractérisation suivante est très utile.
34
1 Ensembles et fonctions convexes
Proposition 1.28 La fonction .f : Rn → R est fortement convexe de coefficient .α > 0 si et seulement si la fonction g définie par g(x) = f (x) −
.
α x − a2 2
est convexe, a étant arbitrairement choisi dans .Rn . Preuve : Pour tout .x, y ∈ Rn et .t ∈ [0, 1] on pose u = tf (x) + (1 − t)f (y) − f (tx + (1 − t)y),
.
v = tg(x) + (1 − t)g(y) − g(tx + (1 − t)y), α w = [ tx − a2 + (1 − t)y − a2 − tx + (1 − t)y − a2 ]. 2 Il est facile de voir que .u = v + w et .w = résultat.
α 2 t (1
− t)x − y2 . On en déduit le .
On déduit immédiatement à partir des propositions 1.19 et 1.20 les caractérisations du premier et second ordre de forte convexité. Proposition 1.29 Soit . un convexe ouvert non vide de .Rn et .f : → R différentiable. Les trois conditions suivantes sont équivalentes. a) f est fortement convexe de coefficient .α > 0; b) .∇f (x) − ∇f (y), x − y ≥ αx − y2 pour tout .x, y ∈ ; c) .f (y) ≥ f (x) + ∇f (x), x − y + α2 x − y2 pour tout .x, y ∈ . Proposition 1.30 Soient . convexe ouvert non vide de .Rn et .f : → R deux fois différentiable sur . . Alors f est fortement convexe sur . de coefficient .α > 0 si et seulement si pour tout .x ∈ les valeurs propres de la matrice .∇ 2 f (x) sont plus grandes ou égales à .α. Le résultat suivant relie les notions de forte convexité et inf-compacité. Théorème 1.21 Une fonction convexe sci et propre qui est fortement convexe est inf-compacte. Preuve : Soient .α le coefficient de forte convexité de f et .x¯ ∈ dom (f ) arbitraire. La fonction .g : Rn → R définie par .g(x) = f (x) − α2 x − x ¯ 2 est convexe sci propre. Pour tout .d = 0, f∞ (d) = sup
.
t>0
g(x¯ + td) − g(x) ¯ αt + d2 . t 2
Puisque g est convexe, .
g(x¯ + d) − g(x) ¯ g(x¯ + td) − g(x) ¯ ≥ t 1
pour tout t > 1,
1.3 Solutions optimales
35
et donc finalement .f∞ (d) = ∞. Il s’ensuit que .f∞ (d) ≤ 0 si et seulement si d = 0. .
.
1.3.5 Principe variationnel d’Ekeland Retournons au problème m = inf [ f (x) : x ∈ C ],
.
où f est différentiable sur . ouvert contenant C. Une condition nécessaire pour que f atteigne son minimum sur C en un point .x ¯ ∈ int (C) est .∇f (x) ¯ = 0. Cette condition devient suffisante lorsque f est convexe et l’ensemble C est convexe, on a alors .f (x) ¯ = m. On peut se demander ce qui se passe lorsqu’une suite .{xk } ⊂ C est telle que .∇f (xk ) → 0 lorsque .k → +∞. L’exemple suivant montre que, même dans le cas convexe, la suite .f (xk ) ne converge pas nécessairement vers m. Exemple : .C = [1, ∞ ]2 et .f (x, y) = x 2 y −1 . Alors f est convexe et .m = 0. Prendre .(xk , yk ) = (k, k 2 ). On a .f (xk , yk ) = 1 pour tout k tandis que la suite .∇f (xk , yk ) tend vers 0 lorsque .k → +∞. De même la convergence de la suite .{f (xk )} vers m n’entraine pas la convergence de .∇f (xk ) vers 0. Exemple : .C = R×] 0, ∞ [ et .f (x, y) = x 2 y −1 . Prendre .(xk , yk ) = (k −1 , k −1 ). Nous terminons ce paragraphe avec une version du théorème variationnel d’Ekeland. Théorème 1.22 Soit .f : Rn → R une fonction différentiable telle que .−∞ < m = inf f (x). Donnons-nous . > 0 et .x tels que .f (x ) ≤ m + . Alors, il existe √ √ .yε tel que .yε − x ≤
, . ∇f (yε ) ≤ 2 et . f (yε ) ≤ m + . Preuve : Considérons .g(x) = f (x) + γ2 x − x 2 avec .γ > 0. Puisque d’une part {x : f (x) +
.
γ γ x − x 2 ≤ λ} ⊂ {x : m + x − x 2 ≤ λ}, 2 2
et d’autre part f est sci, la fonction g est inf-compacte et par conséquent il existe yε tel que .g(yε ) ≤ g(x) pour tout x. On en déduit .∇g(yε ) = 0 puis .∇f (yε ) = γ x − x . D’autre part,
.
m+
.
γ γ yε − x 2 ≤ f (yε ) + yε − x 2 = g(yε ) ≤ g(x ) = f (x ) ≤ m + . 2 2
36
1 Ensembles et fonctions convexes
On en déduit yε − x 2 ≤
.
Prendre .γ = 2.
2
γ
et
f (yε ) ≤ m + .
.
D’autres valeurs de .γ conduisent à d’autres inégalités. Ce théorème montre que si m > −∞, on peut construire une suite .{yk } telle qu’en même temps .f (yk ) converge vers m et .∇f (yk ) converge vers 0. Prendre pour cela .ε = k −1 .
.
Chapter 2
Dualité et Sous-Différentiabilité
Nous utiliserons les notations suivantes : dans un espace vectoriel de dimension finie, sauf indication contraire, par .x on désigne la norme euclidienne du vecteur x, par .x, y le produit scalaire usuel des vecteurs x et y, par .B(x, r) et .B(x, r) les boules euclidiennes ouvertes et fermées de centre x et de rayon r.
2.1 La dualité sur les cônes convexes 2.1.1 Ensembles polaires et cônes duaux L’ensemble polaire .S ◦ d’un ensemble non vide .S ⊂ Rp est défini par S◦ =
.
{x ∗ ∈ Rp : x ∗ , x ≤ 1}.
x∈S
S ◦ est un convexe fermé puisque intersection de demi-espaces fermés. Il contient l’origine. Il est facile de montrer que l’on a
.
[ conv (S) ] ◦ = S ◦ .
.
Lorsque S est un cône on obtient S◦ =
.
{x ∗ ∈ Rp : x ∗ , x ≤ 0},
x∈S
S ◦ est alors un cône convexe fermé. Notre premier résultat de dualité porte sur les ensembles convexes.
.
© The Author(s), under exclusive license to Springer Nature Switzerland AG 2023 J.-P. Crouzeix et al., Optimisation convexe et inéquations variationnelles monotones, Mathématiques et Applications 89, https://doi.org/10.1007/978-3-031-30681-5_2
37
38
2 Dualité et Sous-Différentiabilité
Théorème 2.1 Soit .C ⊂ Rp un convexe fermé borné tel que .0 ∈ int (C). Alors, .C ◦ est un convexe fermé borné et donc .0 ∈ int (C ◦ ) et .C = C ◦◦ . Preuve : a) La fonction f définie par .f (x ∗ ) = supx∈C x ∗ , x est continue puisque C est borné. Donc .0 ∈ int (C ◦ ) puisque d’une part .f (0) = 0 < 1 et d’autre part .C ◦ = {x ∗ : f (x ∗ ) ≤ 1}. Puisque .0 ∈ int (C), il existe .r > 0 tel que ∗ ∗ ∗ ◦ .B(0, r) ⊂ C, ce qui implique .f (x ) ≥ r x pour tout .x . .C est donc borné. ∗ ∗ ◦ b) Supposons .x ∈ C, alors .x , x ≤ 1 pour tout .x ∈ C et donc .x ∈ C ◦◦ . Supposons maintenant .x ∈ / C. Désignons par p la projection de x sur C. Alors .y − p, x − p ≤ 0 pour tout .y ∈ C. Puisque .0 ∈ int (C) et .x = p on a 0 < sup y, x − p = p, x − p et donc
.
y∈C
x−p ∈ C◦. p, x − p
D’autre part, x,
.
x−p x − p2 = + 1 > 1. p, x − p p, x − p
Donc .x ∈ / C ◦◦ .
.
Le cône dual positif d’un ensemble non vide .K ⊂ Rp est l’ensemble suivant K+ =
.
{x ∗ ∈ Rp : x ∗ , x ≥ 0}.
x∈K
Par construction .K + est un cône convexe fermé puisqu’il est une intersection de cônes convexes fermés. Le cône dual négatif d’un ensemble non vide .K ⊂ Rp est K− =
.
{x ∗ ∈ Rp : x ∗ , x ≤ 0} = −K + .
x∈K
Lorsque K est un cône, .K − coïncide avec le cône polaire .K ◦ de K. Notre second résultat fondamental de dualité porte sur les cônes convexes. Théorème 2.2 Soit .K ⊂ Rn un cône convexe fermé non vide. Alors, 1) .K ◦ est un cône convexe fermé non vide et on a .K = K ◦◦ . 2) Tout .x ∈ Rn peut se décomposer de façon unique sous la forme ◦ .x = x1 + x2 avec .x1 ∈ K, .x2 ∈ K et .x1 , x2 = 0. Preuve : 1) Supposons .x ∈ K, alors .x ∗ , x ≤ 0 pour tout .x ∗ ∈ K ◦ et donc ◦◦ .x ∈ K . Supposons maintenant .x ∈ / K. Désignons par p la projection de x sur K. Alors, .p = x et .λy − p, x − p ≤ 0 pour tout .y ∈ K et tout .λ > 0. En faisant varier .λ dans l’intervalle .(0, +∞) on obtient .p, x − p ≥ 0 et
2.1 La dualité sur les cônes convexes
39
y, x − p ≤ 0 pour tout .y ∈ K. D’une part .x − p ∈ K ◦ et d’autre part 2 .x, x − p = x − p + p, x − p > 0. Donc .x ∈ / K ◦◦ . 2) Prendre .x1 = p ∈ K et .x2 = x − p. De ce qui précède on sait que .x2 ∈ K ◦ et donc .x1 , x2 ≤ 0. On a vu que .p, x − p ≥ 0 donc .x1 , x2 = 0. Supposons que l’on ait aussi .x = y1 + y2 avec .y1 ∈ K, .y2 ∈ K ◦ et .y1 , y2 = 0. On a .
0 = x1 − y1 + x2 − y2 2 = x1 − y1 2 + x2 − y2 2 + 2x1 − y1 , x2 − y2 .
.
Par hypothèse .y1 , y2 = x1 , x2 = 0. D’autre part, puisque .x1 , y1 ∈ K et x2 , y2 ∈ K ◦ , on a .y1 , x2 ≤ 0 et .x1 , y2 ≤ 0. Donc,
.
x1 − y1 2 + x2 − y2 2 ≤ 0.
.
La décomposition est donc unique.
.
On en déduit le résultat suivant. Corollaire 2.1 Soit K un cône non vide. Alors .K ◦◦ coïncide avec le cône convexe fermé engendré par K. Il s’ensuit .K ◦ = K ◦◦◦ .
2.1.2 La dualité sur les polyèdres convexes On appelle cône convexe polyédrique un ensemble du type P = { x ∈ Rn : Ax ≥ 0},
.
(2.1)
où A est une matrice .p × n donnée. P ainsi défini est bien un cône, il est aussi convexe et fermé comme intersection de convexes fermés. Les p vecteurs .d1 , d2 , · · · , dp ∈ Rn étant donnés, l’ensemble K = {x =
p
.
yi di : yi ≥ 0, i = 1, · · · , p},
i=1
est un cône convexe. On dit que c’est le cône convexe généré par les p directions di . On écrira K sous la forme condensée
.
K = { x = Dy : y ∈ Rp , y ≥ 0},
.
(2.2)
où D est la matrice .n × p dont les colonnes sont les vecteurs .di . Nous allons nous intéresser aux relations entre cônes convexes polyédriques et cônes convexes finiment générés. Lemme 2.1 .K = { x = Dy : y ∈ Rp , y ≥ 0} est un cône convexe fermé.
40
2 Dualité et Sous-Différentiabilité
Preuve : Il est facile de voir que .K = {x = kz : k ≥ 0, z ∈ C } où C = {z =
p
.
i=0
λi di : 1 =
p
λi , λi ≥ 0, i = 0, 1, · · · , p},
i=0
en prenant .d0 = 0. C est l’enveloppe convexe des .p + 1 points .di . En raison du théorème 1.1, .C = ∪J ∈J CJ où .J est l’ensemble des parties .J ⊂ {1, 2, · · · , p} pour lesquelles les .dj , j ∈ J , sont linéairement indépendants, l’ensemble .CJ étant l’enveloppe convexe des points .d0 et .dj , j ∈ J . On appelle .DJ le cône convexe engendré par .CJ . Puisque les .dj , j ∈ J , sont linéairement indépendants, tout point .x ∈ DJ s’écrit de façon unique sous la forme .x = j ∈J ξj dj . On en déduit que .DJ est un cône convexe fermé. Il est clair que .K = ∪J ∈J DJ . L’ensemble K est fermé car union finie de fermés. . La proposition suivante dit que le cône dual d’un cône convexe polyédrique est un cône convexe finiment généré et que, réciproquement, le cône dual d’un cône convexe finiment généré est un cône convexe polyédrique. Proposition 2.1 On a les relations suivantes { x = Dy : y ∈ Rp , y ≥ 0}+ = {x ∗ ∈ Rn : D t x ∗ ≥ 0},
.
{x ∈ Rn : Ax ≥ 0}+ = { x = At z : z ∈ Rp , z ≥ 0}.
.
Preuve : Il suffit de voir que .x ∗ ∈ K = { x = Dy : y ∈ Rp , y ≥ 0}+ si et seulement si 0 ≤ x ∗ , Dy = D t x ∗ , y
.
∀ y ≥ 0.
Ecrire ensuite .K ++ = K.
.
Une conséquence importante est le lemme suivant qui jouera un rôle important pour l’obtention de conditions d’optimalité. Lemme 2.2 (Farkas [40]) Etant donnés A matrice .p × n et .a ∈ Rp [ Ax ≤ 0 ⇒ a, x ≤ 0 ] ⇐⇒ ∃ y ∈ [ 0, ∞[ p tel que a = At y.
.
Preuve : L’ensemble .C ◦ = { x : Ax ≤ 0} est le cône polaire de l’ensemble .C = {x = At y : 0 ≤ y ∈ Rp } cône généré par les vecteurs colonnes de la matrice .At . La partie gauche de l’implication signifie que .a ∈ C ◦◦ = C. . Nous reviendrons plus tard sur les lemmes de type Farkas. Le théorème fondamental suivant montre que cône convexe finiment généré et cône convexe polyédrique sont deux formulations duales d’un même objet.
2.1 La dualité sur les cônes convexes
41
Théorème 2.3 (Théorème de Minkowsky-Weil) Un cône convexe est polyédrique si et seulement s’il est finiment généré. Preuve : a) Supposons K de la forme (2.2). i) Soit k le rang de la matrice D, alors .k ≤ min(n, p). On permute les colonnes de la matrice D de façon à ce que ses k premières colonnes soient linéairement indépendantes. Il existe alors une matrice P carrée d’ordre n inversible telle que PD =
.
Ik −S 0 0
,
où .Ik est la matrice identité d’ordre k et S est une matrice .k × (p − k). Ainsi x ∈ K si et seulement si .u ∈ Rk et .v ∈ Rp−k existent tels que
.
Px =
.
u − Sv 0
,
u ≥ 0, v ≥ 0.
Il suffit de montrer que le cône convexe .T = {z = u−Sv : u ≥ 0, v ≥ 0} est polyédrique. On pose .B = Ik . ii) L’ensemble T est défini par le système de k inégalités .Bz − Sv ≥ 0 et les p contraintes de positivité .z ≥ 0 et .v ≥ 0. Nous allons utiliser le procédé d’élimination de Fourier-Motzkin pour supprimer successivement les contraintes de positivité .v ≥ 0 en commençant ˜ s) où s est la dernière colonne par la dernière. On met S sous la forme .S = (S, de S et la matrice .S˜ est constituée par les .p − k − 1 premières colonnes. Si .s = 0 la dernière composante de v n’apparait pas. Sinon, on pose .I− = {i : si < 0} et .I+ = {i : si > 0} et on désigne par .v˜ le vecteur constitué par les .p − k − 1 premières composantes de v. Le système d’inégalités s’écrit v˜ ≥ 0,
.
1 1 [Bz − S˜ v] ˜ i ≥ vp ≥ [Bz − S˜ v] ˜ j, si sj
∀ i ∈ I+ , ∀ j ∈ I− .
On supprime la composante .vp qui ne joue plus aucun rôle. Le système de k inégalités .Bz−Sv ≥ 0 est remplacé par le système équivalent .B˜ z˜ − S˜ v˜ ≥ 0 de k inégalités lorsque .card (I− ) card (I+ ) = 0, de .card (I− ) card (I+ ) inégalités sinon. Le nombre de contraintes de positivité a diminué mais au prix d’une ˜ .S = S˜ et on retourne augmentation du nombre d’inégalités. On fait .B = B, en ii) jusqu’à la disparition des contraintes de positivité de type .v ≥ 0. b) Supposons maintenant P de la forme (2.1). Son dual est de la forme (2.2) qui peut aussi s’écrire sous la forme (2.1). Le bidual est donc de la forme (2.2). .
42
2 Dualité et Sous-Différentiabilité
On appelle polyèdre convexe de .Rn un ensemble du type P = {x ∈ Rn : Ax ≥ a},
.
où A est une matrice .p × n et .a ∈ Rp . Un ensemble convexe finiment généré de .Rn est un ensemble du type Q = {x =
p
.
zi s i +
q j =1
i=1
yj dj : 1 =
p
zi , y ≥ 0, z ≥ 0},
i=1
où les points .si et les directions .dj appartiennent à .Rn. Q peut se mettre sous la forme .Q = C + D où C est l’enveloppe convexe des p points .si et D est le cône convexe généré par les directions .dj . Q est un ensemble convexe fermé puisque C est un convexe compact et D est un cône convexe fermé. Il est clair que .Q∞ = D. Théorème 2.4 (Deuxième théorème de Minkowsky-Weil) Un ensemble convexe est finiment généré si et seulement s’il est un polyèdre convexe. Preuve : Soit T un ensemble convexe de .Rn. Construisons le cône convexe .K = {(λx, λ) ∈ Rn+1 : λ ≥ 0, x ∈ T }. On a K ∩ (Rn × {1}) = T × {1}.
.
Si T est ensemble convexe finiment généré, alors K est un cône convexe finiment généré donc est un cône convexe polyédrique. On déduit que T est un polyèdre convexe. Si T est un polyèdre convexe, alors K est un cône convexe polyédrique donc est un cône convexe finiment généré et ainsi T est un convexe finiment généré. . Ce résultat de dualité est très important. En effet, lorsque l’on travaille sur les polyèdres convexes, il convient de choisir la formulation la mieux adaptée au problème. Nous illustrons cela dans la proposition suivante. Proposition 2.2 Soit .f : Rn → Rp une application affine. 1) Si Q est un polyèdre convexe de .Rn, .f (Q) est un polyèdre convexe de .Rp. 2) Si P est un polyèdre convexe de .Rp, .f −1 (P ) est un polyèdre convexe de .Rn. Preuve : 1) Choisir convexe finiment généré ci-dessus. pla formulation ensemble q Alors .f (x) = i=1 zi f (si ) + j =1 yj f (dj ). 2) Ici, il est mieux de choisir la formulation polyèdre convexe, c’est-à-dire, .P = {y ∈ Rp : Ay ≥ a}. Ecrire f sous la forme .f (x) = Mx + q. Alors, .f −1 (P ) = . {x ∈ Rp : AMx ≥ a − Aq}. Corollaire 2.2 1) Si . P et . Q sont des polyèdres convexes de . Rn , .P + Q est un polyèdre convexe de .Rn.
2.2 La dualité sur les fonctions convexes
43
2) Si P est un polyèdre convexe de .Rn × Rp , sa projection sur .Rn est un polyèdre convexe de .Rn. Preuve : Pour 1) considérer la fonction linéaire somme. Pour 2) considérer la . fonction linéaire projection.
2.2 La dualité sur les fonctions convexes 2.2.1 Fonctions convexes conjuguées Nous allons introduire la conjugaison de façon géométrique. Avec une fonction f convexe sci propre sur .Rn, on associe le cône K engendré par le convexe fermé non vide .epi (f ) × {−1}. On a K = {(μx, μλ, −μ) : μ > 0, f (x) ≤ λ} ⊂ Rn × R × R.
.
K est un cône convexe, il diffère de sa fermeture uniquement sur le sous-espace Rn × R × {0}. En particulier on a
.
K ∩ [ Rn × R × {−1} ] = {(x, λ, −1) : (x, λ) ∈ epi (f ) }
.
(2.3)
Calculons .K ◦ : .(x ∗ , λ∗ , μ∗ ) ∈ K ◦ si et seulement si .
sup [ μ(x ∗ , x + λ∗ λ − μ∗ ) : μ > 0, f (x) ≤ λ ] ≤ 0. x,μ
On a nécessairement .λ∗ ≤ 0. Si .λ∗ = 0, on doit avoir .μ∗ ≥ supx [ x ∗ , x : x ∈ dom (f ) ]. Si .λ∗ = −1, on doit avoir .μ∗ ≥ supx [ x ∗ , x − f (x) : x ∈ Rp ]. Pour tout .x ∗ ∈ Rp on pose f ∗ (x ∗ ) = sup [ x ∗ , x − f (x) : x ∈ Rp ].
.
(2.4)
x
La transformation qui à la fonction f associe la fonction .f ∗ est appelée transformation de Legendre-Fenchel. La fonction .f ∗ est appelée fonction conjuguée de f . Par construction, .f (x) + f ∗ (x ∗ ) ≥ x ∗ , x pour tout .x, x ∗ ∈ Rp , cette inégalité est appelée inégalité de Fenchel. ◦ .K n’est rien d’autre que la fermeture du cône convexe engendré par le convexe fermé .{ (x ∗ , −1, μ∗ ) : f ∗ (x ∗ ) ≤ μ∗ }. En particulier on a K ◦ ∩ [ Rp × {−1} × R ] = {(x ∗ , −1, μ∗ ) : (x ∗ , μ∗ ) ∈ epi (f ∗ ) }.
.
(2.5)
44
2 Dualité et Sous-Différentiabilité
La fonction .f ∗ est une fonction convexe sci. Cela peut être vu, soit à partir de l’équation (2.4) en notant que .f ∗ est un supremum de fonctions affines, soit à partir de l’équation (2.5) en notant que l’épigraphe de .f ∗ est obtenu à travers une intersection de convexes fermés. Montrons que la fonction .f ∗ est propre. Soit .x¯ ∈ dom (f ) arbitrairement choisi, alors .f ∗ (x ∗ ) ≥ x ∗ , x ¯ − f (x) ¯ > −∞ pour tout .x ∗ . D’autre part, .(x, ¯ f (x) ¯ − 1) ∈ / epi (f ) puisque .f (x) ¯ > −∞. Or .epi (f ) est un convexe fermé, donc il existe ∗ .(x , ξ ) = (0, 0) tel que x ∗ , x ¯ + ξ(f (x) ¯ − 1) > sup [ x ∗ , x + ξ λ : f (x) ≤ λ ].
.
x,λ
On en déduit .ξ < 0. On a alors, .
+ ∞ > −
x∗ −x ∗ −x ∗ , x ¯ − f (x) ¯ + 1 > sup [ , x − f (x) ] = f ∗ ( ). ξ ξ ξ x
La fonction convexe sci .f ∗ est propre car son domaine est non vide et elle ne prend jamais la valeur .−∞. On note la symétrie parfaite entre les relations (2.3) et (2.5). Se donner f convexe sci propre est équivalent à se donner le cône convexe fermé non vide K, ce qui est équivalent à se donner son cône polaire .K ◦, ce qui à son tour est équivalent à se donner .f ∗. On peut énoncer notre troisième résultat fondamental de dualité. Théorème 2.5 Soit f une fonction convexe sci propre. La fonction .f ∗ définie par l’équation (2.4) est convexe sci propre. En outre f coincide avec sa fonction biconjuguée (la conjuguée de la conjuguée) .f ∗∗. Etudions maintenant la fonction .f ∗ définie par (2.4) lorsque f est une fonction quelconque. Il est clair que .f ∗ (x ∗ ) = +∞ pour tout .x ∗ dès lors qu’il existe quelque x tel que .f (x) = −∞. On a alors, .f ∗∗ (y) = −∞ pour tout y. On s’intéressera donc uniquement aux fonctions qui ne prennent jamais la valeur .−∞. La proposition suivante est une conséquence assez immédiate des définitions de ∗ ∗∗ . .f et .f Proposition 2.3 Soit .f : Rn → ] − ∞, +∞] telle que .dom (f ) = ∅. La fonction ∗ ∗ ∗ ∗ .f est convexe sci et on a .f (x ) > −∞ pour tout .x . En outre, .
− ∞ ≤ f ∗∗ (x) = sup inf [ f (y) + x ∗ , x − y ] ≤ f (x) x∗
y
∀ x ∈ Rn .
Sans hypothèses complémentaires, le domaine de .f ∗ peut être vide. Prendre la fonction définie par .f (t) = +∞ si .t < 0, .f (t) = 0 si .t = 0 et .f (t) = ln(t) si ∗ ∗ ∗ ∗∗ (t) = −∞ pour tout t. .t > 0. On a alors .f (t ) = +∞ pour tout .t et .f Proposition 2.4 Soit .f : Rn → ] − ∞, +∞] telle que .dom (f ) = ∅. Lorsque ∗ ∗∗ coïncide avec la plus grande fonction convexe sci majorée par .dom (f ) = ∅, .f f.
2.2 La dualité sur les fonctions convexes
45
Preuve : On retourne à la construction de .f ∗ à partir des cônes K et .K ◦. Bien que K ne soit pas nécessairement un cône convexe fermé, .K ◦ est le cône polaire du cône convexe fermé engendré par .conv (epi (f )) × {−1}. Puisque .f ∗ est une fonction convexe sci propre, sa conjuguée .f ∗∗ coïncide avec la plus grande fonction convexe . sci majorée par .f.
2.2.2 Fonctions indicatrice et support, cône barrière Soit S un sous ensemble de .Rn non vide. La fonction indicatrice de S est la fonction définie par δ(x, S) = 0 si x ∈ S, +∞ sinon.
.
La fonction support de S est la fonction conjuguée de la fonction indicatrice de S, i.e., δ ∗ (x ∗ , S) = sup x ∗ , x.
.
x∈S
Il est clair que S est convexe si et seulement si la fonction .δ(·, S) est convexe. S est fermé si et seulement si la fonction .δ(·, S) est sci. La fonction .δ ∗ (·, S) est convexe sci comme supremum de fonctions linéaires. Elle est aussi positivement homogène, c’est-à-dire, .δ ∗ (kx ∗ , S) = kδ ∗ (x ∗ , S) pour tout .x ∗ ∈ dom (δ ∗ (·, S)) et tout .k > 0. Réciproquement on a la proposition suivante. Théorème 2.6 Soit f une fonction convexe sci propre positivement homogène. Alors, il existe un convexe fermé non vide C dont f est la fonction support. Preuve : Par définition, f ∗ (x ∗ ) = sup [ x ∗ , kx − f (kx) ] = sup [ k sup [ x ∗ , x − f (x) ] ].
.
x,k>0
k>0
x
f ∗ (x ∗ ) = +∞ s’il existe x tel que .x ∗ , x − f (x) > 0. ∗ ∗ ∗ .f (x ) = 0 si .x , x − f (x) ≤ 0 pour tout .x ∈ dom (f ). Prendre .C = {x ∗ : x ∗ , x − f (x) ≤ 0}. .
x∈dom (f )
C est un convexe fermé, il est non vide car .f ∗ est propre. On a .f ∗ = δ(·, C) et ∗∗ = δ ∗ (·, C). .f = f . Nous allons donner plusieurs applications de ce théorème.
46
2 Dualité et Sous-Différentiabilité
Proposition 2.5 Soit f une fonction convexe sci propre. Sa fonction de récession f∞ est la fonction support de .dom (f ∗ ).
.
Preuve : Soit .a ∈ dom (f ) arbitraire. Puisque f est la conjuguée de .f ∗ , 1 1 f (a + td) = sup [ x ∗ , a + td − f ∗ (x ∗ ) ], ∗ t t t→∞ t→∞,x
f∞ (d) = sup
.
f∞ (d) = sup [ x ∗ , d : f ∗ (x ∗ ) < +∞ ] = δ ∗ (d, dom (f ∗ )).
.
x∗
d’où le résultat.
.
Corollaire 2.3 Soit f une fonction convexe sci propre. f est inf-compacte si et seulement si . 0 ∈ int (dom (f ∗ )). Preuve : En raison du théorème 1.17, la fonction f est inf-compacte si et seulement si .{0} = {d : f∞ (d) ≤ 0}. La proposition 2.5 dit que .f∞ est la fonction support de ∗ .dom (f ). . Le cône barrière d’un ensemble S, noté .barr (S), est le domaine de sa fonction support, i.e., barr (S) = dom (δ ∗ (·, S)) = { x ∗ : sup [x ∗ , x : x ∈ S ] < +∞}.
.
x
Le cône barrière d’un ensemble non vide est convexe et il contient l’origine. Le cône barrière d’un ensemble convexe fermé n’est pas nécessairement fermé : pour 2 .S = {(x, y) : y ≥ x } on a .barr (S) = R×] − ∞, 0 [ ∪ {0, 0}. Proposition 2.6 Soit C un convexe fermé non vide. Alors, .C∞ = [barr (C )]◦ et ◦ .[C∞ ] = barr (C ). Preuve : Prendre .f = δ ∗ (·, C) dans la proposition précédente. Alors, δ(d, C∞ ) = δ∞ (d, C) = δ ∗ (d, barr (C)) = δ ∗ (d, barr (C)).
.
barr (C) étant un cône convexe, .δ ∗ (d, barr (C)) ne prend que les valeurs 0 ou .+∞. Donc,
.
d ∈ C∞ ⇐⇒ δ ∗ (d, barr (C)) ≤ 0 ⇐⇒ d ∈ [barr (C)]◦ .
.
Il s’ensuit .[C∞ ]◦ = barr (C).
.
2.2 La dualité sur les fonctions convexes
47
2.2.3 Opérateurs d’aggrégation ordonnés On note .π la fonction qui à .x ∈ Rn associe le vecteur .y(x) ∈ Rn dont les composantes sont celles de x après les avoir ordonnées dans le sens croissant. Ainsi, par construction, .yn (x) ≥ yn−1 (x) ≥ · · · ≥ y1 (x). Le vecteur .w ∈ Rn étant fixé, intéressons-nous à la convexité de la fonction .fw : x → fw (x) = w, π(x). On pose W = {w ∈ Rn : wn ≥ wn−1 ≥ · · · ≥ w1 }.
.
Théorème 2.7 .fw est convexe si et seulement si .w ∈ W . Preuve : a) Supposons .w ∈ W . Soit la matrice C triangulaire supérieure .n × n définiepar .cij = 1 si .i ≤ j , 0 sinon. Soit .b ∈ Rn tel que .w = Cb, c’est-à-dire, n .wi = j =i bj . Par construction, .bi = wi − wi+1 ≤ 0 pour tout .i < n Désignons par .c.i la colonne i de la matrice C et par .Ji la famille des ensembles .J ⊂ {1, 2, · · · , n} de cardinal i. w=
n
.
i=1
bi c.i ,
fw (x) =
n i=1
bi θi (x) où θi (x) = min
J ∈Ji
xj .
j ∈J
La fonction .θn est linéaire. Les fonctions .θi , i < n, sont des minimums de fonctions linéaires et sont donc concaves. La fonction .fw est bien convexe. b) Supposons au contraire l’existence de i tel que .wi > wi+1 . Construisons .x, z ∈ Rn comme suit : .xj = zj = 100 si .j > i + 1, .xj = zj = −100 si .j < i, .xi = zi+1 = −1, .zi = xi+1 = 1 et .y = (x + z)/2. Alors, .x = π(x) = π(z), .π(y) = y, .fw (x) + fw (z) − 2fw (y) = 2(wi+1 − wi ) < 0 en contradiction avec l’hypothèse. . Le nombre de permutations des indices .{1, 2, · · · , n} est fini car égal à .n!. Désignons par . l’ensemble des matrices permutations associées aux .n! ordres. Pour .x ∈ Rn il existe une matrice .Px ∈ telle que .Px x = π(x). La condition .w ∈ W implique .fw (x) = w, Px x = maxP ∈ w, P x. Ainsi, par construction, .fw est une fonction convexe linéaire par morceaux. Elle est aussi positivement homogène, elle est donc la fonction support d’un polytope convexe de .n! sommets en comptant leurs ordres de multiplicité (lorsque .wi = n−1 pour tout i les sommets se réduisent en un seul). Notons que l’on a aussi .fw (x) = maxP ∈ P t w, x. En choisissant .wi = n−1 pour tout i, .fw (x) correspond à la moyenne arithmétique des .xi . Le maximum des .xi est obtenu en choisissant .wn = 1 et .wi = 0 pour .i = n. Avec .w1 = −1 et .wi = 0 pour .i = 1 on obtient l’opposé du minimum des .xi . L’écart des .xi est obtenu en prenant .w1 = −1, wn = 1 et .wi = 0 pour .i = 1, n. Les OWA (Ordered Weighted Averaging [102]) opérateurs d’agrégation cor = {w ∈ W : w ≥ 0, en , w = 1}. Ce sont respondent aux poids .w ∈ W
48
2 Dualité et Sous-Différentiabilité
des outils utilisés en reconnaissance de formes, agrégation multicritère, intelligence artificielle, . . . , dans un environnement de mathématique floue. De façon évidente la fonction .fw est concave si et seulement si .w ∈ −W . Lorsque w n’appartient ni à W ni à .−W , la fonction .fw peut s’écrire comme différence de deux fonctions convexes. Pour chaque i on se donne .wi+ et .wi− tels que .wi = wi+ − wi− . On initialise pour .i = 1 en prenant par exemple .w1+ = w1 et − .w 1 = 0. Puis, on considère l’équation de récurrence + − (wi+1 − wi+ ) = (wi+1 − wi− ) + (wi+1 − wi ).
.
+ − Si .wi+1 − wi ≥ 0, on prend .wi+1 = wi+ + (wi+1 − wi ) et .wi+1 = wi− . + + − − Si .wi+1 − wi ≤ 0, on prend .wi+1 = wi et .wi+1 = wi − (wi+1 − wi ). Par construction .w + et .w − appartiennent à W et .fw = fw+ − fw− .
2.2.4 Analyse en composantes principales La matrice A, n lignes et p colonnes, a été obtenue à partir d’une collecte de données. Le coefficient .aij est le résultat de la mesure i prise sur l’élément j de l’échantillon. Il est difficile, dès que n dépasse plusieurs unités, d’appréhender les corrélations multiples entre les n variables. Comment résumer les informations contenues dans la matrice A et en tirer des conclusions sur les corrélations entre les n variables étudiées ? La méthode des composantes principales que nous allons décrire sommairement permet de visualiser en dimension 1,2 ou 3 les corrélations les plus importantes. Tout d’abord, posons pour chaque .i = 1, · · · , n et .j = 1, · · · , p a¯ i =
.
p 1 aij , p
bij = aij − a¯ i ,
b.j 2 =
j =1
n
2 bij .
i=1
Considérons ensuite l’ensemble des sous-espaces vectoriels E de dimension q (dans la pratique .q = 1, 2 ou 3). Se donner un tel sous espace vectoriel E, revient à se donner la matrice P projection euclidienne sur E. Cette matrice P est une matrice 2 = P et .E = P (Rn ) = .n × n de rang q, elle est bien définie. Par construction, .P P (E). La dimension de E est q. Afin de conserver le maximum du contenu des informations données par la matrice A, il y a lieu de choisir la matrice P pour laquelle la quantité .S(P ) = p P b. j 2 est maximale. Par construction, j =1 S(P ) =
.
p n n n [( pik bkj ) ( pim bmj )] = pik bkj bmj pim . j =1 i=1
k=1
m=1
i,j,k,m
2.2 La dualité sur les fonctions convexes
49
La quantité .S(P ) est alors la trace (la somme des éléments diagonaux) de la matrice .P BB t P t . La matrice .BB t est une matrice .n × n symétrique semi-définie positive. Il existe donc une matrice diagonale . et une matrice orthogonale Q telles que .QQt = In , t t .BB = QQ et .δ1 ≥ δ2 ≥ · · · ≥ δn ≥ 0. Il s’ensuit que .S(P ) est la trace de la matrice .P QQt P t . Lorsqu’on choisit pour P la matrice telle que PQ =
.
Iq 0 0 0
la quantité .S(P ) est la somme des q premières valeurs propres de .. C’est la valeur maximale que peut prendre .S(P ). Le sous-espace vectoriel E est alors l’espace généré par les q vecteurs propres associés aux valeurs propres .δ1 , · · · , δq . Ces vecteurs propres sont appelés composantes principales. Appelons .c¯ la projection de .a¯ sur E et considérons le sous espace affine de .F = E + a¯ − c. ¯ Posons, pour tout .j = 1, · · · p, .xj = P b. j + a¯ − c. ¯ Alors .a¯ ∈ F et .xj ∈ F pour tout j . On remarque que .a ¯ est le barycentre des points .xj . Le vecteur .xj concentre l’information .a. j donnée dans la colonne j . La visualisation sur une droite (.q = 1), dite alors droite des moindres carrés, sur le plan (.q = 2) ou sur l’espace à 3 dimensions (.q = 3) permet de dégager les corrélations les plus importantes entre les n variables. Rappelons que la trace de la matrice .BB t n’est rien d’autre que la somme des valeurs propres de .BB t . Le rapport de la somme des q premières valeurs propres de .BB t sur la trace de .BB t permet de juger l’importance des corrélations mises à jour dans l’analyse en composantes principales. Les statisticiens tireront à partir des composantes de la matrice P des conclusions importantes sur les relations entre les q composantes principales et les n variables.
2.2.5 Normes duales Considérons une norme n sur .Rd et B la boule unité fermée associée à n. En raison du théorème 2.6, n est la fonction support d’un convexe fermé que l’on notera .Bd . Puisque .x ∗ ∈ Bd si et seulement si .n∗ (x ∗ ) = 0, on a x ∗ ∈ Bd ⇐⇒ 0 = sup [ x ∗ , x−n(x) ] = sup
.
x
λ>0
λ sup [ x ∗ , y − 1 : n(y) = 1 ] . y
Par conséquent, x ∗ ∈ Bd ⇐⇒ sup [ x ∗ , y : n(y) = 1 ] ≤ 1 ⇐⇒ sup
.
y
y=0
x ∗ , y ≤ 1. n(y)
50
2 Dualité et Sous-Différentiabilité
Ce qui peut s’écrire également x ∗ ∈ Bd ⇐⇒ sup [ x ∗ , y : n(y) ≤ 1 ] ≤ 1.
.
y
Remarquons que .Bd est un convexe fermé borné, .Bd = −Bd et .0 ∈ int (Bd ), ce qui nous amène à introduire sa norme associée nd (x ∗ ) = sup [ x ∗ , y : n(y) ≤ 1 ] = sup
.
y=0
y
x ∗ , y n(y)
∀ x ∗ ∈ Rd .
(2.6)
On dit que .nd est la norme duale de n, c’est la plus petite fonction telle que n(x) nd (x ∗ ) ≥ x ∗ , x
.
∀ x, x ∗ ∈ Rd .
On fera l’analogie avec la dualité sur les fonctions convexes où la fonction conjuguée .f ∗ de f est la plus petite fonction telle que f (x) + f ∗ (x ∗ ) ≥ x ∗ , x
.
∀ x, x ∗ ∈ Rd .
Pour des raisons de symétrie, n est la fonction duale de .nd . Calculons à titre d’exemple la norme duale de la norme du max, ∗
∗
nd (x ) = sup [ x , x : −1 ≤ xi ≤ 1 ∀ i ] =
.
x
d
|xi∗ ] = x ∗ 1 .
i=1
Les normes ..∞ et ..1 sont donc duales l’une de l’autre. Nous étudierons plus tard la dualité pour les normes ..p , .p > 1.
2.2.6 Homogénéisation Etant donnée une fonction f convexe sci propre, on construit la fonction ϕ(x, t) =
.
t > 0, tf ( xt ) si +∞ sinon.
On obtient ϕ ∗ (x ∗ , t ∗ ) = sup
.
t>0,x
!
x x " t [ x ∗ , + t ∗ − f ( ) ] = sup [ t (f ∗ (x ∗ ) + t ∗ ) ], t t t>0
ϕ ∗ (x ∗ , t ∗ ) =
.
0 si t ∗ + f ∗ (x ∗ ) ≤ 0, +∞ sinon.
2.3 Sous-différentiel d’une fonction convexe
51
Et finalement, ⎧ x ⎨ tf ( t ) si t > 0, ∗∗ .ϕ (x, t) = f (x) si t = 0, ⎩ ∞ +∞ si t < 0. ϕ ∗∗ est la plus grande fonction convexe sci majorée par .ϕ.
.
2.3 Sous-différentiel d’une fonction convexe Soit .f : Rp → R. Par définition de sa fonction conjuguée .f ∗ on a f (x) + f ∗ (x ∗ ) ≥ x ∗ , x
.
∀ x, x ∗ ∈ Rp .
(2.7)
Pour tout .x ∈ dom (f ) on pose, ∂f (x) := { x ∗ : f (x) + f ∗ (x ∗ ) = x ∗ , x} = { x ∗ : f (x) + f ∗ (x ∗ ) ≤ x ∗ , x}.
.
La fonction .f ∗ étant convexe sci, .∂f (x) est un convexe fermé éventuellement vide. En raison de (2.4) on a également ∂f (x) = { x ∗ : f (y) ≥ f (x) + x ∗ , y − x
.
∀ y ∈ Rp }.
(2.8)
Rappelons que, lorsque f est une fonction convexe qui est différentiable en x, on a l’inégalité suivante f (y) ≥ f (x) + ∇f (x), y − x
.
∀ y ∈ Rp
qui implique .∇f (x) ∈ ∂f (x). L’ensemble .∂f (x) peut être non vide lorsque f n’est pas différentiable. Considérer la fonction convexe .f : R → R définie par .f (t) = |t|. Elle est non différentiable en 0 mais il est facile de voir que .∂f (0) = [−1, 1]. Ainsi la notion définie par .∂f sur les fonctions convexes recouvre la différentiabilité. L’ensemble .∂f (x) est appelé sous-différentiel de f en x. Les éléments de .∂f (x) sont dits être les sous-gradients de f au point x. Exemple 2.1 (Sous-différentiel d’une norme) Soit n une norme sur .Rd et .nd sa norme duale. B et .Bd les boules unités fermées associées. Rappelons que .∂ n(x) = {x ∗ : n(x) + n∗ (x ∗ ) = x ∗ , x} et .n∗ (x ∗ ) = 0 si .x ∗ ∈ Bd , +∞ sinon. Il s’ensuit .
∂ n(x) = { x ∗ : nd (x ∗ ) ≤ 1 et n(x) = x ∗ , x }.
Rappelons que .n(x) nd (x ∗ ) ≥ x ∗ , x pour tout .x, x ∗ ∈ Rd . On obtient
52
2 Dualité et Sous-Différentiabilité
∂n(0) = Bd , ∂n(x) = { x ∗ : nd (x ∗ ) = 1, n(x) = x ∗ , x} si x = 0.
.
(2.9)
Le sous-différentiel .∂f d’une fonction convexe sci propre sur .Rn est une application de .Rn à valeurs dans l’ensemble des parties de .Rn . Nous allons placer l’étude de .∂f dans un contexte plus général.
2.4 Multiapplications : définition et continuité → F ou encore . : E → 2F pour désigner une application . de E On écrira . : E − → à valeurs dans l’espace des parties de F . On dit que . est une multiapplication ou encore est une application multivoque de E dans F . Voici une brève introduction à la théorie des multiapplications. → F est l’ensemble Le domaine d’une multiapplication . : E − → dom () = {x ∈ E : (x) = ∅}.
.
→ E est définie par La multiapplication inverse . −1 : F − → −1 (y) = {x ∈ E : y ∈ (x)}.
.
Le graphe de . est l’ensemble gph () = { (x, y) ∈ E × F : y ∈ (x) } = { (x, y) ∈ E × F : x ∈ −1 (y) }.
.
A une permutation des variables près, on peut considérer que le graphe est commun à . et . −1. → F est E et F étant des espaces vectoriels normés, la multiapplication . : E − → dite : — fermée en .a ∈ E si # .
$ (xk , xk∗ ) → (a, a ∗ ), xk∗ ∈ (xk ) ∀ k ⇒ a ∗ ∈ (a).
— scs au sens des multiapplications en .a ∈ E si, pour tout ouvert . ⊃ (a), il existe V voisinage de a tel que .(V ) ⊂ . Ces deux notions coïncident avec la notion usuelle de continuité lorsque . est une application univoque. Il est clair que la multiapplication . est fermée en tout point de son domaine lorsque son graphe est fermé. Le théorème suivant relie les deux notions de continuité que nous avons introduites. → F une multiapplication. Théorème 2.8 Soit . : E − → i) Si . est scs en a et si l’ensemble .(a) est fermé, la multiapplication . est fermée en a.
2.4 Multiapplications : définition et continuité
53
ii) Soit V ouvert contenu dans .dom (). Si . est fermée sur V et s’il existe K compact de F tels que .(V ) ⊂ K, alors la multiapplication . est scs sur V . Preuve : i) Supposons . non fermée en a. On peut alors trouver .a ∗ ∈ F et une suite .{(xk , xk∗ )} convergeant vers .(a, a ∗ ) avec .a ∗ ∈ / (a). Puisque .(a) est fermé, il existe une boule fermée B de centre .a ∗ telle que .B ∩ (a) = ∅. Mais alors .(a) est contenu dans le complémentaire .B c de B qui est ouvert. Il existe donc V voisinage de a avec .(V ) ⊂ B c . Pour k assez grand, .xk ∈ V et .xk∗ ∈ B. En contradiction avec .xk∗ ∈ (V ) ⊂ B c . ii) Supposons . non scs en .a ∈ V . Il existe alors . ouvert contenant .(a) tel que pour tout k entier positif il existe .xk ∈ V et .yk ∈ (xk ) ∩ c tel que c c .k xk − a ≤ 1 où . désigne le complémentaire de . dans F . Or .(xk ) ∩ c ∗ est contenu dans le compact .K ∩ . Soit .a une valeur d’adhérence de la suite ∗ ∗ ∈ c . Il existe une sous-suite .{(x x ∗ )} convergeant vers .(a, a ∗ ) et .{x }, .a kl kl k ∗ donc .a ∈ (a) ⊂ . . Voici la transposition aux applications multivoques d’un résultat concernant l’image d’un compact par une application univoque continue. → F une multiapplication scs en tout point et soit K Proposition 2.7 Soit . : E − → un compact de E. Si . (x) est un compact de F quel que soit .x ∈ K, alors .(K) est un compact de F . Preuve : Soit un recouvrement de .(K) par des ouverts . i , i ∈ I , c’est-à-dire, % .
(x) = (K) ⊂
x∈K
%
i .
i∈I
Pour chaque .x ∈ K, puisque .(x) est compact, il existe une famille finie .I (x) ⊂ I telle que (x) ⊂
%
.
i .
i∈I (x)
Le second membre est un ensemble ouvert et . est scs en x, il existe donc .Vx voisinage ouvert de x tel que (Vx ) ⊂
%
.
i .
i∈I (x)
Les .Vx forment un recouvrement du compact K par des ouverts. Il existe donc x1 , x2 , · · · , xq tels que
.
K ⊂ Vx1 ∪ Vx2 ∪ · · · ∪ Vxq .
.
On a alors,
54
2 Dualité et Sous-Différentiabilité
(K) ⊂
%
i .
.
i∈I (xj ),j =1,··· ,q
(K) est donc recouvert par un nombre fini d’ensembles . i .
.
.
2.4.1 Domaine du sous-différentiel Retournons à l’étude des sous-différentiels. Proposition 2.8 Soit f une fonction convexe sci propre. Alors, 1) .∂f (x) est un convexe fermé pour tout x. 2) .x ∗ ∈ ∂f (x) ⇐⇒ x ∈ ∂f ∗ (x ∗ ). 3) Le graphe de .∂f est fermé. Preuve : .gph (∂f ) = {(x, x ∗ ) : f (x) + f ∗ (x ∗ ) − x ∗ , x ≤ 0}.
.
Ainsi, lorsque f est une fonction convexe sci propre, les multiapplications .∂f et .∂f ∗ sont inverses l’un de l’autre. C’est une nouvelle expression de la dualité entre les fonctions f et .f ∗ . En outre les multiapplications .∂f et .∂f ∗ sont fermées. Intéressons-nous aux domaines. Théorème 2.9 Soit f une fonction convexe sci propre dont l’intérieur du domaine est non vide. Alors, 1) .∂f (x) = ∅ en tout .x ∈ int (dom (f )). 2) .∂f est localement borné sur .int (dom (f )). Preuve : Soit .a ∈ int (dom (f )). On sait que f est continue sur .int (dom (f )). Donc, il existe .M, m ∈ R et une boule .B(a, r) de centre a et de rayon .r > 0 tels que .B(a, r) ⊂ int (dom (f )) et .m < f (x) < M pour tout .x ∈ B(a, r). Soit .x ∈ B(a, r). Le point .(x, f (x)) n’appartient pas à l’épigraphe strict de f qui est convexe. Il existe donc .x ∗ ∈ Rn et .λ∗ ∈ R tels que x ∗ , x + λ∗ f (x) ≥ x ∗ , y + λ∗ λ
.
∀ y, λ tels que f (y) < λ.
On ne peut avoir .λ∗ > 0. On ne peut aussi avoir .λ∗ = 0. Sans perte de généralité on peut imposer .λ∗ = −1. On obtient alors f (y) ≥ f (x) + x ∗ , y − x
.
∀ y ∈ Rn
et donc .x ∗ ∈ ∂f (x). Soit .x ∈ B(a, r/2). Alors pour tout .x ∗ ∈ ∂f (x) on a M − m ≥ f (y) − f (x) ≥ x ∗ , y − x
.
∀ y ∈ B(a, r).
2.4 Multiapplications : définition et continuité
55
Il s’ensuit .x ∗ ≤ 2(M − m)/r.
.
Il reste à transposer ce résultat au cas où f est une fonction convexe sci propre mais avec .int (dom (f )) = ∅. Proposition 2.9 Soit f une fonction convexe sci propre. Soit .a ∈ dom (f ) arbitraire. Désignons par .H le sous espace vectoriel .aff (dom (f )) − a et par .H ⊥ le sous espace orthogonal à H . Alors, 1) .f ∗ (x ∗ ) = f ∗ (x ∗ + y ∗ ) − y ∗ , a pour tout .x ∗ ∈ H et tout .y ∗ ∈ H ⊥ . 2) .∂f (x) = ∂f (x) + H ⊥ pour tout .x ∈ Rn . 3) .∂f (x) = ∅ en tout .x ∈ ri (dom (f )). Preuve : La première assertion découle de la définition de .f ∗ . Il en découle la deuxième. Pour la dernière travailler sur la restriction de f au sous-espace affine. . Le domaine du sous-différentiel d’une fonction convexe sci propre est, par définition, contenu dans le domaine de la fonction. Il peut en différer comme le montre la fonction suivante √ f (x) = −2 x si x ≥ 0, +∞ sinon.
.
On a alors, f ∗ (x ∗ ) = −
.
1 si x ∗ < 0, +∞ sinon. x∗
D’où on déduit 1 ∂f (x) = {− √ } si x > 0, ∅ sinon. x
.
Le domaine du sous-différentiel n’est pas nécessairement convexe comme le montre l’exemple suivant : Exemple 2.2 (Rockafellar, [91]) Soit .f : R2 → R ∪ {+∞} définie par f (x1 , x2 ) =
.
⎧ √ ⎨ max{|x1 |, 1 − x2 } si x2 ≥ 0, ⎩
+∞
sinon.
Cette fonction est convexe propre et sci, .∂f (x1 , 0) = ∅ si .−1 < x < 1, .∂f (x1 , 0) = {−1} × (−∞, 0 ] si .x1 ≤ −1 et .∂f (x1 , 0) = {1} × (−∞, 0 ] si .x1 ≥ 1. Le domaine de .∂f n’est pas convexe. Rappelons qu’un ensemble C est dit presque convexe si son intérieur relatif et sa fermeture sont convexes et ont même intérieur relatif et même fermeture.
56
2 Dualité et Sous-Différentiabilité
Proposition 2.10 Le domaine du sous-différentiel d’une fonction convexe sci propre est presque convexe. Preuve : On a vu que ri (dom (f )) ⊂ dom (∂f ) ⊂ dom (f ).
.
Puisque .dom (f ) est convexe, on a ri (dom (f )) = ri (dom (∂f )) ⊂ dom (∂f ) ⊂ dom (∂f ) = dom (f ).
.
D’autre part, l’intérieur relatif et la fermeture de .dom (f ) ont même intérieur relatif et même fermeture. On en déduit le résultat. .
2.4.2 Continuité du sous-différentiel Nous avons déjà vu que le sous-différentiel d’une fonction convexe sci propre est une multiapplication fermée en tout point. Il est aussi scs sur l’intérieur du domaine de f . Théorème 2.10 Soit .f : Rn → R une fonction convexe sci propre. Soit .a ∈ int (dom(f )). Pour tout ouvert . ⊃ ∂f (a), il existe .r > 0 tel que pour tout .x ∈ B(a, r) on a .∂f (x) ⊂ . Preuve : Le théorème 2.9 dit que V voisinage de a et K compact existent tels .∅ = ∂f (x) ⊂ K pour tout .x ∈ V . Supposons le théorème faux. Il existe alors une suite ∗ c .{(xk , x )} ⊂ gph (∂f ) ∩ (V × K ∩ ) telle que la suite .{xk } converge vers a. k c L’ensemble .K ∩ est fermé borné. Soit .a ∗ valeur d’adhérence de la suite .{xk∗ }. On a d’une part .{(a, a ∗ )} ⊂ gph (∂f ) puisque le graphe est fermé et d’autre part ∗ c .a ∈ K ∩ qui contredit . ⊃ ∂f (a). . Lorsque f est une fonction convexe sci propre mais dont l’intérieur du domaine est vide, le résultat se transpose en disant que son sous-différentiel est scs sur l’intérieur relatif de son domaine à un sous-espace vectoriel près. Nous laissons au lecteur la formulation du résultat.
2.4.3 Sous-différentiel et dérivées directionnelles f : Rn → R étant une fonction convexe et a un point où f (a) est fini, on considère la fonction θ définie par f (a + td) − f (a) . t>0 t
θ (d) = inf
.
2.4 Multiapplications : définition et continuité
57
Par construction θ (0) = 0 et θ est une fonction convexe car infimum de fonctions convexes. En outre, .
f (a + td) − f (a) f (a − r d) − f (a) f (a − rd) − f (a) ≤ ≤ r r t f (a + t d) − f (a) , ≤ t
lorsque l’on a 0 < r < r et 0 < t < t . Il s’ensuit θ (d) = inf
.
t>0
f (a + td) − f (a) f (a + td) − f (a) = lim . t↓0 t t
Cette limite est appelée dérivée directionnelle de f en a selon la direction d et est notée f (a, d). Elle peut prendre la valeur +∞ ou −∞. On a .
− ∞ ≤ −f (a, −d) ≤ f (a, d) ≤ +∞
∀ d ∈ Rn .
S’il existe t > 0 tel que f (a + td) < +∞ on a −f (a, −d) ≤ f (a, d) < +∞. S’il existe r > 0 tel que f (a − rd) < +∞ on a −∞ < −f (a, −d) ≤ f (a, d). f (a, d) est fini lorsque a ∈ int (dom (f )). Supposons f convexe sci propre et a ∈ dom (f ). En considérant la limite du rapport lorsque t tend vers +∞ on a pour tout d ∈ Rn f (a, d) ≤
.
f (a+td)−f (a) ≤ f∞ (d) = sup [ x ∗ , d : x ∗ ∈ dom (f ) ] t
∀t > 0.
Tout comme la fonction de récession, la fonction f (a, .) est convexe et positivement homogène. Dans le résultat suivant, qui relie dérivée directionnelle et sous-différentiel, on désigne par f (a, .) la régularisée sci de f (a, .), c’est à dire, la plus petite fonction majorante sci de f (a, .). Théorème 2.11 Soit f : Rn → R une fonction convexe. Soit a tel que |f (a)| < ∞. Alors, .
sup [ x ∗ , d : x ∗ ∈ ∂f (a) ] = f (a, d) ≤ f (a, d) ]
∀ d ∈ Rn .
Preuve : Posons θ = f (a, .). Alors, θ ∗ (d ∗ ) = sup
.
t>0,d
1 [ d ∗ , a + td − f (a + td) + f (a) − d ∗ , a], t
θ ∗ (d ∗ ) = sup
.
t>0
1 [ f ∗ (d ∗ ) + f (a) − d ∗ , a]. t
58
2 Dualité et Sous-Différentiabilité
Par conséquent θ ∗ (d ∗ ) = 0 si d ∗ ∈ ∂f (a), θ ∗ (d ∗ ) = +∞ sinon. D’autre part, on a θ ∗∗ = θ ≤ θ . Lorsque a ∈ int (dom (f )), les fonctions f (a, .) et f (a, .) coïncident. Ce n’est pas le cas lorsque a ∈ / int (dom (f )). Un exemple est donné par la fonction f indicatrice de l’ensemble C = {(x1 , x2 ) ∈ R2 : (x1 − 1)2 + x22 ≤ 1}. Prenons a = (0, 0). Alors, f (a, d) = 0 si d1 > 0 ou si d1 = d2 = 0, f (a, d) = +∞ dans les cas contraires. Théorème 2.12 Soit f une fonction convexe sci propre sur Rn . Alors, la fonction ¯ ∈ int (dom (f )) × Rn . f (·, ·) est scs en tout point (x, ¯ h) ¯ avec x¯ ∈ int (dom (f )). Il existe alors Preuve : Supposons f non scs en (x, ¯ h) ¯ et une suite {(xk , hk )} qui converge vers (x, ¯ tels que λ < f (xk , hk ) λ > f (x, ¯ h) ¯ h) ∗ ∗ pour tout k. Il existe alors xk ∈ ∂f (xk ) tel que λ ≤ xk , hk . Puisque x¯ ∈ int (dom (f )), il existe un compact K et un voisinage V de x¯ tel que ∂f (V ) ⊂ K. La suite {xk∗ } a donc au moins une valeur d’adhérence. Soit x¯ ∗ une telle valeur. Le graphe de la multiapplication ∂f étant fermé, x¯ ∗ ∈ ∂f (x) ¯ et donc ¯ ≤ f (x, ¯ Ce qui est impossible. λ ≤ x¯ ∗ , h ¯ h).
2.4.4 Fréchet différentiabilité des fonctions convexes Lemme 2.3 Soit f une fonction convexe sci propre sur Rn. Soit a un point de int (dom (f )). Alors, ∂f (a) se réduit à un singleton si et seulement si f (a, d) + f (a, −d) = 0 pour tout d. Preuve : La condition nécessaire est évidente. Supposons que x1∗ , x2∗ ∈ ∂f (a) sont tels que x1∗ = x2∗ . Alors f (a, x1∗ − x2∗ ) + f (a, x2∗ − x1∗ ) ≥ x1∗ , x1∗ − x2∗ + x2∗ , x2∗ − x1∗ > 0.
.
On en déduit la condition suffisante.
Théorème 2.13 Soit f une fonction convexe sci propre sur R . Soit a un point de int (dom (f )). Alors f est Fréchet-différentiable au point a si et seulement si ∂f (a) est un singleton. On a alors ∂f (a) = {∇f (a)}. n
Preuve : Si f est différentiable au point a alors f (a, d) + f (a, −d) = 0 pour tout d et donc ∂f (a) est un singleton. Supposons maintenant que ∂f (a) soit réduit au singleton {a ∗ }. Donnons-nous ε > 0. En raison du théorème 2.10, il existe r > 0 tel que B(a, r) ⊂ dom (∂f ) et ∂f (B(a, r)) ⊂ B(a ∗ , ε). Pour x ∈ B(a, r) et x ∗ ∈ ∂f (x) on a d’une part f (x) ≥ f (a) + a ∗ , x − a
.
et d’autre part
2.4 Multiapplications : définition et continuité
59
f (a) ≥ f (x) + x ∗ , a − x = f (x) + a ∗ , a − x − a ∗ − x ∗ , a − x.
.
Donc, 0 ≤ f (x) − f (a) − a ∗ , x − a ≤ a ∗ − x ∗ , a − x ≤ ε a − x.
.
On en déduit que .
f (x) − f (a) − a ∗ , x − a → 0 lorsque x − a → 0. x − a
Cela veut dire que f est différentiable en a et que son gradient en a est a ∗ .
Corollaire 2.4 Le gradient d’une fonction convexe différentiable est continu. Preuve : C’est une conséquence immédiate du théorème précédent et du théorème 2.10. Théorème 2.14 Soit f une fonction convexe de classe C 2 dans un voisinage W de x0 avec ∇ 2 f (x) définie positive pour tout x ∈ W . Il existe alors V ⊂ W voisinage de x0 , V ∗ voisinage de x0∗ = ∇f (x0 ) tels que f est de classe C 2 sur V , f ∗ est de classe C 2 sur V ∗ , [ x ∈ V et x ∗ = ∇f (x) ] ⇐⇒ [ x ∗ ∈ V ∗ et x = ∇f ∗ (x ∗ ) ],
.
.
et ∇ 2 f (x) ∇ 2 f ∗ (∇f (x)) = In
∀ x ∈ V.
Preuve : a) x0 ∈ ∂f ∗ (x0∗ ) car x0∗ = ∇f (x0 ). Supposons l’existence de x = x0 , x ∈ ∂f ∗ (x0∗ ), on a alors xt := x0 + t (x − x0 ) ∈ ∂f ∗ (x0∗ ) pour tout t ∈ [0, 1]. Puisque ∇ 2 f (x0 ) est définie positive, x0∗ , xt − f ∗ (x0∗ ) = f (xt ) > f (x0 ) + ∇f (x0 ), xt − x0 = x0∗ , x(t) − f ∗ (x0∗ ),
.
ce qui est impossible. ∂f ∗ (x0∗ ) étant réduit au singleton {x0 }, la fonction f ∗ est différentiable en x0∗ et on a x0 = ∇f ∗ (x0∗ ). Ce résultat s’étend à W : si x ∈ W et x ∗ = ∇f (x) alors ∇f ∗ (x ∗ ) = x. b) ∂f ∗ (x0∗ ) est compact car réduit à un élément, x0∗ appartient donc à l’intérieur de dom (f ∗ ). En conséquence, il existe un voisinage V ∗ de x0∗ tel que V = ∂f ∗ (V ∗ ) ⊂ W . Si x ∗ ∈ V ∗ , x = ∇f ∗ (x ∗ ) ∈ V ⊂ W et donc ∇f (x) = x ∗ . Si x ∈ V , il existe x ∗ ∈ V ∗ tel que x ∈ ∂f ∗ (x ∗ ) mais alors x = ∇f ∗ (x ∗ ) et x ∗ = ∇f (x). Les fonctions F = ∇f : V → V ∗ et F ∗ = ∇f ∗ : V ∗ → V sont donc réciproques l’une de l’autre, F étant différentiable sur V , la matrice F (x) est non singulière pour tout x, appliquer le théorème des fonctions réciproques. Proposition 2.11 Soit f une fonction convexe sci propre. f est strictement convexe si et seulement si f ∗ est différentiable en tout x ∗ ∈ dom (∂f ∗ ).
60
2 Dualité et Sous-Différentiabilité
Preuve : a) Supposons f strictement convexe. Soit x ∗ ∈ dom (∂f ∗ ). Alors x ∈ ∂f ∗ (x ∗ ) ⇐⇒ 0 = f ∗ (x ∗ ) + f (x) − x ∗ , x ≤ f ∗ (x ∗ ) + f (y) − x ∗ , y ∀ y.
.
Puisque f est strictement convexe, ∂f ∗ (x ∗ ) = {x = ∇f ∗ (x ∗ )}. b) Supposons f ∗ non différentiable au point x ∗ ∈ dom (∂ f ∗ ). Il existe alors x1 , x2 ∈ ∂f ∗ (x ∗ ) avec x1 = x2 . Alors, 0 = f ∗ (x ∗ ) + f (x1 ) − x ∗ , x1 = f ∗ (x ∗ ) + f (x2 ) − x ∗ , x2 .
.
En posant xt = x1 + t (x2 − x1 ), on obtient f (xt ) = f (x1 ) + tx ∗ , x2 − x1 pour tout t ∈ [0, 1] ce qui est contraire à la convexité stricte. Corollaire 2.5 Soit f une fonction convexe sci propre. ∇f ∗ est Lipschitz sur dom (∇f ∗ ) lorsque f est fortement convexe. Preuve : Prendre x1∗ , x2∗ ∈ dom (∇f ∗ ) et x1 ∈ ∇f ∗ (x1∗ ) et x2 ∈ ∇f ∗ (x2∗ ). Alors, x1 − x2 x1∗ − x2∗ ≥ x1∗ − x2∗ , x1 − x2 ≥ α x1 − x2 2 .
.
Donc x1∗ − x2∗ ≥ α ∇f ∗ (x1∗ ) − ∇f ∗ (x2∗ ).
2.4.5 Monotonie et intégration convexe On sait que la dérivée d’une fonction convexe d’une variable réelle est croissante, nous allons étendre cette propriété au sous-différentiel d’une fonction convexe à plusieurs variables. Pour cela on introduit la définition suivante. → Rn une multiapplication, G son graphe. On dit que . est → Soit . : Rn − cycliquement monotone d’ordre .p si 0≥
.
p ∗ xi∗ , xi+1 −xi ∀ (xi , xi∗ ) ∈ G tels que (xp+1 , xp+1 ) = (x0 , x0∗ ).
(2.10)
i=0 . est dite monotone si cycliquement monotone d’ordre 1 et cycliquement monotone si cycliquement monotone à tout ordre. Il est clair que si . est cycliquement monotone d’ordre p, . est aussi cycliquement monotone d’ordre q pour tout .q ≤ p.
Proposition 2.12 Si . est cycliquement monotone d’ordre p, il en est de même de −1 .
.
Preuve : (2.10) peut s’écrire
2.4 Multiapplications : définition et continuité
.
61
p p ∗ xi∗ , xi ≥ xi∗ , xi+1 ∀ (xi , xi∗ ) ∈ G tels que (xp+1 , xp+1 ) = (x0 , x0∗ ). i=0
i=0
Faire .j = p − i et réordonner, on obtient
.
p p ∗ xj∗ , xj ≥ xj∗+1 , xj ∀ (xj , xj∗ ) ∈ G tels que (x0 , x0∗ ) = (xp+1 , xp+1 ) j =0
j =0
qui exprime que . −1 est cycliquement monotone d’ordre p.
.
et . −1 partagent le même graphe à une permutation de variable près. La propriété de cyclique monotonie est donc en fait une propriété sur les graphes. On dira que le graphe est cycliquement monotone d’ordre p lorsque la condition (2.10) tient. .
Théorème 2.15 Soit f une fonction convexe sci propre sur .Rn . Alors .∂f est cycliquement monotone. ∗ ) ∈ gph (∂f ) tels que Preuve : Soient .(x0 , x0∗ ), (x1 , x1∗ ), · · · , (xp+1 , xp+1 ∗ ∗ .(xp+1 , x p+1 ) = (x0 , x0 ). Alors,
f (xi+1 ) ≥ f (xi ) + xi∗ , xi+1 − xi i = 0, 1, · · · , p .
.
Il s’ensuit 0≥
.
p xi∗ , xi+1 − xi . i=0
Ainsi .∂f est cycliquement monotone à tout ordre p.
.
Le problème d’intégration convexe consiste à reconstruire une fonction convexe à partir de son sous-différentiel : Etant donnée une multiapplication cycliquement monotone ., est-il possible de construire une fonction convexe f telle que son sous-différentiel coïncide avec . ? Si une telle fonction f existe, la fonction .g = f + C, où C est une constante, est aussi solution du problème. Nous imposerons donc à la fonction f de prendre une valeur fixée en un point a donné. Proposition 2.13 Etant donnés .G ⊂ Rn ×Rn cycliquement monotone, .(a, a ∗ ) ∈ G et .α ∈ R, on appelle .F l’ensemble des fonctions f convexes sci propres telles que .f (a) = α et .G ⊂ gph (∂f ). Alors .F est non vide. En outre il existe .f− , f+ ∈ F telles que .f− ≤ f ≤ f+ quelle que soit .f ∈ F. Preuve : a) On construit .f− comme suit
62
2 Dualité et Sous-Différentiabilité
⎡
⎤ p ∈ N, ⎦. .f− (x) = α + sup ⎣ xp∗ , x−xp + xi∗ , xi+1 −xi : x0 = a, ∗ i=0 (xi , xi ) ∈ G. i) ii) iii) iv) v) vi)
p−1
(2.11)
La fonction .f− est convexe sci car elle est un supremum de fonctions affines. f− (a) ≥ α : faire .p = 0. .f− (a) ≤ α en raison de la cyclique monotonie. n ∗ .f− (x) > −∞ ∀ x ∈ R : faire .p = 1, on a .f− (x) ≥ α + a , x − a. ∗ ∗ Si .(x, x ) ∈ G alors .f− (y) ≥ f− (x) + x , y − x pour tout .y ∈ Rn . ∗ ∗ .f− (x) ≤ α + x , x − a < +∞ pour tout .(x, x ) ∈ G. .
Donc .f− ∈ F. Il est clair que .f− est la plus petite fonction convexe sci propre telle que .f− (a) = α et .G ⊂ gph (∂f− ) b) On pose .α ∗ = a ∗ , a − α, puis on construit la fonction ⎡
⎤ p ∈ N∗ , ∗ ∗ ∗ ∗ ⎦. .g(x ) = α + sup ⎣xp , x − xp + xi , xi+1 − xi∗ : a ∗ = x0∗ , ∗ i=0 (xi , xi ) ∈ G. p−1
La fonction g est la plus petite fonction convexe sci propre telle que g(a ∗ ) = α ∗ et .G ⊂ ∂g à une permutation des variables près. On prend ensuite + = g ∗ . .f + est la plus grande fonction appartenant à .F. .f . .
Nous nous intéressons maintenant à l’unicité de la fonction construite. Nous commençons par les fonctions d’une variable réelle. Ici la monotonie simple est suffisante (en fait elle implique pour ces fonctions la cyclique monotonie). Bien que le résultat suivant soit très classique, nous en donnons une preuve pour besoins ultérieurs. → R, .a < b, une multiapplication monotone telle que Lemme 2.4 Soit . : [ a, b ] − → (t) = ∅ pour tout .t ∈ [ a, b ]. Soit .α ∈ R fixé. Alors, il existe une fonction convexe sci propre unique .γ telle que .γ (a) = α et .(t) ⊂ ∂γ (t) pour tout .t ∈ ] a, b [.
.
Preuve : Etant donné .p > 1 entier, on prend .h = (b − a)/p, puis pour i = 0, 1, · · · , p on pose .ti = a + ih. On choisit ensuite .ti∗ arbitraire dans .(ti ). Remarquons que si .γ est une fonction répondant à la question on a
.
∗ γ (ti ) + ti∗ h ≤ γ (ti+1 ) ≤ γ (ti ) + ti+1 h.
.
Prenons .γ0− = γ0+ = α puis − γi+1 = γi− + ti∗ h,
.
Pour .i = 0, · · · , p − 1 on a
+ ∗ γi+1 = γi+ + ti+1 h ∀ i = 0, · · · , p − 1.
2.4 Multiapplications : définition et continuité
63
+ − ∗ ∗ γi+1 − γi+1 = γi+ − γi− + (ti+1 − ti∗ )h = (ti+1 − t0∗ )h.
.
On construit ensuite les fonctions .γ − et .γ + comme suit. Pour .i = 0, · · · , p − 1, on prend γ − (t) = γi− + (t − ti ) ti∗ ,
.
∗ γ + (t) = γi+ + (t − ti ) ti+1
∀ t ∈ [ ti , ti+1 ].
Il est facile de montrer que l’on a 0 ≤ γ + (t) − γ − (t) ≤ (tp∗ − t0∗ )
.
b−a p
∀ t ∈ [a, b].
Les fonctions .γ − et .γ + , sont convexes sci, .γ − ≤ γ ≤ γ + pour toute fonction .γ répondant au problème. Pour .i = 1, · · · , p − 1 on a ∗ ∂γ − (ti ) = [ ti−1 , ti∗ ],
.
∗ ∂γ + (ti ) = [ ti∗ , ti+1 ]
Le passage à la limite lorsque .p → +∞ conduit à l’existence et l’unicité de la fonction. . Nous travaillons maintenant sur les fonctions de plusieurs variables. → Rn une multiapplication cycliquement monotone → Théorème 2.16 Soit . : Rn − dont le domaine S est convexe. Alors, pour tout .a ∈ S et tout .α ∈ R fixés, il existe une et une seule fonction convexe f telle que .f (a) = α et .(x) ⊂ ∂f (x) pour tout .x ∈ S. Preuve : L’existence d’une telle fonction découle de la construction (2.11). Il reste à montrer l’unicité. Soit f une telle fonction. Soit .b ∈ S arbitraire, on considère la fonction .δ(t) = f (a +t (b−a)). On considère ensuite l’ensemble .(t) = (t), b− a. La fonction .δ est convexe et on a .(t) ⊂ ∂δ(t). La fonction .δ est uniquement définie en raison du lemme précédent, il s’ensuit que f est uniquement définie. . Il reste la question de la coïncidence de . avec .∂f . Cela nécessite l’introduction d’une condition supplémentaire sur les multiapplications monotones que nous introduirons dans un prochain chapitre.
Chapter 3
Dualité, Lagrangien, Points de Selle
3.1 Dualité en optimisation convexe 3.1.1 Un schéma général de dualité Nous allons montrer comment associer à un problème d’optimisation convexe un problème d’optimisation convexe dual équivalent. Dans ce qui suit on considère le problème, dit problème primal de minimisation α = inf f (x)
.
x
(P )
où .f : Rn → R est une fonction convexe sci propre. Ainsi .−∞ ≤ α < +∞. Notons que cette formulation générale permet de considérer les problèmes classiques d’optimisation avec contraintes. S’il s’agit de minimiser une fonction convexe sci propre g sur un ensemble convexe fermé C, on fera .f (x) = g(x) si .x ∈ C et .f (x) = +∞ si .x ∈ / C. La fonction f est alors convexe sci, elle est propre si .C ∩ dom (g) = ∅. On se donne .ϕ : Rn × Rp → R convexe sci propre appelée fonction de perturbation telle que ϕ(x, 0) = f (x)
.
∀ x ∈ Rn ,
puis on construit la fonction .h : Rp → R définie par h(u) = inf ϕ(x, u).
.
x
(Pu )
La fonction h est convexe mais non nécessairement sci. Elle peut ne pas être propre (elle peut prendre la valeur .−∞). En particulier,
© The Author(s), under exclusive license to Springer Nature Switzerland AG 2023 J.-P. Crouzeix et al., Optimisation convexe et inéquations variationnelles monotones, Mathématiques et Applications 89, https://doi.org/10.1007/978-3-031-30681-5_3
65
66
3 Dualité, Lagrangien, Points de Selle
α = h(0) = inf f (x) = inf ϕ(x, 0).
.
x
x
(P )
Calculons sa conjuguée h∗ (u∗ ) = sup[u∗ , u − h(u)] = sup[0, x + u∗ , u − ϕ(x, u)] = ϕ ∗ (0, u∗ ).
.
u
x,u
Le problème dual associé à la perturbation est défini par β = inf h∗ (u∗ ) = inf ϕ ∗ (0, u∗ ) = −h∗∗ (0). ∗ ∗
.
u
u
(D)
Pour tout .x ∈ Rn et tout .u∗ ∈ Rp on a f (x) + h∗ (u∗ ) = ϕ(x, 0) + ϕ ∗ (0, u∗ ) ≥ 0, x + u∗ , 0 = 0.
.
Il s’ensuit l’inégalité de dualité .α + β ≥ 0. Une autre façon de retrouver cette inégalité de dualité est d’écrire α = h(0) ≥ h∗∗ (0) = sup [ u∗ , 0 − h∗ (u∗ ) ] = −β.
.
u∗
Notons que, puisque la fonction .ϕ a été choisie convexe sci propre, on a .ϕ = ϕ ∗∗ . Le schéma de dualité est donc parfaitement symétrique. Les problèmes .(P ) et .(D) sont duaux l’un de l’autre. Désignons par .Sol(P ) l’ensemble des solutions optimales de .(P ) et par .Sol(D) l’ensemble des solutions optimales de .(D). Proposition 3.1 Supposons qu’il existe x et .u∗ tels que .f (x) + h∗ (u∗ ) = 0. Alors ∗ ∗ ∗ ∗ .α + β = 0, .x ∈ Sol(P ), .u ∈ Sol(D), .(x, 0) ∈ ∂ϕ (0, u ) et .(0, u ) ∈ ∂ϕ(x, 0). Preuve : D’une part, par définition de .α et .β, .0 ≤ α + β ≤ f (x) + h∗ (u∗ ) = 0. D’autre part, .0 = f (x) + h∗ (u∗ ) = ϕ(x, 0) + ϕ ∗ (0, u∗ ) ≥ (0, u∗ ), (x, 0) = 0. D’où les résultats. . Etudions sous quelles conditions .α + β = 0. Puisque .
− β = h∗∗ (0) ≤ h(0) = α,
cela arrive lorsque .h∗∗ (0) = h(0). Rappelons que .α < +∞. Donc .α + β = 0 si et seulement si h est sci en 0. Si .−β > −∞ et .0 ∈ int (dom (h)) alors h est continue en 0 et l’ensemble .Sol(D) = ∂h(0) est un convexe compact non vide. Si .−β > −∞ et .0 ∈ ri (dom (h)) alors h est sci en 0 et .Sol(D) est un convexe fermé non vide, compact à un sous espace vectoriel près. .x ∈ dom (f ) étant fixé, on note .ϕx la fonction définie par .ϕx (u) = ϕ(x, u) pour tout u. Cette fonction est convexe sci propre, on a donc .ϕx = ϕx∗∗ . En particulier,
3.1 Dualité en optimisation convexe
67
ϕx (0) = sup inf [ u∗ , 0 − u + ϕx (u) ].
.
u∗
u
On a donc α=
.
sup inf [ϕ(x, u) − u∗ , u ].
inf
x∈dom (f ) u∗
u
(3.1)
D’autre part, .
− β = sup[−ϕ ∗ (0, u∗ ) ] = sup inf[ ϕ(x, u) − 0, x − u∗ , u ]. u∗ x,u
u∗
(3.2)
Compte tenu des équations (3.1) et (3.2), on introduit la fonction suivante l(x, u∗ ) =
.
infu [ ϕ(x, u) − u∗ , u ] si x ∈ dom (f ), +∞ sinon.
Cette fonction est dite être le lagrangien associé à la fonction de perturbation .ϕ. Le lagrangien est concave en .u∗ comme inf de fonctions affines, il est convexe en x puisque la fonction .ϕ est convexe en .(x, u). Les équations (3.1) et (3.2) se combinent en l’inégalité .
− β = h∗∗ (0) = sup inf l(x, u∗ ) ≤ inf sup l(x, u∗ ) = h(0) = α. u∗
x
x
u∗
On dit que .(x, ¯ u¯ ∗ ) est un point de selle du lagrangien l si on a l(x, ¯ u∗ ) ≤ l(x, ¯ u¯ ∗ ) ≤ l(x, u¯ ∗ ) ∀ x ∈ Rn , ∀ u∗ ∈ Rp .
.
Théorème 3.1 Si .(x, ¯ u¯ ∗ ) est un point de selle du lagrangien, alors .x¯ ∈ Sol(P ), ∗ .u ¯ ∈ Sol(D) et .α + β = 0. Preuve : D’une part, l(x, ¯ u¯ ∗ ) = inf l(x, u¯ ∗ ) ≤ sup inf l(x, u∗ ) = −β ≤ α.
.
x
u∗
x
D’autre part, l(x, ¯ u¯ ∗ ) ≥ sup l(x, ¯ u∗ ) ≥ inf sup l(x, u∗ ) = α ≥ −β.
.
u∗
x
u∗
Il s’ensuit .l(x, ¯ u¯ ∗ ) = α = −β. Ensuite, .
− β = inf l(x, u¯ ∗ ) = inf [ ϕ(x, u) − u¯ ∗ , u ] = −ϕ ∗ (0, u¯ ∗ ) = −h(u¯ ∗ ), x
x,u
68
3 Dualité, Lagrangien, Points de Selle
α = sup l(x, ¯ u∗ ) = sup inf [ϕx¯ (u) + u¯ ∗ , 0 − u] = ϕx∗∗ ¯ ¯ (0) = ϕx¯ (0) = f (x).
.
u∗
u∗
u
Donc .x¯ ∈ Sol(P ) et .u¯ ∗ ∈ Sol(D).
.
Exercice 3.1 (Fonction d’entropie de Shannon) Soumise à des conditions extrêmes de température et de pression, une molécule complexe se décompose en molécules plus simples. Dans notre cas, un mélange composé au départ de N molécules de type M va se transformer en un mélange composé de .N1 molécules de type .M1 , .N2 molécules de type .M2 , . . . , .Np molécules de type .Mp (attention on n’a pas .N = N1 + · · · + Np ). On pose .xi = Ni /N, (N et .Ni étant grands, le nombre rationnel .xi sera assimilé à un nombre réel). La théorie montre que la décomposition .x = (x1 , · · · , xp ) est la solution optimale du problème α¯ = min [ f (x) =
.
x
p
di xi ln(xi ) : x ≥ 0,
Ax = b ],
(P )
i=1
où, par convention, .t ln(t) = 0 si .t = 0. La fonction f est une fonction d’entropie de type Shannon–Gibbs, la contrainte .Ax = b correspond à une loi de conservation : les nombres totaux d’atomes de carbone, azote, hydrogène, . . . , présents dans les molécules de départ et d’arrivée sont inchangés. Les .di sont strictement positifs et sont connus. A est une matrice q .q × p de rang q connue, le vecteur .b ∈ R est connu. En outre l’ensemble .{x ∈ n x > 0 tel que .A x = b. R : x ≥ 0, Ax = b} est compact et il existe . a) Montrer que .(P ) admet une solution optimale unique .x¯ > 0. b) Montrer que le problème dual de .(P ) est le problème sans contraintes β¯ = sup [ β(v) =
q
.
v
bj vj −
j =1
q p 1 1 di exp( aj i vj ) : v ∈ Rq ] e di i=1
(D)
j =1
¯ et que l’on a .α¯ = β. c) Calculer le gradient et le Hessien de la fonction .β. On introduira le vecteur .y(v) et les matrices diagonales D et .Y (v) définies comme suit q 1 .yi (v) = exp( aj i vj ), Dii = di et Yii (v) = yi (v), di j =1
Montrer que l’on a 1 ∇ 2 β(v) = − AD −1 Y (v)At . e
.
i = 1, 2, · · · , p.
3.1 Dualité en optimisation convexe
69
d) Montrer que .(D) admet une solution optimale unique .v¯ > 0. Quelles méthodes peut-on utiliser pour résoudre .(D) ? Une fois .v¯ obtenu, comment en déduire .x¯ ? a) La fonction f est strictement convexe et continue sur .[ 0, ∞ [ n . En outre, i étant fixé, f (x) = di xi ln(xi ) +
.
dj xi ln(xj ) ≥ di xi ln(xi ) −
j =i
1 dj . e j =i
Il s’ensuit que pour tout .λ ∈ R { x : f (x) ≤ λ } ⊂ { x ≥ 0 : di xi ln(xi ) ≤ λ +
.
j
dj
e
∀ i }.
f est donc inf-compacte. On en déduit que .(P ) admet une solution optimale unique .x. ¯ Supposons qu’il existe i avec .xi = 0. La fonction .θ (t) = f (x¯ + t ( x − x)) ¯ est strictement convexe sur .[0, 1]. On a .θ (0) = −∞. Elle n’atteint donc pas son minimum en 0 et donc f n’atteint donc pas son minimum en .x, ¯ en contradiction avec l’hypothèse. On a donc .x¯ > 0. b) Se reporter à la théorie de la dualité lagrangienne convexe. La fonction duale est β(v) = inf [ l(x, v) =
.
x
p
di xi ln(xi ) − Ax − b, v ].
(Pv )
i=1
(Pv ) est un problème d’optimisation convexe. Le minimum est atteint en .x(v), la composante i est
.
xi (v) =
.
(At v)i 1 1 exp = yi (v). e di e
On obtient β(v) =
q
.
bj vj −
j =1
p q 1 1 1 di exp( aj i vj ) = b, v − d, y(v). e di e i=1
j =1
Il s’ensuit que l’on a 1 1 y (v) = D −1 Y (v)At , ∇β(v) = b − Ay(v), ∇ 2 β(v) = − AD −1 Y (v)At . e e
.
La fonction .β est fortement concave. On sait par ailleurs que le problème dual admet des solutions optimales. Il existe donc une solution optimale unique .u. ¯ .x¯ et .u¯ sont liés par les relations suivantes :
70
3 Dualité, Lagrangien, Points de Selle
x¯ ≥ 0, Ax¯ = b, x¯ =
.
1 y(v). ¯ e
Le problème dual est un problème concave sans contrainte. Il peut être résolu par une méthode classique : Newton, gradient conjugué.
3.1.2 Cône normal i) On considère ici le problème α = inf [ f (x) : x ∈ C ] = inf [ f (x) + δ(x, C) ],
.
x
x
(P )
où .f : Rn → R est une fonction convexe sci propre et .C ⊂ Rn est un convexe fermé. On suppose qu’il existe .a ∈ C ∩ int (dom (f )). Il s’ensuit .α < +∞. On choisit pour fonction de perturbation la fonction .ϕ : Rn × Rn → R définie par ϕ(x, u) = f (x + u) + δ(x, C).
.
On a alors ϕ ∗ (x ∗ , u∗ ) = sup [ x ∗ , x + u∗ , u − f (x + u) − δ(x, C) ],
.
x,u
ϕ ∗ (x ∗ , u∗ ) = sup [ x ∗ − u∗ , x − δ(x, C) + u∗ , x + u − f (x + u) ],
.
x,u
ϕ ∗ (x ∗ , u∗ ) = δ ∗ (x ∗ − u∗ , C) + f ∗ (u∗ ).
.
Le problème dual est β = inf h∗ (u∗ ) = inf [ δ ∗ (−u∗ , C) + f ∗ (u∗ ) ]. ∗ ∗
.
u
u
(D)
La fonction h est convexe. La fonction f est continue en .a ∈ int (dom (f )). Il existe un voisinage U de 0 tel que .h(u) ≤ f (a + u) + δ(a, C) ≤ f (a) + 1 < +∞ pour tout .u ∈ U . Par conséquent .0 = h(0) − h∗∗ (0) = α + β. Notons que .α = −∞ si et seulement si .β = +∞ et donc si et seulement si dom (f ∗ ) ∩ [−dom (δ ∗ (·, C)) ] = ∅.
.
Plaçons-nous dans le cas .α > −∞. .Sol(D) est alors un convexe compact non vide. Soit .u∗ ∈ Sol(D) arbitraire. Alors .x ∈ Sol(P ) si et seulement si
3.1 Dualité en optimisation convexe
71
0 = α + β = f (x) + δ(x, C) + f ∗ (u∗ ) + δ ∗ (−u∗ , C).
.
Puisque .f (x)+f ∗ (u∗ ) ≥ u∗ , x et .δ(x, C)+δ ∗ (−u∗ , C) ≥ −u∗ , x , .x ∈ Sol(P ) si et seulement si f (x) + f ∗ (u∗ ) = u∗ , x,
.
x ∈ C,
δ ∗ (−u∗ , C) = −u∗ , x,
soit encore si et seulement si u∗ ∈ ∂f (x),
.
x ∈ C et −u∗ , y − x ≤ 0 ∀ y ∈ C.
x ∈ C étant donné, l’ensemble
.
NC (x ) = {u∗ : u∗ , y − x ≤ 0 ∀ y ∈ C},
.
(3.3)
est un cône convexe fermé, il contient 0, il est appelé cône normal en .x à C. On pose .NC (x) = ∅ lorsque .x ∈ / C. .NC n’est rien d’autre que le sous-différentiel de la fonction indicatrice de C. On vient donc de montrer la condition d’optimalité suivante. Théorème 3.2 .x ∈ C ∩ dom (f ) est solution optimale du problème (P ) si et seulement si .∂f (x) ∩ −NC (x) = ∅. ii) Les cônes normaux aux ensembles de niveau d’une fonction convexe sci s’expriment en termes de sous-différentiel. Etant donnés une fonction .f : Rn → R et .a ∈ Rn , on considère les ensembles S(a) = {x : f (x) ≤ f (a)},
N(a) = {x ∗ ∈ Rn : x ∗ , x − a ≤ 0 ∀ x ∈ S(a)},
˜ S(a) = {x : f (x) < f (a)},
˜ ˜ N(a) = {x ∗ ∈ Rn : x ∗ , x − a ≤ 0 ∀ x ∈ S(a)}.
.
.
˜ ˜ Les ensembles .N(a) et .N(a) sont des cônes convexes fermés et on a .N(a) ⊃ N (a). Proposition 3.2 Soit .f : Rn → R une fonction convexe sci propre. Soit .a ∈ int (dom (f )) tel que .f (a) > infx f (x). Alors ˜ N(a) = N(a) = {λa ∗ : λ ≥ 0, a ∗ ∈ ∂f (a)}.
.
Preuve : ˜ i) Supposons, pour contradiction, .a ∗ ∈ N(a) et .a ∗ ∈ / N(a). Il existe alors .x ∈ S(a) ∗ tel que .a , x − a > 0. Mais alors, puisque .a ∗ ∈ N˜ (a), on a .f (x) ≥ f (a) et donc .f (x) = f (a). Les hypothèses impliquent l’existence de .b tel que .f (b) < f (a). Pour tout .t ∈ ] 0, 1 [ on a .f (x+t (b−x)) < f (a). Pour .t > 0 suffisamment ˜ petit on a .a ∗ , x + t (b − x) − a > 0. Ce qui est contraire à .a ∗ ∈ N(a).
72
3 Dualité, Lagrangien, Points de Selle
ii) Considérons le problème où C = { x : a ∗ , x − a ≥ 0}.
α = inf [ f (x) : x ∈ C ]
.
x
˜ Nous allons montrer que .a ∗ = 0 appartient à .N(a) si et seulement si a est solution optimale de ce problème. ˜ Supposons .a ∗ ∈ / N(a). Il existe x tel que .f (x) < f (a) et .a ∗ , x − a > 0. Donc a n’est pas solution optimale. Supposons a non solution optimale. Il existe x tel que .f (x) < f (a) et .a ∗ , x − a ≥ 0. Puisque a est dans l’intérieur de .dom (f ) il existe .t ∈ [0, 1] et .r > 0 tel que ∗ ∗ .y = a + t (x − a) + ra ∈ int (dom (f )), .a , y − a > 0 et .f (y) < f (a). Mais ∗ ˜ / N(a). alors .a ∈ Il est facile de voir que .NC (a) = {λa ∗ : λ ≤ 0}. Le résultat découle du théorème 3.2. .
3.2 Sous-différentiel d’une somme On s’intéresse maintenant au sous-différentiel de la somme s de p fonctions .fi convexes sci et propres. On suppose que .dom (s) est non vide, s est alors convexe sci et propre. Soit .a ∈ dom (∂fi ), i = 1, · · · , p. Il est clair que ∂s(a) ⊃
p
.
∂fi (a).
i=1
Nous nous intéressons à l’inclusion inverse. Il est facile de voir que .x ∗ ∈ ∂s(a) si et seulement si a est solution optimale du problème α = inf [ f1 (x) + f2 (x) + · · · + fp (x) − x ∗ , x ].
.
x
(P )
On prend pour fonction de perturbation la fonction .ϕ : Rn × Rn(p−1) → R définie par ϕ(x, u) = f1 (x) +
p
.
fi (x + ui ) − x ∗ , x.
i=2
Puis on prend .h(u) = infx ϕ(x, u). La conjuguée est h∗ (u∗ ) = ϕ ∗ (0, u∗ ) = sup [ u∗ , u − ϕ(x, u) ],
.
x,u
3.2 Sous-différentiel d’une somme
& ∗
∗
∗
h (u ) = sup (x −
.
x,u
p
73
u∗i , x − f1 (x)) +
i=2
∗
∗
i=2
h (u ) =
.
' p ∗ [ui , x + ui − fi (x + ui ) ] ,
f1∗ (x ∗
−
p
u∗i ) +
i=2
p
fi∗ (u∗i ).
i=2
Introduisons la condition suivante ∃ xˆ ∈ dom (f1 ) ∩ int (dom (∂fi )),
.
i = 2, · · · , p.
(H sd)
Sous cette condition les fonctions .fi , i ≥ 2, sont continués au point .x. ˆ Il existe alors un voisinage U de 0 dans .Rn(p−1) tel que, pour tout .u ∈ U , .h(u) ≤ s(x) ˆ +1− x ∗ , x ˆ < +∞. Il s’ensuit .h∗∗ (0) = h(0). Si a est solution optimale de .(P ) alors h est finie et continue en 0 et .∂h(0) = ∅. Soit .a ∗ ∈ ∂h(0), .a ∗ est solution optimale du dual et on a 0=α+β =
p
.
fi (a) − x ∗ , a + f1∗ (x ∗ −
i=1
p i=2
ai∗ ) +
p
fi∗ (ai∗ ).
i=2
Puisque ∗ ∗ .f1 (a) + f1 (x
−
p
ai∗ )
∗
≥ x −
i=2
p
ai∗ , a,
fi (a) + fi∗ (ai ) ≥ ai∗ , a,
i=2
on a x∗ −
p
.
ai∗ ∈ ∂f1 (a),
ai∗ ∈ ∂fi (a), i = 2, · · · , p.
i=2
On vient de démontrer le résultat suivant Proposition 3.3 Soient p fonctions .f1 , f2 , · · · , fp convexes sci propres. Si la condition .(H sd) est satisfaite on a ( ∂
p
.
i=1
) fi (a) =
p i=1
∂fi (a)
∀a ∈
p i=1
dom (∂fi ).
74
3 Dualité, Lagrangien, Points de Selle
3.3 Conditions d’optimalité 3.3.1 Minimisation sous contraintes inégalités On considère maintenant le problème α = inf f (x),
.
x∈C
C := {x ∈ Rn : gi (x) ≤ 0 ∀ i = 1, · · · , p},
(P )
où les fonctions .f, gi : Rn → R sont convexes sci et propres. On suppose la condition suivante, appelée Condition de Slater, satisfaite ∃ x˜ ∈ int (dom (f )) tel que gi (x) ˜ < 0 ∀ i = 1, · · · , p.
.
(3.4)
On choisit .ϕ : Rn × Rp → R comme suit ϕ(x, u) = f (x) si gi (x) + ui ≤ 0 ∀ i,
.
ϕ(x, u) = +∞ sinon.
La fonction .ϕ est convexe sci propre. Pour u suffisamment proche de 0 on a gi (x) ˜ + ui < 0 pour tout i et par conséquent .h(u) ≤ f (x) ˜ < +∞. Ainsi .0 ∈ int (dom (h)). Appelons D l’intersection des domaines des fonctions f et .gi et calculons le lagrangien associé à la perturbation .ϕ. On obtient .
⎧ si x ∈ / D, ⎨ +∞ p ∗ ∗ .l(x, u ) = f (x) + i=1 ui gi (x) si x ∈ D et u∗ ≥ 0, ⎩ −∞ autrement. Dans le cas où .α > −∞, l’ensemble des solutions optimales du problème dual est un convexe compact non vide. Soit .u¯ ∗ une telle solution, alors .u¯ ∗ ≥ 0. Alors, .x ¯ solution réalisable du problème primal en est solution optimale si et seulement si .(x, ¯ u¯ ∗ ) est point de selle du lagrangien l , c’est-à-dire, si l(x, ¯ u∗ ) ≤ l(x, ¯ u¯ ∗ ) ≤ l(x, u¯ ∗ )
.
∀ x, ∀ u∗ ≥ 0.
L’inégalité de gauche est équivalente ¯ ≤ 0 et .u¯ ∗i gi (x) ¯ = 0 pour tout i, à ∗.gi (x) l’inégalité de droite à .0 ∈ ∂(f + i u¯ i gi )(x). ¯ On peut bien sûr expliciter cette dernière condition en utilisant la proposition 3.3, ce qui donne le théorème suivant Théorème 3.3 Considérons le problème (P) où . C est contenu dans l’intérieur des domaines des fonctions f et .gi et où la condition de Slater (3.4) est satisfaite. .x¯ ∈ C est solution optimale du problème si et seulement s’il existe .u¯ ∗ ≥ 0 tel que 0 ∈ ∂f (x) ¯ +
p
.
i=1
u¯ ∗i ∂gi (x), ¯
u¯ ∗i gi (x) ¯ = 0 ∀ i.
3.3 Conditions d’optimalité
75
L’ensemble des conditions .u∗ ≥ 0, .g(x) ¯ ≥ 0 et .u∗ , g(x) ¯ = 0 est désigné sous le nom de condition de complémentarité (complementarity slackness condition).
3.3.2 Contraintes égalités et inégalités On considère maintenant le problème α = inf f (x),
.
x∈C
C := { x ∈ Rn : Ax = a, gi (x) ≤ 0 ∀ i = 1, · · · , p},
(P )
où les fonctions .f, gi : Rn → R sont convexes sci et propres, .a ∈ Rq , A est une matrice .q × n de rang q. On suppose la condition de Slater suivante satisfaite ∃ x˜ ∈ int (dom (f )) tel que Ax˜ = a, x˜ ∈ int (dom (gi )), gi (x) ˜ < 0 ∀ i.
.
(3.5)
On a alors .α < ∞. On choisit .ϕ : Rn × Rp × Rq → R comme suit ϕ(x, u, v) = f (x) si Ax = a + v, gi (x) + ui ≤ 0 ∀ i,
.
ϕ(x, u, v) = +∞ sinon.
Notons D l’intersection des domaines des fonctions f et .gi et calculons le lagrangien. On obtient ⎧ si x ∈ / D, ⎨ +∞ p ∗ ∗ ∗ ∗ .l(x, u , v ) = f (x) + i=1 ui gi (x) + v , Ax − a si x ∈ D et u∗ ≥ 0, ⎩ −∞ autrement. Il nous reste à montrer que h est majorée dans un voisinage de .(0, 0). En raison des hypothèses sur leurs domaines, les fonctions f et .gi sont continués en .x. ˜ Il existe donc un voisinage X de .x˜ et un voisinage U de 0 dans .Rp tel que .f (x) < f (x) ˜ +1 et .gi (x) + ui < 0 pour tout .(x, u) ∈ X × U et tout i. Puisque A est de rang q, il existe un voisinage V de 0 dans .Rq tel que pour tout .v ∈ V , il existe .x(v) ∈ X tel que .A[x(v) − x] ˜ = v. Pour tout .(u, v) ∈ U × V on a .h(u, v) ≤ f (x(v)) ≤ f (x) ˜ + 1. Ainsi .(0, 0) ∈ int (dom (h)). Dans le cas où .α > −∞, l’ensemble des solutions optimales du problème dual est un convexe compact non vide. Soit .(u¯ ∗ , v¯ ∗ ) une solution du problème dual, alors .u¯ ∗ ≥ 0. .x¯ solution réalisable du problème primal en est ¯ (u¯ ∗ , v¯ ∗ )) est point de selle du lagrangien l, solution optimale si et seulement si .(x, c’est-à-dire, si et seulement si l(x, ¯ u∗ , v ∗ ) ≤ l(x, ¯ u¯ ∗ , v¯ ∗ ) ≤ l(x, u¯ ∗ , v¯ ∗ ) ∀ x, ∀u∗ ≥ 0, ∀ v ∗ .
.
76
3 Dualité, Lagrangien, Points de Selle
L’inégalité de gauche est équivalente à .Ax¯ = a, .gi (x) ¯ ≤ 0 et .u¯ ∗i gi (x) ¯ = 0 pour tout ∗ t ∗ ¯ On peut ici aussi expliciter i, l’inégalité de droite à .0 ∈ A v¯ + ∂(f + i u¯ i gi )(x). cette dernière condition en utilisant la proposition 3.3, ce qui permet d’énoncer le résultat suivant Théorème 3.4 Considérons le problème (P) où . C est contenu dans l’intérieur des domaines des fonctions f et .gi et où la condition de Slater (3.5) est satisfaite. .x¯ ∈ C est solution optimale du problème si et seulement s’il existe .u¯ ∗ ≥ 0 et .v¯ ∗ tels que t ∗
0 ∈ A v¯ + ∂f (x) ¯ +
.
p
u¯ ∗i ∂gi (x), ¯
u¯ ∗i gi (x) ¯ = 0 ∀ i.
i=1
Exercice 3.2 (Calcul des normes duales usuelles.) Rappelons que la norme ..p , 1 d p .p ≥ 1, sur .R est définie par .xp = [f (x)] p où .f (x) = i |xi | . Sa norme duale (2.6) est définie par nd (x ∗ ) = sup [ x ∗ , x : xp ≤ 1 ] = sup [ x ∗ , x : f (x) ≤ 1 ].
.
x
x
Nous avons déjà considéré le cas .p = 1, plaçons-nous dans le cas .p > 1. La fonction f est convexe et différentiable, le supremum est atteint. Appliquons la condition d’optimalité : x tel que .f (x) = 1 est solution optimale si et seulement s’il existe .λ ≥ 0 tel que .x ∗ = λ∇f (x). On a alors pour tout i xi∗ = λ (xi ) |xi |p−1 ,
.
−p
p
|xi |p = λ p−1 |xi∗ | p−1 ,
où . (t) = 1 si .t ≥ 0, .−1 autrement. Posons .q = p/(p − 1) on a alors x ∗ , x = λ et 1 = f (x) = λ−q
d
.
|xi∗ |q .
i=1
Puisque .x ∗ , x est la valeur optimale, la norme duale de la norme ..p est la norme −1 + q −1 = 1. On retrouve que la norme ..q où p et q sont liés par la relation .p euclidienne est sa propre duale et en passant à la limite que la norme du max est la norme duale de la norme ..1 . Exercice 3.3 (Sondages : la méthode des quotas) On se propose de réaliser un sondage avant un référendum dont la réponse est oui ou non. On a identifié k souspopulations homogènes composées de .N1 , N2 , · · · , Nk électeurs pour la population totale .N = N1 + · · · + Nk . Ces nombres sont très grands. A partir d’un sondage préliminaire on a obtenu une probabilité estimée .p˜ i pour le oui dans la souspopulation i ce qui donne dans la population totale une probabilité estimée égale à .p ˜ = (N1 p˜ 1 + N2 p˜ 2 + · · · + Nk p˜ k )/N .
3.3 Conditions d’optimalité
77
On veut affiner cette première estimation en augmentant la taille de l’échantillon. Soit n la taille de l’échantillon, comment choisir les effectifs .ni dans les k souspopulations pour obtenir la meilleure estimation du pourcentage de oui dans le nouveau sondage. Les sondages dans les sous-populations sont faits de façon aléatoire et indépendante. La taille n de l’échantillon est très petite devant les effectifs .Ni des sous-populations. Appelons .pi la probabilité du vote oui et .Xi la variable aléatoire nombre de sondés votant oui dans la sous-population i. Compte tenu de la petitesse du rapport .ni /Ni , .Xi suit une loi binomiale de moyenne .E(Xi ) = ni pi et de variance .var(Xi ) = ni pi (1 − pi ). Compte tenu des indépendances des tirages, on est amené à se donner un estimateur .Z de la probabilité p du vote oui sur la population totale de la forme .Z = α1 X1 + · · · + αk Xk . On a alors E(Z) =
k
.
var(Z) =
αi ni pi ,
i=1
k
αi2 ni pi (1 − pi ).
i=1
On choisit un estimateur sans biais, c’est-à-dire tel que .E(Z) = p, on prend αi =
.
Ni N. ni
L’estimateur Z est d’autant plus précis que sa variance est faible, ce qui conduit à résoudre le problème
.
inf [ ni
k Ni2 pi (1 − pi ) : n = n1 + n2 + · · · + nk ]. N 2 ni i=1
Il s’agit maintenant d’une minimisation en nombres entiers. On obtient une valeur approchée de la solution en relaxant la contrainte d’intégrité. Le problème relaxé est un problème convexe, sa solution est : ni =
.
Ni * pi (1 − pi ), i = 1, · · · , k, Nξ
1 Nj + pj (1 − pj ). n N k
où ξ =
j =1
Les quantités .pi étant inconnues sont remplacées par les estimations .p˜ i obtenues dans le sondage préliminaire. Il reste à donner des valeurs entières aux .ni proches de celles calculées ci-dessus.
78
3 Dualité, Lagrangien, Points de Selle
3.3.3 Minimisation d’une fonction différentiable sur un convexe Intéressons-nous maintenant à la minimisation d’une fonction différentiable f non nécessairement convexe sur l’ensemble C := { x ∈ Rn : Ax = a, gi (x) ≤ 0 ∀ i = 1, · · · , p}
.
où les fonctions .gi : Rn → R sont convexes sci et propres, .a ∈ Rq , A est une matrice .q × n de rang q et f est une fonction différentiable non nécessairement convexe. On suppose la condition de Slater satisfaite, c’est-à-dire, ∃ x˜ tel que Ax˜ = a, x˜ ∈ int (dom (gi )), gi (x) ˜ < 0 ∀ i.
.
Théorème 3.5 Une condition nécessaire pour que le minimum de f sur C soit atteint en un point .x¯ ∈ C est l’existence de .u¯ ∗ ≥ 0 et .v¯ ∗ tels que 0 ∈ ∇f (x) ¯ +
p
.
u¯ ∗i ∂gi (x) ¯ + At v¯ ∗ ,
u¯ ∗i gi (x) ¯ = 0 ∀ i.
i=1
Preuve : Si f atteint son minimum en .x¯ sur C, nécessairement, .
f (x¯ + t (y − x) ¯ − f (x) ¯ ≥ 0 ∀ y ∈ C, 0 < t ≤ 1, t
et donc en passant à la limite lorsque t tend vers 0 0 = inf [ ∇f (x), ¯ y − x ¯ : Ay = a, gi (y) ≤ 0 ∀ i = 1, · · · , p ].
.
y∈C
Dire que l’infimum est atteint en .y = x¯ et appliquer le théorème 3.4.
.
Exercice 3.4 (Projection sur le simplexe) Il s’agit de construire un algorithme simple pour déterminer la projection euclidienne p d’un point a de .R n sur le simplexe .S = {x ∈ Rn : x ≥ 0, en , x = 1}. Notons b la projection de a sur .E = {x ∈ Rn : en , x = 1}. Alors, b=a+
.
1 − en , a en n
et
p − a2 = b − a2 + p − b2 .
On voit que p est également la projection de b sur E. Il faut donc résoudre le problème .
min [ p − b2 : p ≥ 0, pt en = 1 ]. p
3.4 Programmation linéaire
79
Le point p est la projection si et seulement si .t ∈ R et .u ∈ Rn existent tels que p = b − ten + u, p ≥ 0, u ≥ 0, pt u = 0, pt en = 1.
.
Puisque .pt b = 1 on a .nt = i ui . Posons .I = {i : ui > 0}. Si .i ∈ I alors .pi = 0, .ui > 0 et .t = bi + ui > bi . / I alors .pi ≥ 0, .ui = 0 et .t = bi − pi ≤ bi . Si .i ∈ Réordonnons les composantes de b de manière à avoir b1 ≤ b2 ≤ · · · ≤ bn .
.
Posons .k = card (I ). On a alors bk < t ≤ bk+1
.
et
kt =
i=k i=1
Finalement .(n − k)t =
i=k
i=1 bi , .pi
bi +
k
ui =
i=1
i=k
bi + nt.
i=1
= 0 si .i ∈ I et .pi = bi − t sinon.
3.4 Programmation linéaire 3.4.1 La dualité en programmation linéaire Un problème de programmation linéaire consiste à minimiser (maximiser) une fonction linéaire f sur un polyèdre convexe P . Ecrivons ce polyèdre sous la forme d’un ensemble convexe finiment généré. Le problème de minimisation s’écrit ⎡ ⎛ ⎞ ⎤ p q p .α = inf ⎣f ⎝ λi si + μj dj ⎠ : λ ≥ 0, μ ≥ 0, λi = 1⎦ , λ,μ
i=1
j =1
i=1
où les .si , dj ∈ Rn sont donnés. Par convention on prend .α = +∞ lorsque le polyèdre est vide. Supposons .P = ∅. On voit que .α = −∞ si et seulement s’il existe j tel que .f (dj ) < 0, sinon le minimum est atteint en un des points .si . En résumé, le minimum est atteint lorsque .α est fini. En utilisant l’écriture de P en tant que polyèdre convexe, la formulation la plus générale du problème fait intervenir des contraintes de positivité sur les variables et des contraintes égalités et inégalités. Le problème s’écrit α=
.
inf [ c1 , x1 + c2 , x2 : A11 x1 + A12 x2 ≥ a1 , A21 x1 + A22 x2 = a2 ],
x1 ≥0,x2
80
3 Dualité, Lagrangien, Points de Selle
où .c1 ∈ Rn1 , .c2 ∈ Rn2 , .a1 ∈ Rp1 , .a2 ∈ Rp2 , .A11 est une matrice .p1 × n1 , .A12 est une matrice .p1 × n2 , .A21 est une matrice .p2 × n1 et .A22 est une matrice .p2 × n2 . On construit la fonction de perturbation
ϕ(x, u) =
.
⎧ ⎨ c, x si ⎩
x1 ≥ 0, A11 x1 + A12 x2 ≥ a1 + u1 , A21 x1 + A22 x2 = a2 + u2 .
+∞ sinon.
La fonction .ϕ est convexe sci et propre puisque le polyèdre P est non vide. Montrons que la fonction h est sci. Pour tout .λ ∈ R, Sλ (h) = {u : h(u) ≤ λ} =
.
μ>λ
$ # proj Rp Sμ (ϕ) ,
où .Sμ (ϕ) = {(x, u) : ϕ(x, u) ≤ μ}. La projection de .Sμ (ϕ) est l’image par une application linéaire d’un polyèdre convexe donc est aussi un polyèdre convexe. .Sλ (h) est donc un convexe fermé comme intersection de convexes fermés. Ainsi h est sci sur tout .Rp . Il s’ensuit .α + β = 0 et .∂h(0) est un polyèdre convexe non vide lorsque .α > −∞. Il suffit de calculer .h∗ (u∗ ) pour obtenir le problème dual. On obtient .
− β = sup [ a, u∗ : At11 u∗1 + At21 u∗2 ≤ c1 , At12 u∗1 + At22 u∗2 = c2 ]. u∗1 ≥0,u∗2
C’est aussi un problème de programmation linéaire. Appelons Q le polyèdre convexe associé au dual. En combinant les résultats on voit que l’on a les situations suivantes; i) ii) iii) iv)
Les deux polyèdres P et Q sont vides si et seulement si .α = β = +∞. Si P est non vide alors .∞ > α = −β. Si Q est non vide alors .α = −β > −∞. Si P et Q sont non vides alors .∞ > α = −β > −∞ et les deux problèmes ont des solutions optimales. Si .x¯ est solution optimale du problème primal et .u¯ ∗ du problème dual, alors .u¯ ∗1 , A11 x¯1 + A12 x¯2 − a1 = 0 et .At11 u¯ ∗1 + At21 u¯ ∗2 − c1 , x¯1 = 0.
3.4.2 Théorèmes d’alternatives, lemme de Farkas On peut à partir des résultats de dualité ci-dessus dériver aisément un certain nombre de résultats d’existence formulés souvent sous le nom de théorèmes d’alternatives. C’est le cas du lemme de Farkas pour lequel nous présentons une nouvelle démonstration.
3.4 Programmation linéaire
81
Proposition 3.4 (Lemme de Farkas) Soient A une matrice .p × n et .a ∈ Rp . On a l’équivalence .
$ # [ ∃ x ≥ 0 tel que Ax = a ] ⇐⇒ At y ≤ 0 ⇒ a, y ≤ 0 .
Preuve : La partie à droite est équivalente à 0 = sup [ a, y : At y ≤ 0 ],
.
y
qui par dualité est équivalent à 0 = inf [ 0, x : x ≥ 0, Ax = a ],
.
x
qui revient à dire qu’il existe .x ≥ 0 tel que .Ax = a.
.
Ce lemme peut s’écrire sous une forme d’alternative. Proposition 3.5 Soient A une matrice .p × n et .a ∈ Rp . Une et une seule des assertions suivantes est satisfaite. 1) Il existe .x ≥ 0 tel que .Ax = a. 2) Il existe y tel que .At y ≤ 0 et .a, y > 0. Voici deux autres exemples d’application de la dualité en programmation linéaire. Proposition 3.6 Soient A une matrice .p × n et .a ∈ Rp tels qu’il existe .x¯ avec .Ax ¯ ≤ a. Une et une seule des assertions suivantes est satisfaite. 1) Il existe .x > 0 tel que .Ax ≤ a. 2) Il existe .v ≥ 0 tel que .0 = At v ≥ 0 et .a, v ≤ 0. Preuve : Désignons par e le vecteur de .Rn dont toutes les composantes sont égales à 1. Notons que 1) est équivalent à 0 < sup [ 0, x + t : −x + te ≤ 0, Ax + 0 t ≤ a ],
.
x,t
qui par dualité est équivalent à 0 < inf [ 0, x + a, v : −u + At v = 0, et u = 1, u ≥ 0, v ≥ 0 ].
.
u,v
Si l’inf est fini, il est atteint. La dernière condition signifie que v ≥ 0 et 0 = At v ≥ 0 ⇒ a, v > 0.
.
D’où la proposition.
.
82
3 Dualité, Lagrangien, Points de Selle
Proposition 3.7 Soient A une matrice .p × n et .a ∈ Rp tels qu’il existe .x¯ avec .Ax ¯ = a. Une et une seule des assertions suivantes est satisfaite. 1) Il existe .x ≥ 0, x = 0 tel que .Ax = a. 2) Il existe y tel que .At y > 0 et .a, y ≤ 0. Preuve : Ici aussi e désigne le vecteur de .Rn dont toutes les composantes sont égales à 1. 1) est équivalent à 0 < sup [ e, x : Ax = a ],
.
x
qui par dualité est équivalent à 0 < inf [ a, y : At y ≥ e].
.
y
Si l’inf est fini, il est atteint. La dernière condition signifie que .At y ≥ e ⇒ a, y > 0. D’où la proposition. . On peut de la même façon obtenir de nombreux autres résultats similaires.
3.5 Minimax et points de selle 3.5.1 Théorème du point de selle Proposition 3.8 (Inégalité inf-sup) Soient X and Y deux ensembles quelconques et L : X × Y → R. Alors .
sup inf L(x, y) ≤ inf sup L(x, u)
y∈Y x∈X
x∈X y∈Y
∀ (x, y) ∈ X × Y.
Preuve : Pour tout y ∈ Y on a .
inf L(x , y) ≤ L(x, y)
x ∈X
∀ x ∈ X,
et donc, .
sup inf L(x , y) ≤ sup L(x, y)
y∈Y x ∈X
Prendre l’inf par rapport à x.
∀ x ∈ X.
y∈Y
Les fonctions duales et les problèmes duaux associés à L sont définis comme suit
3.5 Minimax et points de selle
f (x) = sup L(x, y),
.
83
g(y) = inf L(x, y), x∈X
y∈Y
m− = sup g(y), y∈Y
m+ = inf f (x). x∈X
Par construction on a g(y) ≤ m− ≤ m+ ≤ f (x)
.
∀ (x, y) ∈ X × Y.
(3.6)
On s’intéresse aux conditions impliquant m− = m+ et à l’existence de solutions optimales des deux problèmes. On dit que le point (x, ¯ y) ¯ ∈ X × Y est point de selle de L sur X × Y lorsque L(x, ¯ y) ≤ L(x, ¯ y) ¯ ≤ L(x, y) ¯
.
∀ (x, y) ∈ X × Y.
Théorème 3.6 (Théorème du Point de Selle) (x, ¯ y) ¯ ∈ X × Y est un point de selle ¯ = de L sur X × Y si et seulement si g(y) ¯ = f (x). ¯ On a alors m− = m+ = f (x) g(y) ¯ = L(x, ¯ y). ¯ Preuve : Si (x, ¯ y) ¯ ∈ X × Y est point de selle alors, en raison de (3.6), m+ ≤ f (x) ¯ = sup L(x, ¯ y) = L(x, ¯ y) ¯ = inf L(x, y) ¯ = g(y) ¯ ≤ m− .
.
x∈X
y∈Y
Réciproquement, si g(y) ¯ = f (x), ¯ alors m− = m+ = f (x) ¯ = g(y) ¯ et L(x, ¯ y) ≤ f (x) ¯ = g(y) ¯ ≤ L(x, y) ¯
.
∀ (x, y) ∈ X × Y.
Faire x = x¯ et y = y. ¯ Alors, f (x) ¯ = g(y) ¯ = L(x, ¯ y). ¯
De façon générale, l’égalité m+ = m− n’est pas vérifiée comme le montre l’exemple suivant : A est la matrice 2 × 3 A=
.
−1 4 0 . 0 02
Alors 0 = maxj mini aij < mini maxj aij = 2. La démonstration du théorème suivant fait le lien avec les lagrangiens introduits à partir du schéma de dualité pour les problèmes d’optimisation convexe. Théorème 3.7 (Théorème du minimax) On suppose que 1) X ⊂ Rn et Y ⊂ Rp sont convexes, compacts non vides, 2) la fonction L : X × Y → R est convexe sci dans la première variable, concave scs dans la deuxième variable. Alors la fonction L admet un point de selle. Preuve : On construit la fonction suivante
84
3 Dualité, Lagrangien, Points de Selle
supy [ y ∗ , y + L(x, y) : y ∈ Rp ] si x ∈ X, +∞ sinon.
ϕ(x, y ∗ ) =
.
où, par convention, L(x, y) = −∞ lorsque y ∈ / Y. On se rapporte au schéma général de dualité. Ici f (x) = ϕ(x, 0) = sup L(x, y) si x ∈ X, f (x) = +∞ sinon.
.
y
Le problème primal est m+ = inf f (x) = inf sup L(x, y).
.
x
x
y
La fonction duale est h∗ (y) = ϕ ∗ (0, y) = sup [ y ∗ , y − ϕ(x, y ∗ )],
.
x,y ∗
h∗ (y) = sup sup inf[ y ∗ , y − z + (−L(x, z)) ].
.
x
z
y∗
Pour tout x ∈ X la fonction z → −L(x, z) est convexe sci propre. Il s’ensuit que .
− L(x, y) = sup inf[ y ∗ , y − z − L(x, z) ]. y∗
z
Le problème dual est donc m− = − inf h∗ (y) = sup inf L(x, y).
.
y
y
x
Pour tout y fixé, la fonction (x, y ∗ ) → y ∗ , y + L(x, y) est convexe sci. La fonction ϕ est donc convexe sci puisque sup de fonctions convexes sci. Il s’ensuit que la fonction h définie par h(y ∗ ) = infx∈X ϕ(x, y ∗ ) est convexe sur Rp . Soit xˆ ∈ X arbitraire. Alors, pour tout y ∗ ∈ Rp , h(y ∗ ) ≤ ϕ(x, ˆ y ∗ ) ≤ y ∗ sup y + sup L(x, ˆ y).
.
y∈Y
y∈Y
De là, h(y ∗ ) < +∞ puisque Y est compact et la fonction L(x, ˆ ·) est scs sur Y. Ainsi dom (h) = Rp . Soit maintenant yˆ ∈ Y arbitraire, on a ϕ(x, 0) ≥ L(x, y) ˆ et par conséquent h(0) ≥ infx∈X L(x, y) ˆ > −∞ puisque X est compact et la fonction L(., y) ˆ est sci sur X.
3.5 Minimax et points de selle
85
La fonction h est convexe propre finie et continue sur tout Rp . On a donc m− = = h(0) = m+ . En outre, l’ensemble ∂h∗ (0) est un convexe compact non vide, c’est l’ensemble des solutions optimales du problème dual. Observons que le problème est entièrement symétrique, la convexité et la semicontinuité inférieure de L en x étant changés en concavité et semi-continuité supérieure de L en Y. Il s’ensuit que le problème primal a des solutions optimales. Soit x¯ une solution optimale du primal, y¯ une solution optimale du dual alors (x, ¯ y) ¯ est point de selle du lagrangien. h∗∗ (0)
Fig. 3.1 Illustration d’un point selle d’une fonction convexe-concave
Le résultat suivant est, du point de vue historique, en fait le premier théorème du minimax publié. Il a été établi par Von Neumann en 1928 et est à l’origine de la théorie des jeux. Nous l’utiliserons dans la sous-section suivante. Théorème 3.8 (Von Neumann) Soient A une matrice p × n, X = { x ∈ Rn : x ≥ 0, x1 + x2 + · · · + xn = 1 }, Y = { y ∈ Rp : y ≥ 0, y1 + y2 + · · · + yp = 1 }. Alors, la fonction L définie par L(x, y) = Ax, y a un point de selle sur X × Y . Il s’ensuit que .
max min L(x, y) = min max L(x, y). y∈Y x∈X
x∈X y∈Y
3.5.2 Jeu à somme nulle Voici l’exemple traité par Von Neumann. Considérons un jeu avec deux joueurs où ces deux joueurs disposent respectivement de n et m stratégies différentes. Si le premier joueur joue la stratégie i et le deuxième joue la stratégie j le gain du premier joueur est .aij et la perte du deuxième est donc .aij . La matrice .A = (aij ) est appelée matrice des gains.
86
3 Dualité, Lagrangien, Points de Selle
En adoptant la stratégie i le premier joueur est sûr de gagner au moins .minj aij quelle que soit la stratégie j suivie par son adversaire. En choisissant i qui maximise ce gain, il sera sûr de gagner au moins .maxi minj aij . Symétriquement, en choisissant j qui minimise .maxi aij , le deuxième joueur sera sûr de ne pas perdre plus que .minj maxi aij . L’inégalité du minimax nous dit que .
max min aij ≤ min max aij . i
j
j
i
Sauf exception, l’inégalité est stricte. Nous supposons que le jeu se répète un grand nombre de fois et que les joueurs éviteront d’utiliser la même stratégie, sinon la connaissance de cette stratégie serait mise à profit par l’adversaire. La solution consiste à sélectionner les stratégies de façon aléatoire. Posons .en = (1, 1, · · · , 1) ∈ Rn et .em = (1, 1, · · · , 1) ∈ Rm , ensuite .P = {p ∈ n R : p ≥ 0, en , p = 1} et .Q = {q ∈ Rm : q ≥ 0, em , q = 1}. Une stratégie aléatoire, appelée stratégie mixte, consiste pour le premier joueur à se donner un vecteur de probabilité .p ∈ P et choisir pour le jeu en cours la stratégie i avec la probabilité .pi . Le deuxième joueur fait de même à partir d’un vecteur .q ∈ Q. Les stratégies déterministes où i (ou j ) est pris avec une probabilité 1 sont appelées stratégies pures. Donnons-nous .p ∈ P et .q ∈ Q, l’espérance du gain du premier joueur et donc aussi de la perte du deuxième joueur est .Aq, p. En reproduisant le schéma fait pour les stratégies pures on voit que le meilleur choix pour le premier joueur est le vecteur de probabilités p qui maximise sur P .minq [ Aq, p : q ∈ Q ]. Pour le deuxième joueur le meilleur choix est le vecteur q qui minimise sur Q .maxp [ Aq, p : q ∈ Q ]. On a bien .
max min aij ≤ max min Aq, p ≤ min max Aq, p ≤ min max aij . i
j
q∈Q p∈p
p∈P q∈Q
j
i
Posons .L(p, q) = Aq, p. En raison du théorème du minimax, l’inégalité centrale est en fait une égalité et .(p, ¯ q) ¯ ∈ P × Q existe tel que Aq, ¯ p ≤ Aq, ¯ p¯ ≤ Aq, p¯
.
∀ p ∈ P , ∀ q ∈ Q.
La meilleure stratégie mixte pour le premier joueur est celle correspondant à .p, ¯ pour le deuxième celle correspondant à .q. ¯ Il nous reste à savoir comment obtenir .p¯ et .q. ¯ En raison de la dualité en programmation linéaire on a .
min Aq, p = max [ t : tem ≤ At p ] ∀ p ∈ P q∈Q
t
p¯ et .Aq, ¯ p ¯ sont obtenus en résolvant le problème de programmation linéaire
.
3.5 Minimax et points de selle
87
Aq, ¯ p ¯ = max [ t : p ≥ 0, ent p = 1, tem − At p ≤ 0 ].
.
t,p
q¯ est ensuite obtenu en résolvant .minq∈Q Aq, p. ¯
.
Exercice 3.5 Soit la matrice 2 lignes, 3 colonnes suivantes, A=
.
2 01 . −1 1 0
Alors, .0 = maxj mini aij < mini maxj aij = 1. En résolvant le problème linéaire associé, on obtient .p¯ = ( 12 , 12 ), .q¯ = ( 13 , 13 , 13 ) et .Aq, ¯ p ¯ = 12 . On a 0 ≤ Aq, p ¯ ≤ Aq, ¯ p ¯ ≤ Aq, ¯ p ≤ 1 ∀ p ∈ P , ∀ q ∈ Q.
.
3.5.3 Théorème du minimax de Maurice Sion Nous allons maintenant étendre le théorème de 1928 du minimax de von Neumann en relaxant la convexité/concavité de la fonction l. Une fonction .f : Rn → [−∞, ∞] est dite quasiconvexe si pour tout .λ ∈ R l’ensemble . Sλ (f ) = {x ∈ Rn : f (x) < λ} est convexe ou de façon équivalente si pour tout .μ ∈ R l’ensemble .Sμ (f ) = {x ∈ Rn : f (x) ≤ μ} est convexe. Toute fonction convexe est donc quasiconvexe. La fonction f est dite être quasiconcave lorsque la fonction .−f est quasiconvexe. Théorème 3.9 (Sion, [96]) Plaçons-nous dans la situation où X et Y sont deux ensembles convexes compacts non vides respectivement de .Rn et .Rp et .l : X ×Y → R est une fonction quasiconcave scs dans la première variable, quasiconvexe sci ¯ y) ¯ ∈ X × Y tel que dans la seconde. Il existe alors, .(x, l(x, y) ¯ ≤ l(x, ¯ y) ¯ ≤ l(x, ¯ y)
.
.
∀ (x, y) ∈ X × Y,
max min l(x, y) = l(x, ¯ y) ¯ = min max l(x, y). x∈X y∈Y
y∈Y x∈X
Preuve : 1) Pour tout .x ∈ X et .y ∈ Y posons f (x) = min l(x, y), g(y) = max l(x, y), α = max f (x), β = min g(y).
.
y∈Y
x∈X
x∈X
y∈Y
La fonction .g est un maximum de fonctions quasiconvexes sci, elle est donc quasiconvexe sci. La fonction .f est un minimum de fonctions quasiconcaves scs, elle est donc quasiconcave scs. Les ensembles X et Y étant convexes compacts, il existe .x¯ ∈ X et .y¯ ∈ Y tels que .α = f (x) ¯ ≤ g(y) ¯ = β. Si on peut prouver .α = β, ¯ y) ¯ est point de selle de l. alors tout point .(x,
88
3 Dualité, Lagrangien, Points de Selle
2) Supposons pour contradiction .α < β. Il existe alors .γ ∈ ] α, β [. Prenons pour tout .x ∈ X et .y ∈ Y , Xy = {x ∈ X : l(x, y) ≥ γ }
.
et Yx = {y ∈ Y : l(x, y) ≤ γ }.
Les ensembles .Xy et .Yx sont convexes, compacts. Pour tout .y ∈ Y fixé, il existe .x ∈ X tel que .l(x, y) = g(y) ≥ γ et donc .Xy = ∅. Pour tout .x ∈ X fixé, il existe .y ∈ Y tel que .l(x, y) = f (x) ≤ γ et donc .Yx = ∅. Supposons maintenant, pour contradiction, l’existence de .x˜ ∈ ∩y∈Y Xy . Alors, γ ≤ min l(x, ˜ y) ≤ max min l(x, y) = α < γ .
.
y∈Y
x∈X y∈Y
Ceci est impossible. Donc .∩y∈Y Xy = ∅ et par symétrie .∩x∈X Yx = ∅. Il existe donc p q y1 , y2 , · · · , yp ∈ Y et .x1 , x2 , · · · , xq ∈ X tels que .∩i=1 Xyi = ∅ et .∩j =1 Yxj = ∅. On pose .I1 = {1, · · · , p} et .J1 = {1, · · · , q}. On a
.
.
∪i∈I1 Xyci = X ⊃ conv {xj }j ∈J1 et ∪j ∈J1 Yxcj = Y ⊃ conv {yi }i∈I1 .
(S)
Maintenant, partant de .k = 1, on construit .Ik+1 ⊂ Ik comme étant le plus petit sous ensemble .I ⊂ Ik tel que .
∪i∈I Xyci ⊃ conv {xj }j ∈Jk
puis, on construit .Jk+1 ⊂ Jk comme étant le plus petit sous ensemble .J ⊂ Jk tel que .
∪j ∈J Yxci ⊃ conv {yi }i∈Ik+1 .
tant que des modifications interviennent dans les ensembles .Ik et .Jk . Le processus stoppe après un nombre fini d’étapes. On obtient alors deux ensembles minimaux .I¯ et .J¯ vérifiant ∅ = I¯ ⊂ · · · ⊂ I3 ⊂ I2 ⊂ I1 et ∅ = J¯ ⊂ · · · ⊂ J3 ⊂ J2 ⊂ J1 ,
.
X := conv {xj }j ∈J¯ ⊂ ∪i∈I¯ Xyci et Y := conv {yi }i∈I¯ ⊂ ∪j ∈J¯ Yxcj .
.
(S )
a) Plaçons-nous dans le cas où .I¯ est réduit au singleton .{k}. Alors d’une part, il existe .q ∈ J¯ tel que .yk ∈ Yxcq = {y : l(xq , yk ) > γ }, et d’autre part .xq ∈ conv {xj }j ∈J¯ ⊂ {x : l(x, yk ) < γ }. Ce n’est pas possible. b) De la même façon il y a impossibilité lorsque .card (J¯) = 1.
3.5 Minimax et points de selle
89
c) Il nous reste à considérer le cas où .card (I¯) > 1 et .card (J¯) > 1. Pour .i ∈ I¯ et .j ∈ J¯, on pose .Xi = X ∩ Xyi et .Yj = Y ∩ Yxj . Les ensembles .Xi et .Yj sont convexes compacts. On a .
∩i∈I¯ Xi = ∅, ∪i∈I¯ Xi ⊂ conv (∪i∈I¯ Xi ), ∩j ∈J¯ Yj = ∅, ∪j ∈J¯ Yj ⊂ conv (∪j ∈J¯ Yj ).
En s’appuyant sur la construction qui fait passer de .Ik à .Ik+1 appliquée à .I¯ on voit que pour tout .I I¯ l’intersection .∩i∈I Xi est non vide. En raison du théorème de l’intersection 1.9, il existe .x˜ ∈ X ∩ [∪i∈I¯ Xi ]c . Il existe donc .x˜ ∈ X tel que .l(x, ˜ yi ) < γ pour tout i. La quasiconvexité de .l(x, ˜ .) implique .l(x, ˜ y) < γ pour tout .y ∈ Y . En raisonnant de même sur les intersections des .Yj on obtient l’existence de y˜ ∈ Y tel que .γ < l(x, y) ˜ pour tout .x ∈ X. On a alors .γ < l(x, ˜ y) ˜ < γ , ce qui n’est pas possible. .
.
La démonstration ci-dessus, basée sur le théorème de l’intersection, est inspirée de celles incomplètes données dans le livre de Berge [6] et de sa traduction [7]. Comme on peut le voir, il n’a pas été nécessaire de faire appel en dimension finie aux théorèmes de point fixe et, par-là, à l’axiome du choix. Ce n’est pas le cas en dimension infinie.
3.5.4 Le modèle d’expansion économique de von Neumann Exposé du modèle Schématisons le modèle, il y a n types d’activités (par exemple investissement dans tel secteur d’activité) et p types de biens. La composante .xi du vecteur .x ∈ Rn donne le niveau de l’activité i. La mise en route de l’activité x nécessite la quantité de biens .Ax ∈ Rp pour fonctionner, elle produit la quantité de biens industriels p .Bx ∈ R . Les matrices A et B sont positives, non nulles, et les conditions suivantes sont satisfaites aij + bij > 0
.
∀ i, j.
(C0 )
0 = x ≥ 0 ⇒ 0 = Ax ≥ 0.
(C1 )
∀ d > 0 ∃ x ≥ 0 tel que Bx ≥ d..
(C2 )
.
.
(C0 ) dit que si une activité non nulle ne consomme pas du bien i, elle en produit. (C1 ) dit que toute activité non nulle nécessite des biens pour fonctionner et .(C2 ) que pour toute demande il existe une activité qui permet de l’obtenir.
. .
90
3 Dualité, Lagrangien, Points de Selle
Posons X = {x ∈ Rn : x ≥ 0, en , x = 1},
.
U = {u ∈ Rp : u ≥ 0, ep , u = 1}.
La condition .(C0 ) est équivalente à la condition suivante (A + B)x, u > 0
.
∀ (x, u) ∈ X × U.
(D0 )
En effet .(A + B)x, u = i,j (ai,j + bi,j )ui xj , il existe i et j tels que .ui xj > 0. La condition .(C2 ) est équivalente à 0 = inf [ 0, x : Bx ≥ ep ],
.
x≥0
et donc, par dualité, équivalente à 0 = sup [ ep , u : B t u ≤ 0 ],
.
u≥0
qui, puisque les coefficients de B sont positifs ou nuls, est équivalent à dire que u = 0 dès que .u ≥ 0 et .B t u = 0. .(C2 ) est donc équivalente à la condition
.
0 = u ≥ 0 ⇒ 0 = B t u ≥ 0.
.
(D1 )
Par symétrie, la condition .(C1 ) est équivalente à la condition ∀ a > 0 ∃ u ≥ 0 tel que At u ≥ a.
.
(D2 )
Le problème primal et son dual On définit le taux d’expansion correspondant au choix .x ∈ Rn , x ≥ 0 des intensités des différentes activités comme .λ(x) = maxλ [ λ : λAx ≤ Bx ]. Le taux maximal que l’on peut obtenir est donc λp = max λ(x) = max [ λ : 0 = x ≥ 0, λAx ≤ Bx ].
.
x
λ,x
Il est clair que λp = max [ λ : x ∈ X, λAx ≤ Bx ].
.
λ,x
(P )
La symétrie parfaite entre .(C1 ) et .(D1 ) d’une part, .(C2 ) et .(D2 ) d’autre part nous conduit à poser .μ(u) = maxμ [ μ : μB t u ≤ At u ] et à introduire le problème
3.5 Minimax et points de selle
91
μd = max [ μ(u) : u ∈ U ] = max [ μ : u ∈ U, μB t u ≤ At u ],
.
u
μ,u
(D)
t t qui s’écrit encore, en posant .λd = μ−1 d et .λd (u) = minμ [ μ : μA u ≥ B u ],
λd = min [ λd (u) : u ∈ U ] = min [ λ : u ∈ U, λAt u ≥ B t u ].
.
u
λ,u
(D)
Nous reviendrons ultérieurement sur l’interprétation économique de ce problème, disons pour le moment que le vecteur u est un vecteur prix. En raison de .(C2 ), il existe .xˆ ≥ 0 tel que .B xˆ ≥ ep . Puisque .0 = Axˆ ≥ 0, il ˆ Mais alors .0 < λˆ ≤ λp . existe .λˆ > 0 tel que .λˆ Axˆ ≤ B x. Supposons .λp = +∞. Pour tout entier .k > 0, il existe .xk ∈ X tel que .kAxk ≤ Bxk . Soit .x¯ une valeur d’adhérence de la suite .xk . Mais alors .kAx¯ ≤ B x¯ qui est non possible puisque .0 ≥ Ax = 0. On a donc .0 < λp < ∞. Soit .λk une suite croissante convergeant vers .λp . Pour tout .k > 0, il existe .xk ∈ X tel que .λk Axk ≤ Bxk . Soit .x¯ une valeur d’adhérence .x¯ de la suite .{xk } on a .λp Ax ¯ ≤ B x¯ et .λ(x) ¯ = λp . On montre de la même manière .0 < μd = λ−1 d < +∞ et l’existence de .u ∈ U tel que .μB t u ≤ At u et .μd = μ(u). Il nous reste à situer .λd par rapport à .λp . En raison des inégalités .x ≥ 0, u ≥ 0, λp Ax ≤ Bx et .λd At u ≥ B t u on a 0 ≤ λp Ax, u ≤ Bx, u ≤ λd At u, x = λd Ax, u.
.
On ne peut avoir .Ax, u = 0 car on aurait alors .Bx, u = 0 en contradiction avec (D0 ). On vient de prouver l’inégalité de dualité .λp ≤ λd . On introduit ensuite pour tout .x ∈ X et .u ∈ U la quantité
.
l(x, u) =
.
Bx, u Ax, u
∀ x ∈ X, ∀ u ∈ U,
où, par convention, .α/0 = +∞ lorsque .α > 0. La fonction l est bien définie sur X × U en raison de la condition .(D0 ). Soit .x ∈ X. Alors .0 ≤ λ ≤ λ(x) si et seulement si .maxi (λAx −Bx)i ≤ 0 donc si et seulement si .λAx − Bx, u ≤ 0 pour tout .u ∈ U et finalement si et seulement si .λ ≤ l(x, u) pour tout .u ∈ U , c’est-à-dire .λ(x) = infu l(x, u). On procède de même sur le versant dual. On a obtenu cette nouvelle écriture de l’inéquation de dualité .
λp = max min
.
x∈X u∈U
Bx, u Bx, u ≤ min max = λd . Ax, u u∈U x∈X Ax, u
.u ∈ U étant fixé, l’ensemble .{x ∈ X : l(x, u) ≥ λ} est un polyèdre convexe fermé, la fonction l est donc quasi concave scs en x. Le point .x ∈ X étant fixé, l’ensemble .{u ∈ U, l(x, u) ≤ λ} est aussi un polyèdre convexe fermé et la fonction
92
3 Dualité, Lagrangien, Points de Selle
l est quasi convexe sci en u. En raison du théorème 3.9 de Sion, .λp = λd . Ensuite, en raison du théorème 3.6, .(x, u) est point de selle de l. On a donc montré le résultat suivant Théorème 3.10 Sous les conditions .(C1 ), (C2 ), (C3 ), il existe .(x, u) ∈ X × U tels que l(x, u) ≤ l(x, u) = λp = λd ≤ l(x, u)
.
∀ (x, u) ∈ X × U.
Interprétation économique Le rapport .l(x, u) correspond au rapport de la valeur de la production sur le coût de la production. Le vecteur u des prix unitaires des biens étant fixé, l’activité optimale .x(u) correspondante est obtenue en maximisant le rapport. De façon duale, l’activité x étant fixée, le vecteur des prix unitaires .u(x) est obtenu en minimisant le rapport. Lorsque .x¯ est solution optimale du problème primal .(P ) et .u¯ est solution optimale du problème dual .(D), le couple .(x, ¯ u) ¯ est un point de selle. C’est un ¯ et .u¯ ∈ u(x). ¯ point d’équilibre, on a alors .x¯ ∈ x(u) En dépit d’hypothèses dont on pourrait peut-être contester un peu leur réalisme par leurs caractères réducteurs, on ne peut qu’admirer le caractère très innovateur de la modélisation et la méthodologie décrite par von Neumann en 1937 [86] où on voit apparaître la dualité entre prix et production avec son interprétation économique – les techniques font appel aux notions novatrices de point de selle, d’équilibre, de minimax, de points fixes. Von Neumann (1903–1957) a été un des plus brillants scientifiques du vingtième siècle. On le trouve à la naissance des méthodes de Monte Carlo. Ses contributions concernent la mécanique quantique, la théorie des jeux, les équilibres économiques, l’architecture des ordinateurs, la théorie des ensembles, sans compter ses contributions militaires au cours de la seconde guerre mondiale. “Von Neumann” . . . As a mathematical discipline travels far from its empirical source, or still more, if it is a second and third generation only indirectly inspired by ideas . . . . . . it is beset with very grave dangers. It becomes more and more purely aestheticizing, more and more purely “art pour l’art”. . . . . . . In other words, at a great distance from its empirical source, or after much "abstract" inbreeding, a mathematical subject is in danger of degeneration. Le lecteur trouvera dans l’article de S. Gloria-Palermo [42] d’intéressantes réflexions sur la manière dont le travail d’axiomatisation de l’économie entrepris par von Neumann a interféré au cours du temps avec le théorème d’incomplétude de Gödel.
3.6 Inf-convolution et application proximale
93
3.6 Inf-convolution et application proximale 3.6.1 Somme et Inf-convolution Intéressons-nous à la somme .s = f1 + f2 de deux fonctions convexes sci propres f1 et .f2 . On suppose .dom (f1 ) ∩ dom (f2 ) = ∅. La fonction .s = f1 + f2 est convexe sci et propre. Il en est donc de même de sa fonction conjuguée .s ∗ . Remarquons tout d’abord que pour tout .x ∈ Rn
.
s(x) = f1 (x) + f2 (x) = sup [ x1∗ , x − f1∗ (x1∗ ) + x2∗ , x − f2∗ (x2∗ ) ].
.
x1∗ ,x2∗
Posons .z∗ = x1∗ + x2∗ . On obtient s(x) = sup [ z∗ , x − inf [ f1∗ (x1∗ ) + f2∗ (z∗ − x1∗ ) ] ], ∗
.
z∗
x1
s(x) = sup [ z∗ , x −
.
z∗
inf
(xi∗ ,λi )∈epi (fi∗ )
[ λ1 + λ2 : x1∗ + x2∗ = z∗ ] ].
La fonction .(x1∗ , z∗ ) → ϕ(x1∗ , z∗ ) = f1∗ (x1∗ ) + f2∗ (z∗ − x1∗ ) est convexe sci. On appelle inf-convolution de .f1∗ et .f2∗ et on note .f1∗ f2∗ la fonction marginale n ∗ ∗ .f f : R → R de .ϕ définie par 1 2 f1∗ f2∗ (z∗ ) = inf [ f1∗ (x1∗ ) + f2∗ (z∗ − x1∗ ) ] ∗
.
x1
∀ z∗ ∈ Rn .
La fonction .f1∗ f2∗ est convexe, .f1∗ f2∗ est convexe sci et on a s(x) = sup [ z∗ , x − f1∗ f2∗ (z∗ ) ] = sup [ z∗ , x − f1∗ f2∗ (z∗ ) ].
.
z∗
z∗
De façon triviale, f1∗ f2∗ = f2∗ f1∗ et dom (f1∗ ) + dom (f2∗ ) = dom (f1∗ f2∗ ).
.
La fonction s est la fonction conjuguée de la fonction .f1∗ f2∗ et donc aussi de sa régularisée sci .f1∗ f2∗ . La fonction conjuguée .s ∗ de s est convexe sci propre, elle n’est rien d’autre que la fonction .f1∗ f2∗ . En résumé, s ∗ = f1∗ f2∗ ,
.
.
s = f1 + f2 = [f1∗ f2∗ ]∗ = [ f1∗ f2∗ ]∗ ,
− ∞ < s ∗ (z∗ ) = f1∗ f2∗ (z∗ ) ≤ [f1∗ f2∗ ](z∗ )
∀ z∗ ∈ Rn ,
epi (f1∗ ) + epi (f2∗ ) ⊂ epi (f1∗ f2∗ ) ⊂ epi ( f1∗ f2∗ ) = epi (f1∗ f2∗ )),
.
94
3 Dualité, Lagrangien, Points de Selle
.
epi (f1∗ ) + epi (f2∗ ) = epi (f1∗ f2∗ ).
Notons que l’on peut avoir .epi (f1∗ ) + epi (f2∗ ) = epi (f1∗ f2∗ ) comme montré ci-dessous Exemple 3.1 ⎧ ⎧ ⎨ x(ln(x) − 1) si x > 0, ⎨ −x(ln(−x) − 1) si x < 0, .f1 (x) = 0 si x = 0, f2 (x) = 0 si x = 0, ⎩ ⎩ +∞ si x < 0. +∞ si x > 0. Les calculs donnent ∗
f1∗ (x ∗ ) = ex , f2∗ (x ∗ ) = e−x
.
∗
∗
∀ x ∗ ∈ R,
∗
f1∗ f2∗ (z∗ ) = inf [ ex (1 + e−z ) ] = 0 ∀ z∗ ∈ R, ∗
.
x
dom (s) = dom (f1 ) ∩ dom (f2 ) = {0},
.
R×] 0, ∞ [= epi (f1∗ ) + epi (f2∗ ) = epi (f1∗ f2∗ ) = R × [ 0, ∞ [.
.
On cherche une condition pour laquelle la fonction .f1∗ f2∗ soit sci. Il suffit pour cela que la somme des épigraphes de .f1∗ et .f2∗ soit fermée. C’est le cas, en raison de la proposition 1.9, lorsque [epi (f1∗ )]∞ ∩ −[epi (f2∗ )]∞ = {(0, 0)}.
.
On montre facilement que pour une fonction g convexe sci propre on a l’égalité [epi (g ∗ )]∞ = { d ∗ : [g ∗ ]∞ (d ∗ ) ≤ 0} × [ 0, ∞ [.
.
On sait d’autre part par la proposition 2.5 que la fonction .[g ∗ ]∞ coïncide avec la fonction support de .dom (g). Il s’ensuit qu’une condition suffisante pour que ∗ ∗ .f f soit sci est 1 2 { d ∗ : δ ∗ (d ∗ , dom (f1 )) ≤ 0} ∩ {d ∗ : δ ∗ (d ∗ , −dom (f2 )) ≤ 0} = {0}.
.
(c)
Cette condition signifie qu’il n’existe aucun sous-espace vectoriel séparant les domaines de .f1 et .f2 . C’est le cas en particulier lorsque l’intérieur de .dom (f1 ) ∩ dom (f2 ) est non vide. On peut jouer aussi sur les intérieurs relatifs. ∗ ∗ .z étant fixé, interrogeons-nous maintenant sur l’existence de .x tel que 1 f1∗ f2∗ (z∗ ) = f1∗ (x1∗ ) + f2∗ (z∗ − x1∗ ).
.
3.6 Inf-convolution et application proximale
95
On dit alors que l’inf-convolution est exacte. C’est le cas lorsque la fonction .x1∗ → f1∗ (x1∗ ) + f2∗ (z∗ − x1∗ ) est inf-compacte, c’est-à-dire, lorsque { d ∗ : [f1∗ ]∞ (d ∗ ) + [f2∗ ]∞ (−d ∗ ) ≤ 0} = {0}.
.
Soit encore, lorsque { d ∗ : δ ∗ (d ∗ , dom (f1 ) − dom (f2 )) ≤ 0} = {0},
.
ce qui signifie 0 ∈ int [dom (f1 ) − dom (f2 )].
.
(d)
Supposons maintenant l’inf-convolution exacte en .z∗ . Soient donc .x1∗ et .x2∗ tels que .z∗ = x1∗ + x2∗ et .f1∗ f2∗ (z∗ ) = f1∗ (x1∗ ) + f2∗ (x2∗ ). La condition d’optimalité dit qu’il existe des points .x ∈ ∂f1∗ (x1∗ ) ∩ ∂f2∗ (x2∗ ). On a f1 (x) + f1∗ (x1∗ ) + f2 (x) + f2∗ (x2∗ ) = x1∗ + x2∗ , x,
.
s(x) + f1∗ f2∗ (z∗ ) = z∗ , x,
.
s(x) + s ∗ (z∗ ) = z∗ , x.
.
D’où on déduit ∂(f1∗ f2∗ )(z∗ ) = ∂f1∗ (x1∗ ) ∩ ∂f2∗ (x2∗ ).
.
(3.7)
La proposition suivante résume les résultats ci-dessus. Proposition 3.9 Soient .f1 et .f2 deux fonctions convexes sci propres sur .Rn telles que .dom (f1 ) ∩ dom (f2 ) = ∅. i) La fonction .f1∗ f2∗ est convexe propre, .(f1 + f2 )∗ = f1∗ f2∗ . ii) .f1∗ f2∗ est sci lorsque la condition .(c) est remplie. iii) Lorsque la condition .(d) est remplie il existe, pour tout .z∗ ∈ Rn , .x1∗ et .x2∗ tels que .z∗ = x1∗ + x2∗ et .f1∗ f2∗ (z∗ ) = f1∗ (x1∗ ) + f2∗ (x2∗ ). La fonction .f1∗ f2∗ est sous-différentiable en .z∗ et .∂f1∗ f2∗ (z∗ ) = ∂f1∗ (x1∗ ) ∩ ∂f2∗ (x2∗ ). On peut se faire plaisir en étendant l’inf-convolution à .p ≥ 2 fonctions p .fi convexes sci propres. En procédant comme ci-dessus on montre que .s = i fi est la fonction conjuguée de la fonction .f1∗ f2∗ · · · fp∗ définie par
96
3 Dualité, Lagrangien, Points de Selle
[f1∗ f2∗ · · · fp∗ ] (z∗ ) =
.
inf ∗
x1 ,··· ,xp∗
[
p
fi∗ (xi∗ ) :
p
xi∗ = z∗ ].
i
i=1
On a alors s ∗ = f1∗ f2∗ · · · fp∗ ,
.
et
epi (f1∗ f2∗ · · · fp∗ ) =
epi (fi∗ ).
i
Les propriétés de permutation et d’associativité sur les sommes de fonctions convexes s’étendent de façon immédiates à l’inf-convolution de plusieurs fonctions.
3.6.2 Application proximale Considérons le problème .α = infx f (x) où .f : Rn → R est une fonction convexe sci et propre, ce qui implique .α < +∞. Sans hypothèses additionnelles, on peut avoir .α = −∞ ou, lorsque .α est fini, avoir absence de solutions optimales ou bien encore multiplicité des solutions. Dans ces cas, les algorithmes de résolution peuvent être à la peine. La méthode proximale est une façon de contourner ces difficultés. On se donne .r > 0 et on considère les fonctions .θr et .fr suivantes θr (x) =
.
x2 , 2r
fr (x) = (f θr )(x) = inf [ f (y) + y
1 x − y2 ] ∀ x ∈ Rn . 2r
Il est clair que α = inf [ fr (x) ] = inf [ f (y) +
.
x
x,y
1 x − y2 ]. 2r
x¯ ∈ Rn est solution du problème originel si et seulement si .(x, ¯ x) ¯ est solution du problème ci-dessus. La fonction .fr est convexe sci et propre car inf-convolution de deux fonctions convexes sci et propres. Pour tout .x ∈ Rn , il existe .yr (x) ∈ dom (f ) unique tel que
.
fr (x) = f (yr (x)) +
.
yr (x) − x2 1 = inf [ f (y) + x − y2 ]. y 2r 2r
Ainsi .dom (fr ) = Rn . La fonction conjuguée .fr∗ de .fr est donnée par fr∗ (x ∗ ) = (f θr )∗ (x ∗ ) = f ∗ (x ∗ ) +
.
En raison de l’expression (3.7) on a en .x ∈ Rn
r ∗ 2 x . 2
3.6 Inf-convolution et application proximale
97
∅ = ∂fr (x) = ∂f (yr (x)) ∩ {r −1 (x − yr (x))}.
.
La fonction .fr est différentiable en x puisque .∂fr (x) est réduit à un singleton. En conclusion, 1. 2. 3. 4.
La fonction .fr est convexe et différentiable en tout .x ∈ Rn . −1 (x − y (x)) ∈ ∂f (y (x)). .∇fr (x) = r r r r 2 .fr (x) = f (yr (x)) + ∇fr (x) . 2 f atteint son minimum en .x¯ si et seulement si .yr (x) ¯ = x. ¯ Voici un exemple simple de calcul de la fonction .fr et de son gradient.
Exercice 3.6 Considérons la fonction f définie par .f (x) = 2−1 Ax, x pour tout x où A est une matrice symétrique semi-définie positive. Alors, yr (x) = (I + rA)−1 (x),
.
fr (x) = 2−1 A(I + rA)−1 x, x.
On a bien ∇fr (x) = A(I + rA)−1 (x) = A(yr (x)) = ∇f (yr (x)).
.
.
Signalons maintenant, pour des besoins ultérieurs, les relations entre les graphes de ∂f et .∂fr
.
gph (∇fr ) = {(ry ∗ + y, y ∗ ) : (y, y ∗ ) ∈ gph (∂f )}, .
.
gph (∂f ) = {(x − rx ∗ , x ∗ ) : (x, x ∗ ) ∈ gph (∇fr )}.
(3.8) (3.9)
L’application qui à .x ∈ Rn associe .yr (x) est appelée proximale. Le vecteur .yr (x) est dit être l’approximation de Moreau (ou encore Moreau-Yosida) de x [80, 103]. Cette approximation dépend de f et de r. Lorsque .r = 1, l’approximation polynomiale .yr (x) est notée .prox f (x). Lorsque f est la fonction indicatrice d’un convexe fermé C non vide, .yr (x) n’est rien d’autre que la projection du point x sur l’ensemble C. La proposition suivante montre que l’approximation proximale est une application monotone non expansive. Proposition 3.10 Soit f une fonction convexe sci propre. Le minimum de f est ¯ En outre, pour tout .x1 , x2 ∈ Rn , atteint en .x¯ si et seulement si .x¯ = yr (x). 0 ≤ yr (x2 ) − yr (x1 )2 ≤ yr (x2 ) − yr (x1 ), x2 − x1 ≤ x2 − x1 2 ,
.
r 2 ∇fr (x1 ) − ∇fr (x2 )2 + yr (x1 ) − yr (x2 )2 ≤ x1 − x2 2 .
.
Preuve : Posons .y1 = yr (x1 ), .y2 = yr (x2 ),
98
3 Dualité, Lagrangien, Points de Selle
p1∗ = ∇fr (x1 ) =
.
1 (x1 − y1 ) ∈ ∂f (y1 ), r
p2∗ = ∇fr (x2 ) =
1 (x2 − y2 ) ∈ ∂f (y2 ). r
Les fonctions f et .fr sont convexes, donc 0 ≤ p1∗ − p2∗ , y1 − y2 =
1 [x1 − x2 , y1 − y2 − y1 − y2 2 ], r
0 ≤ p1∗ − p2∗ , x1 − x2 =
1 [x1 − x2 2 − y1 − y2 , x1 − x2 ]. r
.
.
D’où la première inégalité. D’autre part, r 2 ∇fr (x1 ) − ∇fr (x2 )2 = x1 − x2 − y1 + y2 2 ,
.
et donc r 2 ∇fr (x1 ) − ∇fr (x2 )2 + 2y2 − y1 , x2 − x1 = y1 − y2 2 + x1 − x2 2 .
.
Il suffit de combiner avec la première inégalité pour obtenir la seconde.
.
3.6.3 Méthode proximale Nous avons vu que f atteint son minimum en .x¯ si et seulement si .x¯ est point fixe de l’application .y : x → yr (x). La méthode proximale consiste à construire, partant d’un point .x0 ∈ dom (f ) arbitraire, la suite .{xk }k de la façon suivante : .xk+1 = yr (xk ), c’est-à-dire, à prendre pour .xk+1 la solution optimale du problème de minimisation fortement convexe fr (xk ) = inf [ f (y) +
.
y
1 y − xk 2 ]. 2r
Il existe des algorithmes itératifs efficaces basés sur la forte convexité pour l’obtention de valeurs approchées de .yr (xk ) et .fr (xk ). Puisqu’on doit avoir .r∇fr (xk ) = xk − xk+1 ∈ r∂f (xk+1 ), l’algorithme proximal (la méthode proximale) consiste à prendre .xk+1 tel que xk ∈ xk+1 + r∂f (xk+1 ).
.
C’est une méthode de point fixe, on a en effet xk+1 = (xk ) où
.
−1 (y) = y + r∂f (y).
Notons que la multiapplication . est univoque.
3.6 Inf-convolution et application proximale
99
La proposition 3.10 entraine r 2 ∇fr (xk+1 ) − ∇fr (xk )2 + xk+1 − xk+2 2 ≤ xk+1 − xk 2 ,
.
r 2 2xk+1 − xk − xk+2 2 + xk+1 − xk+2 2 ≤ xk+1 − xk 2 .
.
On en déduit la décroissance de la suite .{xk − xk+1 }k et la convergence de la suite {∇fr (xk+1 ) − ∇fr (xk )}k vers 0. Les fonctions f et .fr sont convexes et donc
.
1 f (xk+1 ) ≥ f (xk+2 ) + xk+1 − xk+2 , xk+1 − xk+2 , r
.
1 fr (xk+1 ) ≥ fr (xk ) + xk − xk+1 , xk+1 − xk . r
.
Mais aussi, fr (xk ) = f (xk+1 ) +
.
1 xk+1 − xk 2 , 2r
ce qui entraine 2 xk+1 − xk+2 2 ≤ 2r [ f (xk+1 ) − f (xk+2 ) ] ≤ xk+1 − xk 2 + xk+1 − xk+2 2 .
.
La suite .{f (xk )}k est donc décroissante, appelons l sa limite. 1. Si .l = −∞, alors .α = −∞. 2. Si .l > −∞, alors .xk+1 − xk → 0, .∇fr (xk ) → 0 et .fr (xk ) → l ≥ α lorsque .k → +∞. (a) Si .x¯ est valeur d’adhérence de la suite .{xk }k , alors .∇fr (x) ¯ = 0 et donc .f (x) ¯ = fr (x) ¯ = α = l. (b) S’il existe .a (non nécessairement unique) tel que .f (a) = α alors .∇fr (a) = 0 et .y(a) = a. La proposition 3.10 entraine pour tout k r 2 ∇fr (xk )2 + xk+1 − a2 ≤ xk − a2 .
.
La suite .{xk } est bornée, la suite .{xk − a} est décroissante, la suite .{xk } a donc une seule valeur d’adhérence qui est alors limite. La suite .{xk } tend donc vers une solution du problème d’optimisation. (c) Lorsque .l > α, la suite .{xk } est non bornée et nous sommes en présence d’une suite .{(xk , xk∗ )}k ⊂ gph (∂f ) où la suite .{xk∗ } converge vers 0 mais où la suite .{f (xk )} ne converge pas vers l’infimum de f . Une telle fonction f est dite avoir un mauvais comportement asymptotique. Un exemple d’une telle fonction est la fonction f définie sur l’orthant positif de .R2 par 2 −1 . Considérer la suite .{(i, i 2 )} , alors .f (x , y ) = 1 > 0 = α .f (x, y) = x y i i i pour tout i et .∇f (xi , yi ) → 0 lorsque .i → ∞.
100
3 Dualité, Lagrangien, Points de Selle
On montre facilement que f convexe sci propre a un mauvais comportement asymptotique si et seulement s’il en est de même de la fonction .fr , .r > 0 étant donné.
3.7 Algorithmes de programmation linéaire 3.7.1 L’algorithme du simplexe L’algorithme du simplexe a été publié par G. Dantzig en 1947 (sur l’histoire du simplexe et de ses applications, voir [33]). Très vite, accompagné par les débuts de l’informatique, il a été utilisé dans de très nombreux domaines : production, gestion optimale des ressources, des approvisionnements, planification, alimentation et agriculture, transports. Il est basé sur des transformations matricielles élémentaires. Considérons le problème de programmation linéaire mis sous la forme canonique α = sup [ , x : x ∈ P ]
.
x
où P = {x ∈ Rn : x ≥ 0, Ax ≤ a }
(P L)
où A est une matrice .m × n, . ∈ Rn et .a ∈ Rm . On suppose P non vide. Son dual est α = inf [ a, z : z ∈ D ] où D = {z ∈ Rm : z ≥ 0, At z ≥ }
.
z
(P LD)
Introduisons une variable auxiliaire .x ∈ Rm . Construisons ensuite la matrice .B = (A Im ) et le vecteur .d = (, 0) ∈ Rn × Rm . B est une matrice .m × (n + m) de rang m. En prenant .u = (x, x ), (PL) se met sous la forme équivalente α = sup [ d, u : u ∈ Q ] où Q = {u ∈ Rn+m : u ≥ 0, Bu = a }.
.
(P L0)
u
On sait que si le supremum est fini, il est atteint en un des sommets du polyèdre convexe P . Un point .x ∈ P est un sommet de P si le vecteur .u = (x, a − Ax) a n composantes nulles et les autres positives ou nulles. Ainsi le nombre de sommets (n + m)! , nombre de combinaisons de n éléments parmi .n + m. est au plus égal à . n! m! Sur un plan purement théorique, (PL) peut être résolu en un nombre fini d’opérations élémentaires, il suffit de considérer tous les points de .Rn+m ayant au moins n composantes nulles, retenir parmi eux ceux qui sont dans P et prendre parmi les retenus ceux qui donnent le maximum de ., x. Malheureusement, ce qui est possible pour de petites dimensions de n et m ne l’est plus pour les problèmes impliquant de grandes dimensions comme la gestion des réseaux téléphoniques, réseaux de distribution d’électricité, . . . . car le nombre de combinaisons croit de façon exponentielle avec n et m.
3.7 Algorithmes de programmation linéaire
101
Grossièrement, l’algorithme du simplexe consiste à se déplacer de points voisins en points voisins de P tout en augmentant ., x. Deux sommets .x1 et .x2 de P sont dits voisins si les vecteurs .u1 = (x1 , a − Ax1 ) et .u2 = (x2 , a − Ax2 ) partagent .(n − 1) composantes nulles. Par abus de langage, on dira que .u1 et .u2 sont des sommets voisins de Q. Nous allons présenter l’algorithme dans le cas .0 ∈ P , c’est-à-dire .a ≥ 0. Nous indiquerons plus tard comment traiter le cas contraire. A l’étape k de l’algorithme, on est en présence du tableau suivant k a11 k a21 ... . ... k am1 d1k π1
k a12 k a22 ... ... k am2 d2k π2
... ... ... ... ... ... ...
... ... ... ... ... ... ...
k a1n k a2n ... ... k amn dnk πn
1 0 ... ... 0 0 πn+1
0 1 ... ... 0 0 πn+2
... ... ... ... ... ... ...
... ... ... ... ... ... ...
0 0 ... ... 1 0 πn+m
a1k a2k ... ... k am γk
L’algorithme est initialisé avec .A0 = A, .a 0 = a, .γ 0 = 0, .d 0 = d et 0 .(π1 , π2 , · · · , πn+m ) = (1, 2, · · · , n + m). Il correspond au sommet .u = (0, a) 0 0 de Q. Remarquons que .γ = −d, u = 0. Décrivons maintenant le passage du tableau k au tableau suivant. 1. 2. 3. 4.
Cas .d k ≤ 0. Aller en A). Choisir i tel que .dik > 0. Cas .ajki ≤ 0 ∀ j . Aller en B). Calculer .tk = maxt [ t ≥ 0 : ajk ≥ tajki ∀ j ]. Lorsque .tk = 0, on parle de dégénérescence, nous en discuterons plus tard. Traitons le cas .tk > 0. Choisissons j tel que .ajk = tk ajki . L’obtention du tableau .k + 1 à partir du tableau k est obtenu par une adaptation de la méthode des pivots utilisée pour la résolution de systèmes linéaires dans l’algorithme de Gauss. (a) On divise tous les éléments de la ligne j par .ajki , ainsi .ajki devient égal à 1 et k .a devient égal à .tk . j (b) On retranche à la ligne .l = 1, · · · , m, .l = j , .alik fois la ligne j . Par construction, .alik devient égal à 0 pour .l = j . (c) De même, on retranche .dik fois la ligne j à la ligne correspondant au vecteur d. .dik devient nul et .γk est diminué de .tk dik . (d) On permute la colonne i avec la colonne .n + j . On a ainsi obtenu le tableau .k + 1.
Etudions les effets de ces opérations. Notons par .k la matrice de permutation telle que .v = k u lorsque .vl = uπl pour .l = 1, 2, · · · , n + m. Rappelons
102
3 Dualité, Lagrangien, Points de Selle
que .−1 = tk . Posons .Bk = (Ak Im ). Les résultats suivants sont obtenus par k récurrence et construction. — — — — —
Il existe une matrice .Pk inversible telle que .Pk Bk k = B et .Pk a k = a. k k k k k .a ≥ 0, .tk = a et .γk+1 = γ − d a . j i j Posons .v k = (0, a k ), alors .uk = tk v k est un sommet de Q. k k k .d n+l = 0 pour .l = 1, · · · , m et donc .d , v = 0. Soit .u ∈ Q. Puisqu’à des permutations près .d k+1 est la différence de .d k avec k t k .d fois la colonne j de .B et .(Bk k u)j = a = tk on a i k j k+1 d k+1 , u = k d k , u − tk dik = k d k , u + γk − γk+1
.
∀ u ∈ Q,
puis par récurrence, pour tout k, puisque .d 0 = d, k d k , u = d, u − γk
.
∀ u ∈ Q.
Donc, en particulier, puisque .d k+1 , v k+1 = 0, .d, uk+1 = −γk+1 . — Puisque la fonction .u → d − k d k , u est constante sur Q γk = max [ d − k d k , u ] = min [ d − k d k , u ],
.
u∈Q
u∈Q
on obtient, à partir des conditions d’optimalité appliquées et au maximum et au minimum, .d − k d k ∈ B t (Rm ). A) Pour tout .u ∈ Q, on a .d k , tk u ≤ 0 et donc .d, u ≤ d, uk . En conséquence, .uk est solution optimale du problème .(P LO) et .α = −γ k . Posons .u¯ = (x, ¯ a − Ax) ¯ = uk et .v¯ ∗ = −k d k . Alors .α = , x, ¯ .u¯ ∈ Q, ∗ ∗ .v ¯ ≥ 0 et .v¯ , u ¯ = 0. La condition .k d k ∈ d + B t (Rm ) entraine ∃ v2∗ ∈ Rm tel que v¯ ∗ = (At v¯2∗ − , v¯2∗ ) ≥ (0, 0).
.
On voit ainsi que .v¯2∗ ∈ D puis que .v¯2∗ est solution optimale du problème dual .(P LD). Fin de l’algorithme. B) Tout en gardant .vj = 0 pour .j = 1, 2, · · · , n, .j = i et en prenant .vi = t > 0 et .vn+j = ajk − tajki pour .j = 1, · · · , m, on conserve .v ≥ 0 et .Bk v = a k . La valeur de .d k , v et donc aussi celle de .d, tk v a augmenté de .tdik . C’est possible pour tout .t > 0, donc .α = +∞. Fin de l’algorithme. Lorsque .0 ∈ / P , on trouve un sommet de départ en résolvant le problème auxiliaire suivant ξ = max [ 0, x − t : x ≥ 0, t ≥ 0, Ax − tem ≤ a ].
.
x,t
(aux)
3.7 Algorithmes de programmation linéaire
103
P est non vide si et seulement si .ξ = 0. Les solutions optimales sont des sommets de P . D’un point de vue pratique on rajoute une colonne et une ligne au tableau qui devient ⎞ A −em Im a . ⎝ 0 −1 0 δ ⎠, d 0 0 γ ⎛
avec .δ = γ = 0. Pour simplifier, nous n’avons pas fait figurer la ligne permutation. On applique la méthode du simplexe aux 2 premières lignes à la résolution du problème .(aux) tout en enregistrant sur la troisième ligne les modifications apportées au vecteur d par les changements de base successifs. Aussitôt 0 atteint, on supprime la ligne m et la colonne .n + 1 et on revient au simplexe. Un autre procédé populaire est la méthode dite du “big M”. On applique l’algorithme du simplexe au problème .
max [ , x + 0, x + Mem , x : x ≥ 0, x ≥ 0, x ≥ 0, Ax + x − x = a ].
x,x ,x
Si .aik < 0, on multiplie la ligne i par .−1 pour obtenir .a > 0. On obtient un sommet initial pour ce problème (.n + m variables parmi les .n + 2m étant nulles), on écrit le tableau en conséquence. Une très grande valeur de .M > 0 fait que si P est non vide après un nombre fini d’étapes on se déplace sur le polyèdre initial, il convient alors de supprimer les colonnes devenues inutiles. Hormis le cas de la programmation linéaire en variables entières et lorsque les données du problème .(P ) proviennent de mesures, la probabilité de survenue de dégénérescences dans l’algorithme est à peu près nulle. Certaines méthodes pour traiter les dégénérescences, sont basées sur l’ordre lexicographique, d’autres sont basées sur des perturbations, cela dépasse le cadre d’une introduction à la méthode du simplexe. On obtient un algorithme dual en le transposant à la formulation .(P LD). L’équivalent de la matrice B sera la matrice .(At − In ). Comme dans l’algorithme primal on obtient des solutions optimales des problème primal et dual. L’algorithme de Remez pour l’approximation d’une fonction continue au sens de la norme uniforme peut être considéré comme un des prédécesseurs de l’algorithme du simplexe, tous deux sont basés sur un principe d’échanges.
Interprétation du dual et étude de la sensibilité Nous avons vu que l’algorithme du simplexe permet d’obtenir en même temps une solution du problème primal et une solution du problème dual. Il donne ainsi des informations sur le comportement de la solution du problème primal lorsque le vecteur a varie. Pour cela, considérons la fonction
104
3 Dualité, Lagrangien, Points de Selle
θ (a) = sup [, x : Ax ≤ a ] = sup [, x − δE (x, a) ],
.
x≥0
x≥0
où δE (x, a) = 0 si (x, a) ∈ E := {(x, a) : x ≥ 0, Ax ≤ a}, +∞ sinon.
.
La fonction .θ est concave et positivement homogène. Le résultat suivant relie le surdifférentiel .∂s θ (a) de .θ au point a à l’ensemble des points solutions du problème dual .(P LD) de .(P L). Proposition 3.11 L’ensemble ∂s θ (a) = {a ∗ : θ (a ) ≤ θ (a) + a ∗ , a − a
.
∀ a ∈ Rm }
coïncide avec l’ensemble des solutions optimales du problème .(P LD). Preuve : .a ∗ ∈ ∂s θ (a) si et seulement si θ (a) − a ∗ , a = sup [ , x − a ∗ , a : x ≥ 0, Ax − a ≤ 0 ].
.
x,a
Par dualité, θ (a) − a ∗ , a = inf [ 0, u∗ : At u∗ ≥ , u∗ = a ∗ ]. ∗
.
u ≥0
Donc .a ∗ ∈ ∂s (a) si et seulement si .a ∗ ≥ 0, .At a ∗ ≥ et .θ (a) = a ∗ , a, la proposition est prouvée. . Donnons une interprétation de ce résultat. Supposons que .(P L) provienne de la modélisation du problème suivant “Comment une entreprise doit-elle utiliser au mieux le stock de fournitures .a ∈ Rm dont elle dispose pour fabriquer n types de produit de prix unitaire .1 , 2 , · · · , n sachant que la fabrication de n .x ∈ R nécessite la quantité .Ax ∈ Rm de fournitures ?”. Pour simplifier l’interprétation supposons que .(P LD) admette une solution optimale unique, .θ est alors différentiable en a et le vecteur .∇θ (a) indique le prix virtuel unitaire des fournitures. Lorsque .θ n’est pas différentiable en a pour déterminer les prix virtuels des fournitures, il faudra utiliser les dérivées directionnelles de .θ en a. Pour le problème dual on considère la fonction μ( ) = inf [a, z : At z ≥ ] = inf [a, z + δF (z, ) ],
.
z≥0
z≥0
où δF (z, ) = 0 si (z, ) ∈ F = {(z, ) : z ≥ 0 : At z ≥ }, +∞ sinon.
.
La fonction .μ est donc convexe et positivement homogène. Le résultat suivant relie le sous-différentiel .∂μ( ) à l’ensemble des points solutions du problème .(P L).
3.7 Algorithmes de programmation linéaire
105
Proposition 3.12 .−∂μ( ) coïncide avec l’ensemble des solutions optimales du problème .(P L). Preuve : .v ∈ ∂μ( ) si et seulement si μ( ) − v, = inf [ v, − a, z : z ≥ 0, At z − ≤ 0 ].
.
z,
Par dualité, μ( ) − v, = sup [ 0, w : −a ≤ Aw, w = −v ].
.
w≥0
On en déduit le résultat
.
Voici un exemple correspondant au problème .(P LD). “Un investissement .zj de coût .aj zj fournit la quantité .aj i du produit i. Il doit en être fourni la quantité .i . Déterminer le plan d’investissement de coût minimal.” La réponse est donnée par la solution optimale du problème .(P LD). Si .(P L) a une solution optimale unique, cette solution correspond à .−∇μ( ). L’algorithme du simplexe fournit donc en même temps une solution optimale du problème primal, une solution optimale du problème dual et donne des informations sur leur comportement en face de variations des quantités a et . .
3.7.2 L’algorithme de Karmarkar Le cheminement de l’algorithme du simplexe permet de n’avoir à considérer qu’une partie parmi les sommets du polyèdre et il s’est montré efficace dans beaucoup d’applications à des modélisations de problèmes de toute nature issue de la vie réelle. Pendant 40 ans il a régné en maître pour la résolution des problèmes de programmation linéaire. Les problèmes d’acheminement des communications longue distance à résoudre en temps réel induisent des problèmes de programmation linéaire de très grande taille mais avec des matrices très creuses, N. Karmarkar [58] travaillant chez AT&T introduisit en 1984 un nouvel algorithme spécialement adapté que l’on peut apparenter à des méthodes de points intérieurs. Ce fut un des premiers algorithmes mathématiques pour lequel un brevet a été déposé. Google Scholar fait état de plus de 12000 articles consacrés à cet algorithme, un nombre record pour un article mathématique.
106
3 Dualité, Lagrangien, Points de Selle
Mise sous la forme canonique de Karmarkar d’un programme de programmation linéaire Considérons les problèmes duaux suivants .
sup [ v2 , z∗ : z∗ ≥ 0, M t z∗ ≤ v1 ],
inf [ v1 , z : z ≥ 0, Mz ≥ v2 ], z
z∗
où M est une matrice .q × r, .v1 ∈ Rr , .v2 ∈ Rq et avec l’hypothèse suivante : .z > 0 et .z∗ > 0 existent tels que .Mz > v2 et .M t z∗ < v1 . On ne considère pas le cas trivial .(v1 , v2 ) = (0, 0). Après adjonction des variables d’écart les problèmes reviennent à ¯ u¯ ∗ ) solution optimale de trouver .y¯ = (¯z, z¯ ∗ , u, .
min [ c1 , y : y ≥ 0 et y
.
M 0 −Iq 0 0 M t 0 Ir
avec C =
Cy = c2 ],
(L)
⎞ v1t ⎜ −v t ⎟ 2 ⎟ , c = v2 , , c1 = ⎜ 2 ⎝ 0 ⎠ v1 0 ⎛
On a alors .c1 , y ¯ = 0. En raison de l’hypothèse, l’ensemble des solutions du problème .(L) est un convexe compact non vide. Il s’ensuit {y : c1 , y = 0, y ≥ 0, Cy = 0} = {0}.
.
En conséquence, .y¯ est solution optimale de .(L) si seulement si .w¯ = (y, ¯ 1) = (0, 0) est solution du problème .
min [ d, w : w ≥ 0, Dw = 0 ], w
.
avec D =
M 0 −Iq 0 −v2 0 M t 0 Ir −v1
, d=
c2 0
,
On alors .d, w ¯ = 0. Introduisons maintenant la matrice B et le vecteur b comme suit ⎛
⎞ M 0 −Iq 0 −v2 v2 − Mer − eq 0n−1 t t ⎝ ⎠ . .B = 0 M 0 Ir −v1 v1 + M eq + er , b = 1 v1t −v2t 0 0 0 −v1t er + v2t eq Posons .n = 2q + 2r + 2 et .p = q + r + 1. Puisque .(v1 , v2 ) = (0, 0), B est une matrice .p × n de rang p, .b ∈ Rn . Par construction, .Ben = 0 et .b, x ≥ 0 pour tout .x ≥ 0. Le vecteur .y ¯ = 0 est solution optimale de .(L) si et seulement si .x¯ = (y, ¯ 1, 0) est tel que .x¯ ≥ 0, .b, x ¯ = 0 et .B x¯ = 0.
3.7 Algorithmes de programmation linéaire
107
Appelons P la matrice projection sur le sous-espace vectoriel .{y : By = 0}. P = (In − B t (BB t )−1 B) et .Bx = 0 si et seulement si .x = P x. Pour tout x tel que .Bx = 0 on a .b, x = b, P x = P b, x. 1 On pose .a = P b. Il s’ensuit .a = P a et .a, en = 1. b, en .
La forme canonique Nous venons de ramener la résolution de nos deux problèmes duaux à la résolution du problème suivant trouver x¯ ≥ 0 tel que a, x ¯ = 0, B x¯ = 0, et x¯ = 0,
.
(K)
où .a ∈ Rn et B matrice .p × n de rang p sont tels que .a, en = 1, .a = (In − B t (BB t )−1 B)a, .Ben = 0 et 0 = min [ a, x : Bx = 0, x ≥ 0 ].
.
x
Si .x¯ est solution, il en est de même de .λx¯ pour tout .λ > 0. L’algorithme de Karmarkar est basé sur la minimisation de la fonction f suivante f (x) = a, xn
n .
.
xi−1
i=1
sur l’ensemble .D := {x > 0 : Bx = 0}. Partant de .x 0 = en , il construit une suite de points .x k ∈ D telle que la suite .{f (x k )} converge vers 0. On dit que f est la fonction potentielle, prise ici sous sa forme multiplicative, associée au problème .(K). Cette fonction est positivement homogène de degré zéro, c’est-à-dire .f (kx) = f (x) pour tout .k > 0 et .x ∈ D.
Convexité de la fonction potentielle Introduisons l’ensemble E := {(t, x) ∈ R × Rn : t > 0, x > 0, en , x = n},
.
Théorème 3.11 Pour tout .m ≥ n la fonction .hm : E → R définie par hm (t, x) := t m
n .
.
i=1
est convexe sur E.
xi−1
∀ (t, x) ∈ E
108
3 Dualité, Lagrangien, Points de Selle
Preuve : Posons .X = diag (x). En tout .(t, x) ∈ E, ∇ 2 hm (t, x) . = hm (t, x)
−mt −1 X−1 en (m2 − m)t −2 −1 t −1 −1 −mt en X X (In + en ent )X−1
.
Ainsi la fonction .hm est convexe sur .E si et seulement si pour tout .x > 0 tel que ent x = n on a, pour tout .λ ∈ R et tout .v ∈ Rn tel que .et v = 0,
.
/ 2 0 −mt −1 X−1 en λ λ (m − m)t −2 . , ≥ 0. −1 t −1 −1 t −1 −mt en X X (In + en en )X v v Posons .μ = λ/t et .d = X−1 v, .hm est convexe sur .E si et seulement si pour tout t .x > 0 tel que .en x = n m(m − 1)μ2 − 2mμ d, en + d2 + d, en 2 ≥ 0 ∀ μ, ∀ d tel que x t d = 0,
.
soit encore, si et seulement si, (m − 1)d2 − en , d2 ≥ 0 ∀ d tel que x t d = 0.
.
Si cela est vrai pour .m = n, cela est vrai aussi lorsque .m > n. On peut se limiter aux .d ≤ 1, ce qui conduit à montrer A(d) := inf [ (n − 1)d2 − en , d2 : x t d = 0, d2 ≤ 1 ] ≥ 0.
.
d
Il existe au moins une solution optimale d et la condition nécessaire d’optimalité implique l’existence de .α, β ∈ R tels que .d = αen + βx. Rappelons que .x t d = 0 et .x t en = n. On obtient alors
n nx n 2 2 , d 1 − , e , d = α en − = nα , d = nα 1 − n x2 x2 x2
.
1− .A(d) = nα 2
n x2
n2 −1 . x2
A(d) ≥ 0 puisque .x > 0 et .ent x = n entrainent .n ≤ x2 < n2 .
.
.
On prolonge maintenant par sci-continuité la fonction .hm sur .E. La fonction ainsi obtenue est convexe sci et prend la valeur .+∞ en dehors de l’orthant positif. Donnons-nous maintenant .0 < s ∈ Rn et considérons l’ensemble Es := {(t, x) ∈ R × Rn : t > 0, x > 0, s, x = n}.
.
3.7 Algorithmes de programmation linéaire
109
Un simple changement de variable permet d’affirmer que la fonction .hm est convexe sur .Es lorsque .m ≥ n. Corollaire 3.1 Le polyèdre convexe .P = {x ∈ Rn : x ≥ 0, Ax = a} = ∅, avec q .0 = a ∈ R et A matrice .q × n, est compact si et seulement si .u ¯ ∈ Rq et .α > 0 t t existent tels que .A u¯ > 0 et .P ⊂ {x : A u, ¯ x = α}. Il s’ensuit que la fonction .hm est convexe sur .] 0, ∞ [×P lorsque .m ≥ n. Preuve : Supposons P compact. Alors, 0 < α := sup[ en , x : Ax = a ] = inf[ a, u : At u ≥ en ] < +∞.
.
u
x≥0
Il existe donc .u¯ ∈ Rq tel que .At u¯ ≥ en > 0 et .a, u ¯ = α > 0. La réciproque est évidente. Prenons .s = nα −1 At u. ¯ Alors .] 0, ∞ [×P ⊂ Es . . Ces résultats s’utilisent comme suit: plaçons nous dans le cas où .G ⊂ P est un convexe fermé, P défini comme ci-dessus est borné et .g : G → R est une fonction convexe sci telle que .g(x) ≥ 0 pour tout .x ∈ G. Alors, si .m ≥ n, la fonction .gm définie pour .x > 0, x ∈ G par gm (x) = inf [ t m
.
t
n . i=1
xi−1 : t ≥ g(x) ] = g m (x)
n .
xi−1
i=1
que l’on prolonge par sci-continuité sur G est convexe car fonction marginale d’une fonction convexe. Revenons à la fonction potentielle f . Le vecteur .0 < s ∈ Rn étant donné, on pose .Cs := {x ∈ Rn : x > 0, Bx = 0, s, x = n}. La fonction f prolongée par semi-continuité inférieure est alors convexe sur .Cs . ¯ La Résoudre le problème .(K) revient à trouver .x¯ ∈ Cs tel que .0 = f (x). fonction f prenant la valeur .+∞ lorsque x n’appartient pas à .[ 0, ∞[n , l’algorithme s’apparente à la classe des méthodes barrières, cependant à la différence des fonctions barrières traditionnelles, il n’y a pas de paramètre de pénalité associé à la fonction et il n’est donc point besoin d’étude de convergence en fonction du paramètre. Pour simplification d’écriture on notera .C l’ensemble .Cs lorsque .s = en .
Le principe de l’algorithme L’algorithme est une méthode de descente traditionnelle. Partant de .x 0 = en , il génère une suite de points .x k ∈ {x > 0 : Bx = 0, en , x = n} telle que la suite .{f (x k )} est strictement décroissante et converge vers 0. Puisque .maxx [xi : x ≥ 0, en , x = n] = 1 on a .a, x k n ≤ f (x k ). La suite .{a, x k } converge alors également vers 0.
110
3 Dualité, Lagrangien, Points de Selle
Plaçons-nous à l’étape k. Soit .δ un pas de déplacement à partir de .x k , donc tel que .Bδ = 0. Pour simplification d’écriture, dans ce qui suit, on omettra la référence à l’indice k pour d et .δ. On a f (x k ) Xk a, en + dn a, x k + δn 1 = f (x k )fk (en + d), = f (x k + δ) = 1 k k n a, x (1 + d ) (x + δ ) i i i i i
.
.
où Xk = diag (x k ), d = (Xk )−1 δ et fk (y) =
Xk a, yn 1 . a, x k n i yi
Par construction, .fk (en ) = a, en = 1. Posons .Bk = BXk . La matrice .Bk est de rang p, .Bk d = 0 et Xk a, en + d = Xk a, Pk (en + d) = Pk (Xk a), en + d
.
où .Pk = (In − Bkt (Bk Bkt )−1 Bk ) est la matrice de projection sur le sous-espace vectoriel .{y : Bk y = 0}. On prend ensuite a k = Pk
.
Xk a . a, x k
de manière à avoir .a k = Pk a k et .a k , en = 1. On a alors .Bk a k = 0 et a k , yn fk (y) = 1 . i yi
.
On est donc amené à minimiser la fonction .fk sur D. Pour bénéficier de la convexité et, en tenant compte de la positive homogénéité de degré zéro, nous minimiserons .fk sur C. Une direction de descente d au point .en étant choisie, donc telle que .Bd = 0 et .en , d = 0, le pas de descente .tk est obtenu par une minimisation (approchée) de la fonction .μ(t) = fk (en + td). Au point .y k+1 = en + tk d pour la fonction .fk correspond pour la fonction .f le point . x k+1 = Xk y k+1 = x k + tk Xk d = xk + tk δ. On a alors (Xk )−1 en , δ = 0,
.
f ( x k+1 ) = f (x k )fk (y k+1 ).
On procède ensuite à la normalisation x k+1 =
.
n x k+1 , en , x k+1
de manière à conserver .x k+1 , en = n. Par construction, .Bx k+1 = 0 et .f (x k+1 ) = f ( x k+1 ). On fait .k = k + 1 et on retourne à l’étape k.
3.7 Algorithmes de programmation linéaire
111
Recherche d’une direction de descente La direction de descente d, de type Newton, est obtenue en résolvant le problème .
1 min [ ∇ 2 gk (en )d, d + ∇gk (en ), d : Bk d = 0, en , d = 0 ], d 2 k . où gk (y) = ln fk (y) = n ln(a , y) − ln(yi ). i
A un facteur multiplicatif près, cette direction est identique à celle obtenue pour la fonction .fk . Puisque .a k , en = 1, on a ∇gk (en ) = na k − en ,
.
∇ 2 gk (en ) = In − na k [a k ]t ,
d est solution si et seulement s’il existe .λ ∈ R et .u ∈ Rp tels que (In − na k [a k ]t )d + na k − en = λen + Bkt u et Bk d = 0, en , d = 0.
.
On doit avoir d = (λ + 1)en + n(d, a k − 1)a k + Bkt u.
.
D’une part, puisque .Bk en = Bk d = Bk a k = 0 et .Bk est de rang p, 0 = n(d, a k − 1)Bk a k + Bk Bkt u = Bk Bkt u,
.
puis u = 0.
D’autre part, puisque .ent d = 0 et .ent a k = 1, 0 = n(λ + 1) + (d, a k − 1).
.
La direction étant choisie à un facteur multiplicatif près, on prendra d = en − na k = −n (In −
.
en ent k )a . n
On aura alors d2 = n2 a k 2 − n,
.
a k , d = 1 − na k 2 = −d2 /n.
Les sommets du polyèdre convexe .S0 := {x ≥ 0 : ent x = n} sont les vecteurs .nεi où les .εi sont les vecteurs de la base canonique de .Rn . .S0 est donc √ contenu dans la sphère de centre .en qui circonscrit les sommets. Son rayon est . n(n − 1). Donc
112
3 Dualité, Lagrangien, Points de Selle
S0 ⊂ S+ := {z : z − en ≤
.
* n(n − 1), en , z − en = 0}.
La distance du point .en à la frontière relative de l’ensemble .S0 est égale à la distance du point .en au barycentre des .n − 1 vecteurs .nεi , i = 1, · · · , n − 1. On en déduit l’inclusion 2 n , en , z − en = 0} ⊂ S0 . .S− := {z : z − en ≤ n−1 Donc .
inf [a k , z − en : Bz = 0 ] ≥ inf [a k , z − en : Bz = 0 ]
z∈S−
z∈S0
≥ inf [a k , z − en : Bz = 0 ]. z∈S+
Par hypothèse .Ben = 0 et .
− 1 = inf [a k , z − en : z ≥ 0, en , z − en = 0, Bz = 0]. z
Ce qui implique 2 n en ent k en ent k * )a ≥ −1 ≥ −(In − )a n(n − 1), . − (In − n n−1 n .
1 en ent k 2 n − 1 ≤ (In − )a ≤ , n(n − 1) n n .
n ≤ d2 ≤ n(n − 1). n−1
(nd)
Recherche linéaire La phase suivante consiste à minimiser la fonction .μ définie par a k , en + tdn (1 + ta k , d)n = fk (en ) 1 . μ(t) = fk (en + td) = 1 i (1 + tdi ) i (1 + tdi )
.
La convexité de cette fonction se déduit du théorème 3.11. Il nous faut minimiser la fonction .θ définie par . θ (t) = ln(μ(t)) = n ln(1 − t
.
d2 ln(1 + tdi ). )−m (t) avec m (t) = n i
3.7 Algorithmes de programmation linéaire
113
Rappelons que d’une part .ent d = 0 et que d’autre part .d est connu. Intéressonsnous au problème suivant [28] m(t) = min (max) [
.
u
u
ln(1 + tui ) : ent u = 0, u2 = d2 ].
i
Une condition nécessaire d’optimalité, théorème 3.5, en u est l’existence de .λ et .μ tels que .
1 = λ + μui 1 + tui
∀ i,
μtu2i + (λt + μ)ui + λ − 1 = 0
.
∀ i.
Les .ui sont donc racines de cette équation du deuxième degré. Appelons .r+ et .r− ces deux racines. Soit p le nombre des .ui prenant la valeur .r+ et .q = n − p le nombre des .ui prenant la valeur .r− . Donc, pr+ + qr− = 0,
.
2 2 pr+ + qr− = d2 .
Puisque .d = 0, une des racines est strictement positive, l’autre strictement négative et donc .0 < p < n. On impose .r+ > 0 > r− . Alors, 2 r+ = d
.
3 mp (t) = p ln(1 + td
.
q , r− = −d np
2
p , nq
n−p ) + (n − p) ln(1 − td np
2
p ). n(n − p)
Les fonctions .mp sont concaves et on a m (0) = m (0) = mp (0) = mp (0) = 0, m (0) = mp (0) = −d2 .
.
On laisse au lecteur le soin de montrer que le minimum correspond à .p = n − 1 et ≤ m1 et en particulier le maximum à .p = 1. On a alors .mn−1 ≤ m 3 m (t) ≥ (n − 1) ln(1 + td
.
2 1 (n − 1) ) + ln(1 − t d ), n(n − 1) n
et donc pour .t > 0, .θ (t) ≤ θ (t) avec d2 θ (t) = n ln(1−t . )−(n−1) ln(1+td n
3
2 1 (n − 1) )−ln(1−t d ). n(n − 1) n
114
3 Dualité, Lagrangien, Points de Selle
Posons, pour simplification, .s = d θ (t) = n ln(1 −
.
+
n−1 n .
Alors .1 ≤ s ≤ n − 1 et
ts 2 ts ) − (n − 1) ln(1 + ) − ln(1 − ts) ). n−1 n−1
θ est le logarithme d’une fonction On déduit du théorème 3.11 que la fonction . θ (t¯) = 0. Déterminons .t¯ convexe, son minimum est atteint en .t¯ tel que . .
.
θ (t) −ns 1 n−1 = + , − 2 s n − 1 + ts 1 − ts n − 1 − ts
θ (t) −1 t . = + 2 2 2 2 ns n − 1 − ts n − 1 − t s − (n − 2)ts
On en déduit n−1 , n − 1 + (n − 2)s
t¯ =
.
θ (t¯) = ln(1 + s) + (n − 1) ln(1 −
s ). n−1
La fonction .ξ définie par ξ(s) = ln(1 + s) + (n − 1) ln(1 −
.
s ) n−1
est concave décroissante. ξ(1) = ln(2) + (n − 1) ln(1 −
.
1 ), n−1
ξ (1) =
ξ(s) ≤ ξ(1) + (s − 1)ξ (1) = ln(2) + (n − 1) ln(1 −
.
−n 2(n − 2)
n(s − 1) 1 )− . n−1 2(n − 2)
On obtient fk (en +tk d) ≤ 2 e−1 ,
.
f (x k+1 ) = f (x k )fk (y k+1 ) ≤ 2 e−1 f (x k ) < 0, 736 f (x k ).
La suite .{f (xk )} converge donc linéairement vers 0. Puisque la fonction f est convexe sci sur le convexe compact .C = { x ≥ 0 : Bx = 0, en , x = n} et la suite .{xk } est contenue dans .C, la suite a des valeurs d’adhérence. Pour toute valeur d’adhérence .x¯ on a .f (x) ¯ = 0, ce qui signifie que .x¯ est solution du problème (K). Finalement, la suite .{a, xk } converge vers 0.
3.7 Algorithmes de programmation linéaire
115
L’algorithme en résumé Le problème étant mis sous la forme canonique de Karmarkar, l’algorithme est comme suit : x 0 = en .
Initialisation : Etape k :
.
a k est la projection de bk :=
.
d k = en − na k ,
.
Xk a sur le sous-espace {y : BXk y = 0}, a, x k √ n(n − 1) , tk = √ n(n − 1) + (n − 2) dk
x k+1 = x k + tk (Xk )−1 d k ,
x k+1 =
.
n x k+1 . en , x k+1
k = k + 1 et retour à l’étape k.
.
Le seul calcul non trivial consiste dans la détermination de .a k . Ceci est fait en résolvant le système linéaire .
In Xk B t BXk 0
ak u
=
bk 0
.
Dans les applications, par exemple celles rattachées aux télécoms, où les matrices sont de grandes dimensions mais sont très creuses avec des formes spécifiques, des algorithmes adaptés permettent des résolutions rapides des systèmes linéaires successifs. Penchons-nous maintenant sur les différents points de cet algorithme qui a révolutionné la programmation linéaire : — La transformation, par adjonction du problème dual, des variables d’écart et de variables auxiliaires en un problème de minimisation d’une fonction f potentielle positivement homogène de degré 0 sur l’ensemble .{x ≥ 0 : x = 0, Bx = 0}. Le caractère barrière de la fonction f permet de prendre en compte les contraintes de positivité. — Partant de .x0 = en , l’algorithme génère une suite de points .x k > 0 appartenant à l’ensemble .{x : Bx = 0, en , x = n}. — A l’étape k on introduit une fonction auxiliaire .fk à minimiser sur l’ensemble t .{y : BXk y = 0, en y = n}, .fk est convexe sur cet ensemble. A la solution optimale approchée .y k+1 correspond le point . x k+1 solution optimale approchée
116
3 Dualité, Lagrangien, Points de Selle
de la minimisation de f sur l’ensemble .{x : Bx = 0, Xk−1 en , x = n}. Cet ensemble change à chaque itération. La positive homogénéité de f de degré zéro permet de normaliser . x k+1 afin d’obtenir .x k+1 ∈ {x > 0 : Bx = 0, en , x = n}. La convergence de .f (x k ) vers 0 est linéaire. La fermeture de l’ensemble C étant compacte, toute valeur d’adhérence de la suite .{x k } est solution de .(K).
Chapter 4
Monotonie et maximale monotonie
4.1 Introduction aux inéquations variationnelles Considérons le problème qui consiste à minimiser une fonction convexe .f : Rn → R sur un convexe fermé .C ⊂ Rn . Posons . = ∂f et définissons la bifunction n n .h : R × R → R par .h(x, d) = f (x, d) où .f (x, d) est la dérivée directionnelle de f en x dans la direction d. Voici trois formulations équivalentes de ce problème de minimisation 1. Trouver .x¯ ∈ C tel que .f (x) − f (x) ¯ ≥ 0 pour tout .x ∈ C. 2. Trouver .x¯ ∈ C tel que .h(x, ¯ x − x) ¯ ≥ 0 pour tout .x ∈ C. 3. Trouver .x¯ ∈ C tel que pour tout .x ∈ C il existe .x ∗ ∈ (x) ¯ dépendant de x tel ¯ ≥ 0. que .x ∗ , x − x 4. Trouver .x¯ ∈ C et .x¯ ∗ ∈ (x) ¯ tel que .x¯ ∗ , x − x ¯ ≥ 0 pour tout .x ∈ C. En 1, on retrouve le problème brut d’optimisation convexe. En 2, il est dit être sous la forme d’un problème d’équilibre monotone, en 3 et 4 sous la forme d’inéquations variationnelles monotones. Des formulations similaires à 2, 3 et 4 s’appliquent aussi à des problèmes issus de l’économie, de la mécanique, de la physique, de la logistique, et bien d’autres sans que la multiapplication . soit le sous-différentiel d’une fonction convexe, sans que la fonction h soit associée à une dérivée directionnelle. Ce chapitre et le suivant sont consacrés à la théorie et la résolution des inéquations variationnelles et des problèmes d’équilibre dans un cadre où la multiapplication . et la fonction d’équilibre h présentent un caractère de monotonie. Cette monotonie joue le rôle de la convexité des problèmes de minimisation. Soit E un espace vectoriel topologique, .E ∗ son dual. Avec .G ⊂ E × E ∗ on → E définies par → E ∗ et . ∗ : E ∗ − → → associe les multiapplications . : E − (x) = {x ∗ ∈ E ∗ : (x, x ∗ ) ∈ G},
.
∗ (x ∗ ) = {x ∈ E : (x, x ∗ ) ∈ G}.
© The Author(s), under exclusive license to Springer Nature Switzerland AG 2023 J.-P. Crouzeix et al., Optimisation convexe et inéquations variationnelles monotones, Mathématiques et Applications 89, https://doi.org/10.1007/978-3-031-30681-5_4
117
118
4 Monotonie et maximale monotonie
Le cas .E ∗∗ = E est particulièrement intéressant puisqu’il conduit à une dualité symétrique. On peut alors considérer que G est à la fois le graphe de . et le graphe de . ∗ en considérant G comme un sous ensemble de .E × E ∗ pour . et de .E ∗ × E pour . ∗ . La multiapplication duale . ∗ n’est rien d’autre que la multiapplication inverse . −1 de .. On utilisera indifféremment l’une ou l’autre notation avec une préférence pour . ∗ lorsqu’on veut souligner l’aspect dual. Les domaines de . et . ∗ sont respectivement les ensembles dom () = {x ∈ E : ∃ x ∗ ∈ E ∗ tel que (x, x ∗ ) ∈ G},
.
dom ( ∗ ) = {x ∗ ∈ E ∗ : ∃ x ∈ E tel que (x, x ∗ ) ∈ G}.
.
On dit que .G ⊂ E × E ∗ est monotone si on a x ∗ − y ∗ , x − y ≥ 0 pour tout (x, x ∗ ), (y, y ∗ ) ∈ G.
.
(4.1)
On dit aussi que les multiapplications . et . ∗ sont monotones. Il est indifférent de dire que l’ensemble G ou les multiapplications . et . ∗ sont monotones. Nous avons vu au Chapitre 2 que le graphe du sous-différentiel . = ∂f d’une fonction convexe f est monotone, . ∗ n’est alors rien d’autre que .∂f ∗ .
Fig. 4.1 Illustration de la symétrie entre les graphes de multiapplications monotones duales
Nous avons vu qu’il existe de nombreuses propriétés de la convexité particulièrement spécifiques à la dimension finie, soit par ce que ces propriétés ne s’étendent pas ou s’étendent mal aux espaces de dimension infinie comme le
4.1 Introduction aux inéquations variationnelles
119
théorème de Carathéodory ou la notion d’intérieur relatif, soit par ce que comme c’est le cas pour les résultats sur les projections et les théorèmes de séparation les démonstrations à peu près immédiates en dimension finie nécessitent pour leur extension en dimension infinie des outils mathématiques plus complexes comme la complétude des espaces d’Hilbert ou le théorème du choix pour les espaces plus généraux. La formalisation et la technicité nécessaires masquent en partie l’aspect géométrique de la convexité dans les résultats. Il en est de même de la théorie des multiapplications monotones. Un certain nombre de résultats essentiels ne nécessitent que des outils tout à fait élémentaires alors qu’ils sont en général obtenus à l’aide d’outils sophistiqués tels le lemme de Zorn ou l’axiome du choix. Pour cette raison, nous nous limitons dans cet ouvrage à la dimension finie. Voici quelques conséquences immédiates de la définition de la monotonie. 1. Si .G ⊂ Rn × Rn est monotone alors .G est monotone. 2. Si .G1 ⊂ Rn × Rn est monotone et .G2 ⊂ G1 alors .G2 est monotone. → Rn est monotone, si A est une matrice .n×p et si → 3. Si la multiapplication . : Rn − → p n p− t .a ∈ R alors la multiapplication . : R → R définie par .(x) = A (Ax +a) est monotone. → Rn est monotone alors les multiapplications ., → 4. Si la multiapplication . : Rn − .co et .co définies par (x) = (x), co(x) = conv ((x)) et co (x) = conv ((x))
.
∀ x ∈ Rn
sont monotones. → Rn sont monotones et si les réels .λ et → 5. Si les multiapplications .1 , 2 : Rn − 1 .λ2 sont positifs, alors la multiapplication . définie par (x) = λ1 1 (x) + λ2 2 (x)
.
∀ x ∈ Rn
est monotone. Proposition 4.1 Soit . : C → Rn une application différentiable sur un convexe n .C ⊂ R . . est monotone sur C si et seulement si pour tout .x ∈ C la matrice . (x) est semi-définie positive. Preuve : Etant donnés .x ∈ C et .h ∈ Rn , considérer la fonction .θ définie par .θ (t) = (x + th). . Noter que la matrice . (x) n’est pas nécessairement symétrique. Soit .E = E ∗ = Rn . Avec l’ensemble .G ⊂ E × E ∗ associons l’ensemble .G défini par = { (x, x ∗ ) ∈ E × E ∗ : x ∗ − y ∗ , x − y ≥ 0 G
.
Lorsque G est monotone on a
∀ (y, y ∗ ) ∈ G}.
(4.2)
120
4 Monotonie et maximale monotonie
= { (x, x ∗ ) ∈ E × E ∗ : G ∪ {(x, x ∗ )} est monotone }. G
.
(4.3)
les multiapplications associées à G et .G, Désignons par . et . (x) = {x ∗ ∈ E ∗ : (x, x ∗ ) ∈ G},
.
(x) = {x ∗ ∈ E ∗ : (x, x ∗ ) ∈ G}.
Les propositions suivantes découlent de la définition de .G. est un ensemble fermé. G . (x) est un convexe fermé quel que soit .x ∈ E. On a alors G est monotone si et seulement si .G ⊂ G. .(x) ⊂ conv ((x)) ⊂ (x) pour tout x. 4. Si .G2 est monotone et .G1 ⊂ G2 alors .G1 est monotone et on a 2 ⊃ G2 ⊃ G1 . 1 ⊃ G .G 1. 2. 3.
.
.G ∪ L’exemple suivant montre que si G est monotone et si .(x1 , x1∗ ), (x2 , x2∗ ) ∈ G, {(x1 , x1∗ )} ∪ {(x2 , x2∗ )} n’est pas nécessairement monotone. Exemple 4.1 Prendre .E = E ∗ = R, .G = {(0, 0), (1, 0)}, .(x1 , x1∗ ) = (2, 2) et ∗ .(x2 , x ) = (3, 0). 2 La continuité et la convexité des fonctions sont des notions de nature locales, c’est aussi le cas de la monotonie des multiapplications. → Rn et .D ⊂ dom () convexe ouvert non vide. → Proposition 4.2 Soient . : Rn − La multiapplication . est monotone sur D si et seulement si elle est localement monotone sur D. Preuve : Il faut montrer que l’on a .b∗ −a ∗ , b−a ≥ 0 lorsque .a, b ∈ D, .a ∗ ∈ (a) et .b∗ ∈ (b). Posons .I = { x(t) = a + t (b − a) : 0 ≤ t ≤ 1}. Pour tout .t ∈ [0, 1] il existe un voisinage ouvert .Vt de .x(t) sur lequel . est monotone. Le segment I est un compact recouvert par les .Vt . Il existe donc .t0 , t1 , · · · , tp+1 tels que .0 = t0 < t1 < · · · < tp < tp+1 = 1 avec . monotone sur chacun des segments .Ik = { x(t) = a + t (b − a) : tk ≤ t ≤ tk+1 }. Posons .xk = x(tk ) ∗ pour .k = 0, · · · , p + 1, .x0∗ = a ∗ et .xp+1 = b∗ . Enfin, pour .k = 1, · · · , p , ∗ ∗ ∗ choisissons .xk ∈ (xk ). On a .xk+1 − xk , xk+1 − xk ≥ 0 pour chaque k et donc ∗ − xk∗ , b − a ≥ 0 pour .k = 0, · · · , p. On en déduit le résultat. . aussi .xk+1
4.2 Maximale monotonie On dit que .G ⊂ E × E ∗ est maximal monotone s’il est monotone et si .S ⊃ G avec S monotone implique .S = G. Les multiapplications associées . et . ∗ à G sont alors dites maximales monotones. On peut se poser les questions suivantes : 1. Etant donné .G ⊂ E × E ∗ monotone, existe-t-il .G ⊂ E × E ∗ maximal monotone contenant G ?
4.2 Maximale monotonie
2. 3. 4. 5.
121
Si un tel .G existe, est-il unique ? Comment le construire ? Comment caractériser les ensembles maximaux monotones ? Quelles sont leurs propriétés ?
On peut répondre tout de suite négativement à la question 2. Prendre G comme dans l’Exemple 4.1, .G1 = {(x, x) : x ≤ 0} ∪ ] 0, ∞ [×{0} et .G2 = R × {0}. .G1 et .G2 contiennent tous les deux G. Il est facile de voir qu’ils sont tous les deux maximaux monotones. Une première caractérisation est immédiate. Si Proposition 4.3 .G ⊂ E × E ∗ est maximal monotone si et seulement si .G = G. ∗ ∗ G est maximal monotone, il est fermé et pour tout .(x, x ) ∈ E × E les ensembles ∗ ∗ ∗ .(x) et . (x ) sont des convexes fermés respectivement de .E et E. Voici un exemple d’application de cette proposition. → Rn une → Exemple 4.2 Soient .a ∈ Rn , .B ∈ Rn×n inversible et . : Rn − → Rn → multiapplication maximale monotone, alors la multiapplication . : Rn − t définie par . (x) = B (a + Bx), est maximale monotone. Preuve : Il est facile de voir que . est monotone. Montrons maintenant qu’elle est maximale monotone. Soit donc .(x, x ∗ ) ∈ gph ( ). Pour tout .(y, y ∗ ) tel que ∗ t ∗ ∗ .y = B z avec .z ∈ (a + By), 0 ≤ x ∗ − B t z∗ , x − y = (B t )−1 x ∗ − z∗ , (a + Bx) − (a + By).
.
.a + By décrit tout le domaine de . car B est inversible. Par conséquent (B t )−1 x ∗ ∈ (a + Bx) et donc .x ∗ ∈ B t (a + Bx). .
.
Nous traiterons plus tard le cas B non inversible. Nous verrons aussi plus tard que la maximalité joue pour les multiapplications monotones le rôle de la continuité pour les fonctions convexes. Nous savons que l’image d’un compact par une fonction continue est un compact donc est fermée, voici le pendant de ce résultat, malheureusement on perd la compacité comme le montre l’exemple suivant : .(x) = {1} si .x < 0, .[1, +∞[ si .x = 0, .∅ si .x > 0, l’ensemble .(0) n’est pas borné. Dans cet exemple 0 n’appartient pas à l’intérieur du domaine de .. Proposition 4.4 L’image d’un compact par une multiapplication maximale monotone est fermée. → Rn maximale monotone et .C ⊂ Rn compact non → Preuve : Supposons . : Rn −
vide. Il faut montrer que si .x¯ ∗ est limite d’une suite .{xk∗ } ⊂ (C) alors il est dans .(C). Pour tout k il existe .xk ∈ C tel que .xk∗ ∈ (xk ). Soit .x¯ une valeur d’adhérence de la suite .{xk }, .(x, ¯ x¯ ∗ ) est valeur d’adhérence de la suite .{(xk , xk∗ )}, donc est contenue dans le graphe de . qui est fermé en raison de la maximalité. . Ainsi .x¯ ∗ ∈ (C). Nous reviendrons plus tard sur cette proposition en la complétant.
122
4 Monotonie et maximale monotonie
4.2.1 Maximalité et domaine Le lemme technique suivant se rattache aux théorèmes d’alternatives. Lemme 4.1 Soient A une matrice .n × p et .a ∈ Rp . Une et une seule des conditions suivantes est satisfaite. 1. Il existe .x ∗ ∈ Rn tel que .At x ∗ ≥ a; 2. Il existe .u ≥ 0 tels que .Au = 0 et . a, u > 0. Preuve : Par dualité en programmation linéaire les deux équations suivantes sont équivalents 0 = inf [ 0, x ∗ : At x ∗ ≥ a ], ∗
.
x
0 = sup [ a, u : Au = 0 ]. u≥0
D’où le résultat.
.
{(xi , xi∗ )
Proposition 4.5 Soient .G = : i = 1, · · · , p} un sous-ensemble ) = monotone fini de .Rn × Rn et C l’enveloppe convexe des points .xi . Alors, .dom ( Rn . En outre, pour tout . x¯ ∈ int (C), il existe un compact K et un voisinage . V ⊂ int (C) de . x ¯ tels que ∅ = (x) =
p
.
{ x ∗ : x ∗ , x − xi ≥ xi∗ , x − xi } ⊂ K pour tout x ∈ V .
i=0
Preuve : Par définition de .G, (x) =
p
.
{ x ∗ : x ∗ , x − xi ≥ xi∗ , x − xi } pour tout x ∈ Rn .
i=0
(x) = ∅. Dénotons par A la matrice .n × p i) Supposons que .x ∈ Rn soit tel que . dont les colonnes sont les vecteurs .(x − xi ) et par .a le vecteur de .Rp dont la composante .ai est .xi∗ , x − xi . Alors, il n’existe pas de vecteur .x ∗ tel que t ∗ .A x ≥ a. On déduit du lemme l’existence de .u ≥ 0 tel que .Au = 0 et .u, a > 0. On impose . ui = 1. L’égalité .Au = 0 implique .x = ui xi . D’autre part, 2u, a = −
p
.
i,j =0
ui uj xi∗ − xj∗ , xi − xj .
4.2 Maximale monotonie
123
Rappelons que . est monotone sur C et .u ≥ 0. Il s’ensuit .u, a ≤ 0 en contradiction avec .u, a > 0. ii) Supposons maintenant qu’il n’existe aucun voisinage de .x¯ ∈ int (C) sur lequel est borné. Il existe alors une suite .{(zk , zk∗ )} ⊂ gph ( . ) telle que .zk → x¯ et .zk∗ → ∞ lorsque .k → ∞. On peut supposer sans perte de généralité que la suite .wk∗ = zk∗ /zk∗ converge vers un vecteur .w ∗ de norme 1. Puisque ∗ ∗ ∗ ¯ − x ≥ 0 pour tout i. Ce qui est impossible .z − x , zk − xi ≥ 0 on a .w , x i k i ∗ puisque .x¯ ∈ int (C) et .w = 0. Donc il existe un voisinage . V ⊂ int (C) de . x¯ et (x) ⊂ K pour tout .x ∈ V . un compact K de .Rn tels que . . On étend maintenant ce résultat au cas général. → Rn une multiapplication monotone dont le domaine → Théorème 4.1 Soit . : Rn − est de dimension n. Pour tout .x¯ ∈ int (conv (dom ()) il existe un voisinage . V de . x¯ et un compact K tels que ∅ = (x) ⊂ K
.
∀ x ∈ V.
Il s’ensuit .dom ( ) ⊃ int (conv (dom ())). Preuve : Puisque .x¯ ∈ int (conv (dom ())), il existe un sous-ensemble fini .S = {(xi , xi∗ )}i∈I de G avec .x¯ ∈ int (conv (xi , i ∈ I )). Appelons . la multiapplication de graphe S. S est monotone car contenu dans G. Appliquons le lemme à S. Il existe V voisinage de .x¯ et K compact tels que (x) = (x) ⊂
.
{x ∗ : x ∗ , x − xi ≥ xi∗ , x − xi } ⊂ K ∀ x ∈ V .
i∈I
(x) = ∅. Alors, Supposons, pour contradiction, qu’il existe .x ∈ V tel que .
∅=
.
{ x ∗ : x ∗ , x − y ≥ y ∗ , x − y },
(y,y ∗ )∈G
∅=
# ∗ $ (x) . { x : x ∗ , x − y ≥ y ∗ , x − y } ∩
(y,y ∗ )∈G
(x) sont compacts. Donc, il Les ensembles .{ x ∗ : x ∗ , x − y ≥ y ∗ , x − y } ∩ existe une famille finie .{(xj , xj∗ )}i∈J ⊂ G telle que ∅=
.
" ! (x) . {x ∗ : x ∗ , x − xj ≥ xj∗ , x − xj } ∩ i∈J
Alors, ∅=
.
i∈I ∪J
{x ∗ : x ∗ , x − xi ≥ xi∗ , x − xi }.
(4.4)
124
4 Monotonie et maximale monotonie
Soit .T = {(xi , xi∗ )}∈I ∪J et . la multiapplication de graphe T . Alors, x appartient à l’intérieur de l’enveloppe convexe du domaine of .. La Proposition 4.5 contredit (4.4). Les autres affirmations du théorème en découlent. . Ce théorème s’étend au cas où .dom () n’est pas de dimension n, on travaille alors avec les intérieurs relatifs. Il s’écrit comme suit Théorème 4.2 Soit G monotone. Pour tout .x¯ ∈ ri (conv (dom ())) il existe . V voisinage de . x¯ et .K ⊂ Rn compact tels que ∅ = (x) ⊂ K + [aff (dom ()) − x] ¯ ⊥
.
∀ x ∈ V ∩ conv (dom ()).
Il s’ensuit que .dom ( ) contient l’intérieur relatif de .conv (dom ()). Preuve : Soient .H = aff (dom ()) et .p = dim(H ). Il existe une matrice A .n × p → Rp définie par → telle que .H = A(Rp ) + x. ¯ Soit la multiapplication . : Rp − p t .(y) = A (Ay + x) ¯ pour tout .y ∈ R . . est monotone et .dim(dom ()) = p. Appliquer le théorème à .. . Rappelons qu’un ensemble C est dit presque convexe si son intérieur relatif et sa fermeture sont convexes et ont même intérieur relatif et même fermeture, c’est-àdire, .ri (C) = C et .ri (C) = ri(C). Le résultat suivant est un corollaire des résultats précédents. Théorème 4.3 (Continuité du domaine) Le domaine d’une multiapplication maximale monotone est presque convexe. → Rn maximale monotone, son graphe G est maximal → Preuve : Soit . : Rn − monotone et donc .G = G. Par conséquent ri (conv (dom ())) ⊂ dom () ⊂ conv (dom ()).
.
On déduit que .conv (dom ()) et .dom () ont même sous-espace affine et donc ri (conv (dom ()) ⊂ ri (dom () ⊂ ri (conv (dom ())).
.
L’intérieur relatif d’un ensemble convexe est convexe, .ri (dom()) est donc convexe. Passons à la fermeture ri (dom ()) = ri (conv (dom ())) = conv (dom ()).
.
dom () est donc presque convexe.
.
.
4.2 Maximale monotonie
125
4.2.2 Maximalité locale → Rn est une multiapplication dont le domaine D → Dans toute cette partie . : Rn − est d’intérieur non vide. On dit que la multiapplication . monotone est maximale monotone sur .V ⊂ Rn si . coïncide sur V avec toute multiapplication monotone . la contenant. Proposition 4.6 Supposons . maximale monotone. Alors .gph () est fermé, . est scs et localement borné sur .int (D) et .(x) est un convexe compact non vide en tout .x ∈ int (D). Preuve : Le seul résultat nouveau de cette proposition est . scs sur .int (D) qui est une conséquence immédiate du théorème 2.8. . Voici une première caractérisation locale de la maximale monotonie d’une multiapplication en terme de continuité. Théorème 4.4 (Maximalité et Continuité) Soit .V un convexe ouvert non vide contenu dans D. . est maximale monotone sur V si et seulement si . est monotone et scs sur V et pour tout .x ∈ V l’ensemble .(x) est un convexe compact non vide. Preuve : Supposons, pour contradiction, que .a ∈ V et .a ∗ ∈ (a) sont tels que ∗ / (a). En raison des théorèmes de séparation, .d ∈ Rn et .α ∈ R existent tels .a ∈ que a ∗ , d > α > x ∗ , d
.
∀ x ∗ ∈ (a).
L’ensemble .A := {y ∗ : α > y ∗ , d} est ouvert. Puisque . est scs en a, il existe .W ⊂ V voisinage de a tel que .(W ) ⊂ A. Choisissons .t > 0 tel que .a + td ∈ W puis .y ∗ ∈ (a + td). Puisque .a ∗ ∈ (a), ∗ ∗ ∗ .y − a , a + td − a ≥ 0 en contradiction avec .y ∈ A. . En combinant le théorème avec la proposition 2.7, on complète la proposition 4.4 comme suit → Rn est maximale monotone et si K est un compact → Proposition 4.7 Si . : Rn − non vide contenu dans l’intérieur du domaine de ., alors l’ensemble .(K) est compact.
Retour sur l’application proximale et la projection Nous avons introduit au Chapitre 3 l’application proximale, d’une fonction convexe sci propre f sur .Rn comme l’application qui à .x ∈ Rn associe .yr (x) solution optimale unique du problème fr (x) := inf [ f (y) +
.
y
1 y − x2 ]. 2r
126
4 Monotonie et maximale monotonie
Nous avons vu que l’application .x → yr (x) est univoque, monotone et continue et que la fonction .fr est une fonction convexe définie et différentiable, son gradient est donné par ∇fr (x) =
.
1 (x − yr (x)) ∈ ∂f (yr (x)) r
∀ x ∈ Rn .
L’application .x → x − yr (x) est le gradient d’une fonction convexe. Les applications .x → yr (x) et .x → x − yr (x) sont univoques, monotones continues sur l’espace .Rn tout entier, elles sont donc maximales monotones. Lorsque la fonction f est la fonction indicatrice d’un convexe fermé non vide C, l’application proximale correspond à la projection sur C. L’application projection sur un convexe fermé est donc maximale monotone.
Densité La maximale monotonie d’une multiapplication engendre une forme de continuité plus forte que scs. Avant d’aller plus loin, considérons les deux exemples suivants. → R définie par .(x) = {0} si .x = 0 et .(0) = 1. Soit la multiapplication . : R − →
[−1, 1 ]. . est scs sur .R mais non monotone. L’appartenance de 1 à .(0) ne peut pas être déduit de la connaissance de .(x) aux points .x = 0 voisins de 0. → R définie par .(x) = {0} si .x < 0, 2. Soit la multiapplication . : R − → .(0) = {0, 1} et .(x) = {1} si .x > 0. . est scs et monotone mais non maximale monotone puisque .(0) est non convexe. → Rn et .S ⊂ D = dom () associons la multiapplication . (·, S) → Avec . : Rn − l
définie par .x ∗ ∈ l (x, S) s’il existe une suite .{(xk , xk∗ )} ⊂ gph (), .xk ∈ S, convergeant vers .(x, x ∗ ). On considère ensuite la multiapplication .c (·, S) définie par c (x, S) := conv (l (x, S))
.
∀ x ∈ Rn .
Lorsque .S = Rn on pose .c (x) = c (x, Rn ). Lorsque . est monotone .l (·, S) et .c (·, S) sont aussi monotones et on a (x) ⊂ l (x, S) ⊂ c (x, S) ⊂ (x)
.
∀ x ∈ Rn .
est Le résultat suivant nous dit que, sous une condition de densité locale, . maximale monotone lorsque . est monotone. Théorème 4.5 Supposons . monotone, .V ouvert contenu dans .conv (D) et .S ⊂ D (x) = c (x, S) quel que soit .x ∈ V. Il s’ensuit que . est avec .V ∩ S = V . Alors . l’unique multiapplication maximale monotone sur V qui contient ..
4.2 Maximale monotonie
127
Preuve : i) Il suffit de montrer que .a ∗ ∈ c (a, S) lorsque .a ∗ ∈ (a) et .a ∈ V . Dans le cas contraire, en raison des théorèmes de séparation, il existerait .d ∈ Rn et .α ∈ R tels que 0 > α > x ∗ − a ∗ , d
.
∀ x ∗ ∈ c (a, S).
D’autre part, on peut trouver .W ⊂ V voisinage convexe de a et K compact (x) ⊂ K pour tout .x ∈ W . On en déduit l’existence de .x ∗ ∈ K tels que .∅ = et d’une suite .{xk , xk∗ , dk , tk }k convergeant vers .(a, x ∗ , d, 0) tels que .tk > 0, ∗ .xk = a + tk dk ∈ S ∩ W et .x ∈ (xk ) pour tout k. L’existence d’une telle suite k est une conséquence de l’égalité .W ∩ S = W . Il est clair que .x ∗ ∈ c (a, S). Puisque .a ∗ ∈ (a) et .xk∗ ∈ (xk ) on a .xk∗ − a ∗ , xk − a ≥ 0 et donc ∗ ∗ ∗ ∗ .x − a , dk ≥ 0. Le passage à la limite donne .x − a , d ≥ 0. On a ainsi k obtenu une contradiction. est monotone sur V puisque .c ( S) l’est. ii) . . On remarque que .c (x, S) ne dépend pas de l’ensemble S pourvu que l’on conserve l’égalité .V ∩ S = V . Dans le cas où . est le sous-différentiel d’une fonction convexe f , cela veut dire que ce sous-différentiel est parfaitement défini sur l’intérieur du domaine de f par la donnée des gradients de f aux points où f est différentiable. En effet une fonction convexe est localement Lipschitz sur l’intérieur de son domaine et donc, en raison du théorème de Rademacher, presque partout différentiable. On peut prendre en particulier .S = V . On obtient alors une nouvelle caractérisation de locale maximale monotonie. Elle montre que la maximale monotonie est une notion essentiellement locale. Théorème 4.6 (Maximalité et Continuité) Soit V convexe ouvert non vide contenu dans l’intérieur de D. Alors . est maximale monotone sur V si et seulement si . est monotone et en tout .x ∈ V on a .(x) = c (x). coïncident sur V et donc . Preuve : Si .(x) = c (x) en tout .x ∈ V , alors . et . est maximale monotone. Supposons . maximale monotone, alors en tout .x ∈ V , 4 (x) ⊂ c (x) ⊂ ( (x) = (x). c )(x) ⊂
.
D’où le résultat.
.
Corollaire 4.1 Si . et . sont maximales monotones, alors . + est maximale monotone sur tout V convexe ouvert contenu dans l’intersection de leurs domaines. Preuve : .( + )c (x) = c (x) + c (x) en tout .x ∈ V .
.
Intéressons-nous maintenant aux points sur la frontière du domaine. La proposi. tion suivante est une conséquence immédiate de la fermeture du graphe de . Proposition 4.8 Soit . une multiapplication monotone de domaine D et de graphe G. Soit .a ∈ D.
128
4 Monotonie et maximale monotonie
1. S’il existe une suite .{(xk , xk∗ )} ⊂ G qui converge vers .(a, a ∗ ), alors .a ∗ ∈ (a). 2. S’il existe une suite .{(xk , xk∗ )} ⊂ G telle que la suite .{xk } converge vers a et la (a) est non vide. suite .{xk∗ } est bornée, alors . Notons que l’existence d’une suite .{(xk , xk∗ )} ⊂ G telle que la suite .{xk } converge (a) comme le vers a et la suite .{xk∗ } est non bornée n’entraine pas la vacuité de . montre les deux exemples suivants. Exemple 4.3 Considérons la fonction convexe f (x1 , x2 ) =
.
√ x1 ≥ 0, x2 ≥ 0, −2 x1 x2 si +∞ sinon.
La multiapplication . = ∂f est monotone et on a ∂f (0, 0) = {(x1∗ , x2∗ ) : x1∗ < 0, x2∗ < 0 , x1∗ x2∗ ≥ 1} = ∅.
.
Prenons .xk = (k −4 , k −2 ), alors .xk∗ = (−k, −k −1 ) ∈ ∂f (xk ). La suite .{xk∗ } est non bornée. Exemple 4.4 (Rockafellar, [91]) Considérons la fonction convexe f (x1 , x2 ) =
.
max{ |x1 |, 1 − +∞
√
x2 } si x2 ≥ 0, sinon.
La multiapplication . = ∂f est monotone. Prenons .a = (1, 0), .b = (1/2, 1/2), xk = a + k −2 (b − a) et .xk∗ = ∇f (xk ). La suite .{xk∗ } est non bornée, cependant .∂f (a) = [1, ∞[×{0} est non vide. .
avec le cône normal au domaine Le résultat suivant relie le cône asymptote de . D de .. Rappelons auparavant que le cône normal est monotone puisque sous différentiel de la fonction indicatrice et que, par convention, .A + ∅ = ∅ pour tout n .A ⊂ R . → Rn monotone de domaine D. Alors, → Proposition 4.9 Supposons . : Rn − (a) = ND (a) + (a)
.
et ∞ (a) = ND (a)
∀ a ∈ D.
Preuve : i) Pour tout .a ∗ ∈ (a) et tout .w ∗ ∈ ND (a), x ∗ − a ∗ , x − a ≥ 0 et w ∗ , x − a ≤ 0 ∀ (x, x ∗ ) ∈ gph ().
.
Donc x ∗ − a ∗ − w ∗ , x − a ≥ 0 ∀ (x, x ∗ ) ∈ gph ().
.
4.2 Maximale monotonie
129
(a) ⊃ (a) + ND (a). Il y a égalité puisque .0 ∈ ND (a). On en déduit Donc . ∞ (a) ⊃ ND (a). ii) Soient .a ∗ ∈ (a) et .d ∈ ∞ (a). Alors pour tout .(x, x ∗ ) ∈ G, .
a ∗ + td − x ∗ , a − x ≥ 0
.
∀ t > 0.
∞ (a) ⊂ ND (a). Donc .d, a − x ≥ 0 pour tout .x ∈ D. On en déduit . . → Rn est maximale monotone de domaine D, alors → Corollaire 4.2 Si . : Rn − .(a) = ND (a) + (a) en tout a. Le théorème suivant est à rattacher au théorème 4.4. → Rn une multiapplication monotone et scs sur . → Théorème 4.7 Soit . : Rn − convexe ouvert telle que l’ensemble .(x) est un convexe fermé borné non vide quel que soit .x ∈ . Soit .C ⊂ un convexe fermé d’intérieur non vide, alors → Rn définie par . (x) = (x) + N (x) si .x ∈ C, → la multiapplication .C : Rn − C C .C (x) = ∅ sinon, est maximale monotone. C (a) = C (a) en tout .a ∈ int (C). Preuve : 1) Il est clair que . 2) Supposons maintenant .a ∈ Fr (C) et .a ∗ ∈ / C (a). .C (a) est un convexe fermé puisque .(a) est un convexe compact. Il existe donc .b ∈ Rn tel que a ∗ , b > sup [x ∗ + y ∗ , b : x ∗ ∈ (a), y ∗ ∈ NC (a) ].
.
x ∗ ,y ∗
NC (a) est un cône et donc .y ∗ , b ≤ 0 pour tout .y ∗ ∈ NC (a) et par conséquent 0 .b ∈ [NC (a)] . En outre, puisque .0 ∈ NC (a), .
.
sup [ x ∗ − a ∗ , b : x ∗ ∈ (a) ] > 0. x∗
[NC (a)]0 n’est rien d’autre que la fermeture du cône convexe généré par le convexe ouvert .int (C) − a. Il existe donc .c ∈ int (C) tel que .
.
sup [ x ∗ − a ∗ , c − a : x ∗ ∈ (a) ] > 0.
Pour .t ∈]0, 1], posons .xt = a + t (c − a), .xt ∈ int (C). La multiapplication . étant scs en a, il existe .t ∈ [0, 1] tel que .
sup [ xt∗ − a ∗ , c − a : xt∗ ∈ (xt ) = C (t) ] < 0. x∗
Il s’ensuit que .a ∗ ∈ / C (a). On a montré . C (a) = C (a) pour tout .a ∈ C. 3) Il reste à considérer le cas .a ∈ / C. Choisissons .c ∈ int (C) et prenons .t ∈ ] 0, 1 [ tel que .b = a + t (c − a) ∈ Fr (C). Soit .d ∗ ∈ NC (b). Alors, .d ∗ , c − b < 0 puisque .c ∈ int (C). Soit .b∗ ∈ (b) arbitraire. Si .a ∗ ∈ C (a) nécessairement,
130
4 Monotonie et maximale monotonie
b∗ + λd ∗ − a ∗ , b − a > 0 ∀ λ ≥ 0
.
ce qui n’est pas possible.
.
Le résultat de densité suivant est obtenu avec une démonstration presque identique. Théorème 4.8 Etant donnés un convexe fermé C d’intérieur non vide, un ensemble → Rn une multiapplication monotone → S ⊂ dom () tel que .C = S ∩ C et . : Rn − → Rn qui est localement bornée en tout point de C, la multiapplication .C : Rn − → définie par .C (x) = c (x, S) + NC (x) si .x ∈ C, .C (x) = ∅ sinon, est maximale monotone.
.
Preuve : Les hypothèses impliquent .c (·, S) maximale monotone sur .int (C) et c (x, S) fermé borné en tout .x ∈ C. Il suffit de remplacer dans la preuve du théorème précédent . par .c (·, S) et de choisir .c ∈ S ∩ int (C). .
.
4.2.3 Bifunctions → Rn monotone. Etant donnés .x ∈ dom () et .h ∈ Rn , définissons → Soit . : Rn − g+ (x, h) = sup [ x ∗ , h : x ∗ ∈ (x) ], .
(4.5)
g− (x, h) = inf [ x ∗ , h : x ∗ ∈ (x) ].
(4.6)
.
Par construction, la fonction .g+ (x, ·) est convexe, sci, positivement homogène et on a g+ (x, h) ≥ g− (x, h) = −g+ (x, −h).
.
En outre, puisque . est monotone, g+ (x, y − x) ≤ g− (y, y − x)
.
∀ x, y ∈ dom (),
g+ (x, y − x) + g+ (y, x − y) ≤ 0 ∀ x, y ∈ dom ().
.
(4.7) (4.8)
Proposition 4.10 Supposons . maximale monotone. Pour tout .a ∈ dom () (a) = { x ∗ : x ∗ , h ≤ g+ (a, h) ∀ h ∈ Rn }.
.
(4.9)
Si, en addition, .a ∈ int (dom ()), .
− ∞ < g+ (a, h) = lim [ g+ (a + th, h) ] = lim [ g− (a + th, h) ] < ∞, t↓0
t↓0
(4.10)
4.2 Maximale monotonie
131
et, pour tout .ε > 0, il existe un voisinage V de a dépendant de .ε tel que .g+ (x, h) ≤ g+ (a, h) + ε pour tout .x ∈ V . Preuve : (4.9) vient du fait que .(a) est un ensemble convexe fermé non vide de fonction support .g+ (a, ·). Si, en outre .a ∈ int (dom ()), l’ensemble .(a) est borné et (4.10) découle de (4.7). Introduisons = {x ∗ = a ∗ + b∗ : a ∗ ∈ (a), b∗ h < ε}.
.
L’ensemble . est ouvert et contient .(a). Il existe donc V voisinage de a tel que (V ) ⊆ et donc .g+ (x, h) ≤ g+ (a, h) + ε pour tout .x ∈ V . .
.
4.2.4 Caractérisation de la maximale monotonie Si la multiplication . est monotone, il en est de même de la multiplication . + λI pour tout .λ > 0. Les deux multiapplications ont même domaine. Proposition 4.11 Si . est monotone, .λ > 0 et si . + λI est maximale monotone, alors . est maximale monotone. Preuve : Soit . monotone avec . ⊂ . Puisque . + λI est maximale monotone, l’inclusion . + λI ⊂ + λI entraine . = . . Proposition 4.12 Si f est une fonction convexe sci propre sur .Rn , la multiapplica→ Rn est une application maximale monotone. → tion .∂f : Rn − Preuve : On considère à nouveau la fonction g définie par g(x) := inf [ f (y) +
.
y
1 y − x2 ]. 2r
Nous savons que l’application univoque .∂g = ∇g est monotone et que dom (∂g) = dom (g) = Rn . Le graphe de .∂g est donc un ensemble maximal monotone. D’autre part, par (3.8) on a
.
gph (∇g) = {(y + ry ∗ , y ∗ ) : ∃ (y, y ∗ ) ∈ gph (∂f )}
.
soit encore gph (∂g ∗ ) = {(y ∗ , y + ry ∗ ) : ∃ (y ∗ , y) ∈ gph (∂f ∗ )}.
.
Utiliser la proposition 4.11 pour conclure.
.
Nous avons vu à la fin du Chapitre 2, qu’à partir d’une multiapplication cycliquement monotone . de domaine non vide, on pouvait construire une fonction
132
4 Monotonie et maximale monotonie
convexe sci propre f telle que . ⊂ ∂f et on s’interrogeait sur l’égalité. Le corollaire suivant répond à la question. → Rn de domaine non vide est le sousCorollaire 4.3 La multiapplication . : Rn − → différentiel d’une fonction convexe f si et seulement si . est cycliquement monotone maximale. La fonction f est alors unique à une constante près. Nous allons transposer l’approche proximale aux multiapplications monotones. → Rn monotone → En procédant par analogie avec les relations (3.8) et (3.9), . : Rn − n n et .r > 0 étant donnés, on construit .S ⊂ R × R à partir de .G = gph () comme suit S = {(x, x ∗ ) = (y + ry ∗ , y ∗ ) : (y, y ∗ ) ∈ G}.
.
(4.11)
On définit ensuite la multiapplication .σ par σ (x) = { x ∗ ∈ Rn : (x, x ∗ ) ∈ S}.
.
On a alors, G = {(y, y ∗ ) = (x − rx ∗ , x ∗ ) : (x, x ∗ ) ∈ S}.
.
(4.12)
Donnons-nous .(y1 , y1∗ ), (y2 , y2∗ ) ∈ G, prenons ensuite .(x1 , x1∗ ) = (y1 + ry1∗ , y1∗ ) et ∗ ∗ ∗ .(x2 , x ) = (y2 + ry , y ), on a 2 2 2 x1∗ − x2∗ , x1 − x2 = r 2 y1∗ − y2∗ 2 + y1∗ − y2∗ , y1 − y2 ,
(4.13)
x1 − x2 2 = y1 − y2 2 + r 2 x1∗ − x2∗ 2 + 2ry1∗ − y2∗ , y1 − y2 .
(4.14)
.
.
Il s’ensuit que lorsque . est monotone, .σ est une application monotone univoque r-Lipschitz. Le théorème suivant nous dit que . est maximale monotone lorsque n .dom (σ ) = R . La démonstration est adaptée d’Auslender–Teboulle [3]. → Rn monotone, r et .λ strictement → Théorème 4.9 (Minty) Supposons . : Rn − positifs arbitraires. 1. . est maximale monotone si et seulement si pour tout .x ∈ Rn il existe .(y, y ∗ ) ∈ gph () unique tel que .x = y + ry ∗ . 2. . est maximale monotone si et seulement si . + λI est maximale monotone. Preuve : On remarque tout d’abord que .dom (σ ) = Rn si et seulement si pour tout n ∗ ∗ .x ∈ R il existe .(y, y ) ∈ gph () tel que .x = y + ry . n Supposons .dom (σ ) = R . L’application .σ est maximale monotone puisque continue. L’ensemble S est maximal monotone et donc . est maximale monotone en raison de la proposition 4.11. Le couple .(y, y ∗ ) = (x − rσ (x), σ (x)) est défini de façon unique.
4.2 Maximale monotonie
133
Supposons maintenant . maximale monotone. Montrons, qu’étant donné .x ∈ Rn arbitraire, on ne peut avoir
{ x ∗ : x ∗ − z∗ , (x − rx ∗ ) − (z − rz∗ ) ≥ 0} = ∅.
.
(z,z∗ )∈S
Nous serions alors en présence d’une intersection de convexes compacts qui serait vide, il existerait donc .(zi , zi∗ ) ∈ S, i = 1, · · · , p tels que .
{ x ∗ : x ∗ − zi∗ , (x − rx ∗ ) − (zi − rzi∗ ) ≥ 0} = ∅.
i
Il nous faut donc montrer que pour tout .{(z1 , z1∗ ), · · · , (zp , zp∗ )} ⊂ S, il existe .x ∗ tel que min x ∗ − zi∗ , x − rx ∗ − zi + rzi∗ ≥ 0.
.
i=1,··· ,p
Ce qui revient à trouver .x ∗ tel que ∗
A(x ) = min [
.
p
λ∈
λi x
∗
− zi∗ , x
∗
− rx +
i=1
p
λi zi∗ − x ∗ , zi − rzi∗ ] ≥ 0,
i=1
p où . = {λ ∈ Rp : i=1 λi = 1, λi ≥ 0 ∀ i}. p Nous allons chercher s’il existe .x ∗ de la forme .x ∗ (λ∗ ) = j =1 λ∗j zj∗ avec .λ∗ ∈ tel que .A(x ∗ (λ∗ )) ≥ 0. Posons l(λ, λ∗ ) =
p
.
λi x ∗ (λ∗ ) − zi∗ , x − rx ∗ (λ∗ ) +
i=1
p
λi zi∗ − x ∗ (λ∗ ), zi − rzi∗ .
i=1
La fonction l est linéaire en .λ et concave quadratique en .λ∗ , . est un convexe compact. l admet donc un point de selle .(λ¯ , λ¯ ∗ ), c’est-à-dire, l(λ¯ , λ∗ ) ≤ l(λ¯ , λ¯ ∗ ) ≤ l(λ, λ¯ ∗ )
.
∀ λ, λ∗ ∈ .
En particulier, on a ¯ λ) ¯ ≤ l(λ, ¯ λ¯ ∗ ) ≤ l(λ, λ¯ ∗ ) l(λ,
.
∀ λ ∈ .
Puisque p .
i=1
λ¯ i x ∗ (λ¯ ) − zi∗ , x − rx ∗ (λ¯ ) =
p i,j =1
λ¯ i λ¯ j zj∗ − zi∗ , x − rx ∗ (λ¯ ) = 0,
134
4 Monotonie et maximale monotonie
on a ¯ λ) ¯ = l(λ,
p
λ¯ i λ¯ j zi∗ − zj∗ , zi − rzi∗ =
.
i,j =1
p
λ¯ i λ¯ j zi∗ − zj∗ , (zi − rzi∗ ) − (zj − rzj∗ ).
i≤j
Puisque G est monotone et compte tenu des relations entre G et S, on obtient ¯ λ) ¯ ≥ 0 et par conséquent l(λ,
.
0 ≤ l(λ¯ , λ¯ ∗ ) ≤ min l(λ, λ¯ ∗ ) = A(x ∗ (λ¯ ∗ )).
.
λ∈
x ∗ (λ¯ ∗ ) est donc solution du problème. Nous venons de montrer que pour tout .x ∈ Rn il existe .x ∗ tel que
.
x ∗ − z∗ , (x − rx ∗ ) − (z − rz∗ ) ≥ 0 ∀ (z, z∗ ) ∈ S.
.
G est maximal monotone, donc .(x − rx ∗ , x ∗ ) ∈ G, puis .(x, x ∗ ) ∈ S et finalement n .dom (σ ) = R . Les autres affirmations du théorème en découlent. . Ce théorème nous dit que lorsque . est maximale monotone, .( + rI )−1 est maximale monotone, r-Lipschitz et de domaine .Rn tout entier. → Rn monotone et A une matrice symétrique → Corollaire 4.4 Supposons . : Rn − définie positive arbitraire. Alors, . est maximale monotone s’il en est de même de + A.
.
Preuve : Prenons B matrice symétrique définie positive telle que .A = B −2 . Il est facile de voir que . est maximale monotone si et seulement si la multiapplication . définie par .(x) = B(Bx) pour tout x est maximale monotone, donc si . + I est maximale monotone, c’est-à-dire si la multiapplication définie par .B −1 ( + I )(B −1 x) est maximale monotone. Cette multiapplication n’est rien d’autre que . + A. .
4.2.5 Retour sur l’algorithme proximal Nous allons voir comment l’algorithme proximal se transpose à la résolution de l’inclusion .0 ∈ (x) dans le cas où la multiapplication . est maximale monotone. Soit .r > 0 fixé. Partant de .x0 ∈ Rn arbitraire, .xk+1 est obtenu à partir de .xk par la relation .xk − xk+1 ∈ r(xk+1 ). En raison du théorème de Minty, un tel .xk+1 existe et est défini de façon unique. Reportons-nous aux relations (4.11) et (4.12) reliant les graphes de . et .σ , nous avons également .xk − xk+1 = rσ (xk ). Les monotonies de . et .σ impliquent respectivement 2xk+1 − xk+2 − xk , xk+2 − xk+1 ≥ 0,
.
4.2 Maximale monotonie
135
2xk+1 − xk+2 − xk , xk+1 − xk ≥ 0.
.
Il s’ensuit, pour tout k, xk+1 − xk+2 2 ≤ xk+1 − xk , xk+2 − xk+1 ≤ xk+1 − xk 2 .
.
(4.15)
La suite .{xk+1 − xk } est décroissante, la suite .{xk − xk+1 } a donc des valeurs d’adhérence. i) Si la suite .{xk − xk+1 } tend vers 0 et si .x¯ est valeur d’adhérence de la suite .{xk }, alors .0 ∈ (x). ¯ Il existe en effet une sous-suite .{xk(l) } convergeant vers .x. ¯ La continuité de .σ entraine la convergence de .σ (xk(l) ) = xk(l) − xk(l)+1 vers .σ (x) ¯ qui est donc égal à 0. ii) Plaçons-nous tout d’abord dans le cas où il existe a tel que .0 ∈ (a). On a également .σ (a) = 0. La conjonction des monotonies de . et .σ entraine xk+1 − a2 ≤ xk+1 − a, xk − a ≤ xk − a2
.
∀ k.
(4.16)
La suite .{xk } est donc bornée. Nous allons montrer que .0 ∈ (x) ¯ lorsque .x¯ est valeur d’adhérence de cette suite. La preuve qui suit diffère de celle que nous avons donnée pour le cas où . est le sous-différentiel d’une fonction convexe f , car il n’est plus possible d’utiliser la décroissance de la suite .{f (xk )}. Supposons, pour contradiction, que la suite .{xk − xk+1 } ne tende pas vers 0. ¯ d), .d = 0 Les deux suites .{xk − xk+1 } et .{xk } sont bornées, il existe donc .(x, et une sous-suite .{(xk(l) } telle que la sous-suite .{(xk(l)+1 , xk(l) − xk(l)+1 } converge vers .(x, ¯ d). On déduit des inégalités (4.15) que le cosinus de l’angle formé par les vecteurs .xk − xk+1 et .xk+1 − xk+2 tend vers 1 ce qui nous permet de montrer la convergence de la sous-suite .{xk(l)+1 − xk(l)+2 } vers d. Les sous-suites .{(xk(l) }, .{(xk(l)+1 } et .{(xk(l)+2 } convergent respectivement vers .x ¯ + d, .x¯ et .x¯ − d, ce qui n’est pas possible puisque nous avons .x¯ + d − a = x¯ − a = x¯ − d − a avec .d = 0. Ainsi, lorsque l’inclusion .0 ∈ (a) a une solution, toute valeur d’adhérence de la suite .{xk } est solution. Supposons que .xˆ soit aussi valeur d’adhérence. En faisant jouer à .xˆ et .x¯ le rôle de a dans (4.16) et en tenant en compte les convergences des sous-suites qui leur sont associées, nous obtenons .xˆ = x. ¯ En combinant i) et ii) nous obtenons le résultat suivant. Proposition 4.13 Supposons . maximale monotone et soit .r > 0 donné. i) Si l’inclusion .0 ∈ (x) admet au moins une solution, l’algorithme proximal génère une suite convergeant vers une solution. ii) Si la suite .{xk+1 − xk } ne converge pas vers 0, l’inclusion .0 ∈ (x) n’a pas de solution. iii) Si la suite .{xk+1 − xk } converge vers 0, toute valeur d’adhérence de la suite .{xk } est solution de l’inclusion .0 ∈ (x).
136
4 Monotonie et maximale monotonie
L’algorithme proximal n’est simplement qu’une méthode de type point fixe appliquée à la résolution de l’inclusion .x ∈ (I + r)−1 (x). Dans le cas où cette inclusion a des solutions multiples, la suite générée par la relation de récurrence −1 (x ) converge vers une des solutions, cette solution dépend du .xk+1 ∈ (I + r) k point .x0 initial.
4.2.6 Maximalité d’une somme Lorsque . est le sous-différentiel d’une fonction convexe sci propre f la condition 0 ∈ int (dom ()) = int (dom (∂f )) se traduit par l’inf-compacité de .f ∗ et donc par l’existence de .x ∗ minimiseur de .f ∗ et donc l’existence de .x ∗ tel que ∗ ∗ −1 (x ∗ ). Une telle fonction f n’existant pas en général pour les .0 ∈ ∂f (x ) = multiapplications monotones, les propositions suivantes permettent de pallier à cette absence. .
Proposition 4.14 Si .F est maximale monotone et s’il existe .α > 0 tel que x ≥ α et (x, x ∗ ) ∈ gph (F ) ⇒ x ∗ , x ≥ 0,
.
alors il existe .x¯ tel que .0 ∈ F (x) ¯ et . x ¯ ≤ α. Preuve : Le théorème de Minty assure l’existence d’un point .xk tel que .0 ∈ (F + k −1 I )(xk ) pour chaque k entier positif. Il existe donc .xk∗ ∈ F (xk ) tel que .kxk∗ = −xk et donc .kxk∗ , xk = −xk 2 . Si .xk = 0, alors .xk∗ = 0 et le problème est réglé. Sinon ∗ ∗ .x , xk < 0 et l’hypothèse implique .xk < α. De la relation .kx = −xk , on déduit k k ∗ la convergence de la suite .{xk } vers 0. Soit .x¯ une valeur d’adhérence de la suite .{xk }. La maximalité de . entraine la fermeture de son graphe et donc .0 ∈ F (x). ¯ . Proposition 4.15 Si . est maximale monotone, si . 0 ∈ int (dom ()) et si le domaine de . est borné, alors il existe .α > 0 tel que x ∗ ≥ α et (x, x ∗ ) ∈ gph () ⇒ x ∗ , x ≥ 0.
.
Preuve : Puisque le domaine de . est borné, .β = supx,y∈dom x − y < +∞. Puisque .0 ∈ int (dom ()), .(0) est un convexe compact non vide. Etant donné ∗ ∗ .γ > 1 + maxx ∗ ∈(0) x , il existe .r > 0 tel que .x ≤ r et .x ∈ (x) implique ∗ .x < γ et .x ∈ int (dom ()). Pour tout .(x, x ∗ ), (y, y ∗ ) ∈ gph () avec .y ≤ r on a x ∗ , x − y ≥ y ∗ , x − y.
.
Donc, x ∗ , x ≥ max[ x ∗ , y : y ≤ r] − β y ∗ ≥ rx ∗ − β γ .
.
4.2 Maximale monotonie
137
Prendre .α de manière à avoir .rα − β γ > 0. . → n− n Proposition 4.16 Soient . 1 , 2 : R → R maximales monotones telles que . 0 ∈ int (dom (1 )) ∩ dom (2 ) et . dom (1 ) borné, alors . = 1 + 2 est maximale monotone. Preuve : . est monotone comme somme de deux multiapplications monotones. Soit .w ∗ un point arbitraire de .2 (0). Puisque . est maximale monotone si et seulement si . − w ∗ est maximale monotone, on peut imposer .0 ∈ 2 (0). En raison du théorème de Minty, montrer que . est maximale monotone revient à montrer que pour tout .c ∈ Rn , il existe .x ∈ Rn tel que .c ∈ ( + 2I )(x). En assimilant le vecteur c à une multiapplication constante, le problème s’écrit : trouver .x ∈ Rn tel que 0 ∈ (1 + I − c)(x) + (2 + I )(x)
.
C’est-à-dire encore, trouver x et .x ∗ dans .Rn tels que (1 + I − c)(x)
.
x ∗ ∈ −(2 + I )(x).
Ce problème se réduit alors à trouver .x ∗ tel que .0 ∈ S(x ∗ ) où S est la somme des deux multiapplications .S1 et .S2 définies par S1 (x ∗ ) = (1 + I − c)−1 (x ∗ ) et S2 (x ∗ ) = −(2 + I )−1 (−x ∗ ).
.
S1 et .S2 sont monotones, univoques et de domaine .Rn , elles sont donc maximales monotones et il en est alors de même de leur somme S. Puisque .(0, 0) ∈ gph (2 + I ) on a aussi .(0, 0) ∈ gph (S2 ). Donc,
.
x ∗ , x = x ∗ − 0, x − 0 ≥ 0 quel que soit (x, x ∗ ) ∈ gph (S2 ).
.
(4.17)
D’autre part, .dom (S1−1 ) = dom (1 ) est borné et .0 ∈ int (dom (S1−1 )). La proposition 4.15 entraine l’existence de .α > 0 tel que x ∗ ≥ α et (x ∗ , x) ∈ gph (S1 ) ⇒ x ∗ , x ≥ 0,
.
qui combinée avec(4.17) donne x ∗ ≥ α et (x ∗ , x) ∈ gph (S) ⇒ x ∗ , x ≥ 0.
.
La proposition 4.14 assure, alors l’existence d’un point .x ∗ ∈ Rn tel que .0 ∈ . S(x ∗ ) et .x ∗ ≤ α. Dans ce qui suit on dénote par .Nα la multiapplication définie par
138
4 Monotonie et maximale monotonie
⎧ ⎨ {0} si x < α, .Nα (x) = R x si x = α, ⎩ + ∅ si x > α. Elle est maximale monotone comme étant le sous-différentiel de la fonction indicatrice de la boule euclidienne fermée .B(0, α). → Rn est maximale monotone et si . 0 ∈ dom (), alors → Corollaire 4.5 Si . : Rn − . + Nα est maximale monotone pour tout .α > 0. Le théorème suivant propose une caractérisation alternative à celle de Minty de la maximale monotonie. → Rn monotone. Supposons qu’il existe .α > 0 tel → Théorème 4.10 Soit . : Rn − 0
que .α := +Nα soit maximale monotone pour tout .α ≥ α0 . Alors, . est maximale monotone.
Preuve : Supposons que .(a, a ∗ ) ∈ gph ( ) existe tel que .(a, a ∗ ) ∈ / gph (). Choisissons .α > max [ α0 , a ]. Alors, .α (a) = (a) + Nα (a) = (a). Puisque α = α , .a ∗ ∈ . / α (a). Il existe donc .(xα , xα∗ ) tel que xα∗ ∈ α (xα ) = (xα ) + Nα (xα )
.
et
a ∗ − xα∗ , a − xα < 0.
On ne peut avoir .xα > α en raison de la définition de .Nα . On ne peut avoir également .xα < α car alors on aurait .xα∗ ∈ (xα ) et donc .a ∗ − xα∗ , a − xα ≥ 0. Ainsi . xα = α . . λα ≥ 0 et .yα∗ ∈ (xα ) existent tels que .xα∗ = yα∗ + λα xα . 0 > a ∗ − yα∗ − λα xα , a − xα ≥ λα xα , xα − a,
.
0 > λα (xα 2 − axα ) ≥ 0. (a) = (a). On a obtenu une contradiction. Il s’ensuit .
.
Nous sommes maintenant à même d’énoncer le résultat principal de cette section, le théorème suivant étend la proposition 4.16 au cas non borné. → Rn maximales monotones telles que → Théorème 4.11 Soient . , : Rn − 1
.
2
int (dom (1 )) ∩ dom (2 ) = ∅, alors . = 1 + 2 est maximale monotone.
Preuve : On peut supposer .0 ∈ int (dom (1 )) ∩ dom (2 ) sans perte de généralité. Pour tout .α > 0, la multiapplication .1 + Nα est maximale monotone en raison du corollaire 4.5, son domaine est borné et donc . 1 +2 +Nα est maximale monotonie en raison de la proposition 4.16. Il suffit alors d’appliquer le théorème 4.10 pour obtenir la maximale monotonie de . 1 + 2 . . Considérons maintenant le cas où la dimension du domaine de . est .p < n. Supposons pour simplicité que .0 ∈ dom () et que le sous-espace vectoriel E généré par .dom () est égal à .Rp × {0}, son orthogonal .E ⊥ est alors .{0} × Rn−p .
4.2 Maximale monotonie
139
Remarquons que lorsque . est maximale monotone on a nécessairement .(x) = (x) + E ⊥ pour tout .x ∈ E. → Rp par la relation → Définissons .E : Rp − E (x1 ) × {0} = (x1 , 0) ∩ [Rp × {0}] ∀ x1 ∈ Rp .
.
On voit alors que . est maximale monotone si et seulement .E est maximale monotone et .E (x1 ) × Rn−p = (x1 , 0) pour tout .x1 ∈ Rp . Revenons à la somme . des deux multiapplications maximales monotones .1 et .2 . Le résultat suivant découle de l’égalité ri (dom ()) = ri (dom (1 )) ∩ ri (dom (2 )).
.
→ Rn maximales monotones telles que → Corollaire 4.6 Soient . 1 , 2 : Rn − . ri (dom (1 )) ∩ ri (dom (2 )) = ∅, alors . = 1 + 2 est maximale monotone.
4.2.7 Composition avec une application linéaire → Rn maximale monotone et A matrice → Théorème 4.12 Donnons-nous : Rn − → p− n × p. La multiapplication : R → Rp définie par (x) = At (Ax) est maximale monotone lorsque 0 ∈ int (dom ()). → Rn comme suit → Preuve : 1) Construisons : Rn − (y) =
.
(y) + [A(Rp )]⊥ si y ∈ A(Rp ) ∩ dom (), ∅ sinon.
On observe que ker(At ) = [A(Rp )]⊥ et dom () = A(Rp ) ∩ dom (). est maximale monotone en raison du théorème 4.11. 2) Nous allons montrer que si (a, a ∗ ) ∈ Rn × Rn est tel que a ∗ − At z∗ , a − x ≥ 0 ∀ (x, z∗ ) tel que (Ax, z∗ ) ∈ gph (),
.
(4.18)
alors a ∗ ∈ At (Aa). Puisque Ax = A(x − u) pour tout u ∈ Rp tel que Au = 0, l’inéquation devient 0 ≤ a ∗ − At z∗ , a − x + u = a ∗ − At z∗ , a − x + a ∗ − At z∗ , u,
.
pour tout (x, z∗ , u) tel que (Ax, z∗ ) ∈ gph () et u ∈ ker(A). Puisque, .
inf a ∗ − At z∗ , u =
Au=0
0 si a ∗ − At z∗ ∈ [ker(A)] = At (Rp ), −∞ sinon,
140
4 Monotonie et maximale monotonie
a ∗ ∈ At (Rp ). Il existe donc b∗ tel que a ∗ = At b∗ . (4.18) devient 0 ≤ At b∗ −At z∗, a−x = b∗−z∗, Aa−Ax ∀ (x, z∗ ) tel que (Ax, z∗ ) ∈ gph ().
.
Soit encore, pour tout y ∈ A(Rp ) ∩ dom () = dom () et tout z∗ ∈ (y), 0 ≤ b∗ − z∗ , Aa − y.
.
La maximale monotonie de entraine b∗ ∈ (Aa) = (Aa) et a ∗ ∈ At (Aa) = (a).
.
est bien maximale monotone.
Ce théorème se généralise comme suit, la preuve est laissée au lecteur. → Rn maximale monotone, a ∈ Rn et → Corollaire 4.7 Donnons-nous : Rn − p A matrice n × p. S’il existe x0 ∈ R tel que Ax0 + a ∈ int (dom ()), la → Rp définie par (x) = At (Ax + a) est maximale → multiapplication : Rp − monotone.
4.2.8 Maximale monotonie : construction et existence A partir du lemme de Zorn, on peut montrer qu’étant donnée une multiapplication monotone de domaine D, il existe une multiapplication . maximale monotone (non unique) telle que .(x) ⊃ (x) pour tout .x ∈ D. Il se pose le problème de la construction d’une telle multiapplication. Voici un élément de réponse. Intéressons-nous au problème suivant : Etant donnée une multiapplication . monotone telle que .D = int (conv (dom ())) = ∅, peut on construire une multiapplication . maximale monotone sur D telle que .(x) ⊃ (x) pour tout .x ∈ D ? Donnons-nous un ensemble .X = {x0 , x1 , · · · , xk , · · · } ⊂ D dénombrable tel que .X = D. Partant de .0 = et .G0 = gph (), on construit .k et .Gk = gph (k ), k = 0, 1, · · · , comme suit : On choisit .x0∗ ∈ 0 (x0 ), puis on fait .G1 = G0 ∪ {(x0 , x0∗ )}, on choisit ensuite ∗ ∗ .x 1 ∈ 1 (x1 ), puis on fait .G2 = G1 ∪ {(x1 , x1 }, et ainsi de suite. Soient S et . définis par .gph () = S = ∪k Gk . Par construction les ensembles S et .Gk , les multiapplications . et .k sont monotones. En outre, .
k ⊂ · · · ⊂ G 1 ⊂ G 0 . G0 ⊂ G1 ⊂ · · · ⊂ Gk ⊂ · · · ⊂ S ⊂ S⊂G
.
. est maximale monotone sur D puisque .dom () = X et .X = D. Le problème est donc résolu.
4.3 Cyclique Monotonie
141
4.3 Cyclique Monotonie Revenons sur la définition de cyclique monotonie introduite au chapitre 2 pour les → Rn de → sous-différentiels des fonctions convexes. Une multiapplication . : Rn − graphe G est dite cyclique monotone d’ordre p , .p ≥ 1, si pour tout .(p + 2)-uple ∗ p+1 ∗ ∗ .{(xi , x )} i i=0 ⊂ G tel que .(x0 , x0 ) = (xp+1 , xp+1 ) on a p xi∗ , xi+1 − xi ≤ 0.
.
i=0
Puisque p .
xi∗ , xi+1 − xi =
p xj∗+1 − xj∗ , xj , j =0
i=0
est cyclique monotone d’ordre p si et seulement si . −1 = ∗ l’est. Cela signifie que la cyclique monotonie d’ordre p est en fait une propriété portant sur le graphe des multiapplications duales . et . ∗ . La cyclique monotonie d’ordre 1 correspond à la monotonie usuelle. Il est clair que si la multiapplication . est cyclique monotone d’ordre p, elle l’est aussi d’ordre q inférieur à p : prendre .(xi , xi∗ ) = (x0 , x0∗ ) pour tout .q < i < p + 1. On dit que . est cyclique monotone si elle est cyclique monotone d’ordre p pour tout entier p positif. La proposition 4.11 et son corollaire font le lien entre fonctions convexes et cyclique monotonie, on voit que si . est une application différentiable sur C convexe ouvert, . est cycliquement monotone sur C si et seulement si la matrice . (x) est symétrique semi-définie positive en tout .x ∈ C. Est-ce que . est cycliquement monotone si elle est cyclique monotone d’ordre p suffisamment grand ? La réponse est non, même lorsque . est linéaire.
.
Proposition 4.17 Pour tout p entier positif, il existe des applications linéaires monotones d’ordre p qui ne sont pas d’ordre .p + 1. Preuve : Prendre .(x) = At x où A est la matrice .2 × 2 donnée par A=
.
cos ϕ sin ϕ − sin ϕ cos ϕ
.
Il est facile de voir . est cyclique monotone d’ordre k si et seulement si la matrice M .2k × 2k constituée par les .k 2 blocs .2 × 2 suivants ⎧ ⎨ A si i = j, .Mij = −A si j = i + 1, ⎩ 0 autrement.
142
4 Monotonie et maximale monotonie
est semi-définie positive. En prenant P =
.
1 1 i −i
, P∗ =
1 −i 1 i
, J∗ =
eiϕ 0 0 e−iϕ
, J =
e−iϕ 0 0 eiϕ
on obtient .P P ∗ = P ∗ P = 2I , .J J ∗ = J ∗ J = I , .P ∗ AP = 2J ∗ , .P ∗ At P = 2J . Il s’ensuit que . est cyclique monotone d’ordre k si et seulement si la matrice tridiagonale par blocs N constituée par les .k 2 blocs .2 × 2 suivants ⎧ ⎪ ⎪ 2 cos ϕ∗ I ⎨ −J .Nij = ⎪ −J ⎪ ⎩ 0
si i = j, si j = i + 1, si i = j + 1, autrement
est semi-définie positive. N étant une matrice hermitienne, ses 2k valeurs propres sont donc réelles. On réorganise la matrice N en considérant d’une part les lignes et colonnes impaires puis les lignes et colonnes paires. Ce qui induit à considérer la semi-définie positivité des deux matrices hermitiennes tridiagonales .k × k suivantes ⎧ 2 cos ϕ ⎪ ⎪ ⎨ −eiϕ .ij = ⎪ −e−iϕ ⎪ ⎩ 0
si i = j, si j = i + 1, , si i = j + 1, autrement.
⎧ 2 cos ϕ ⎪ ⎪ ⎨ −iϕ −e ∗ij = ⎪ −eiϕ ⎪ ⎩ 0
si i = j, si j = i + 1, si i = j + 1, autrement.
.
et .∗ ont mêmes valeurs propres. .v = 0 est vecteur propre associé à la valeur propre .λ de . si
.
e−iϕ vj −1 + (λ − 2cosϕ)vj + eiϕ vj +1 = 0, j = 0, 1, · · · , k,
.
v0 = vk+1 = 0.
On est en face d’une équation linéaire aux différences finies. La composante j j j de v est de la forme .vj = αr1 + βr2 , .r1 et .r2 étant les racines de l’équation du −iϕ + (λ − 2cosϕ)r + eiϕ r 2 = 0. A partir de .v0 = vk+1 = 0 on deuxième degré .e k+1 k+1 obtient .r1 = r2 . A partir de .r1 r2 = e−2iϕ et .r1 + r2 = e−iϕ (2 cos ϕ − λ), on jπ
jπ
montre que .r1 et .r2 sont de la forme .r1 = e−iϕ e−i k+1 , .r2 = e−iϕ ei k+1 . Les valeurs propres sont alors données par jπ , .λ = 2 cosϕ − cos k+1
j = 0, 1, · · ·
Prenons .ϕ = π/(k + 1). . est monotone d’ordre k et non d’ordre .k + 1.
.
4.3 Cyclique Monotonie
143
4.3.1 Cyclique maximalité L’ensemble . G est dit être maximal cycliquement monotone s’il est cycliquement monotone et si . F ⊇ G avec F cycliquement monotone implique .G = F . Les multiapplications . et . −1 sont alors dites maximales cycliquement monotones. Par analogie avec la relation (4.3), on introduit l’ensemble := {(x, x ∗ ) ∈ Rn × Rn : G ∪ {(x, x ∗ )} est cycliquement monotone}. G
.
Quand G est cycliquement monotone, on a = G
.
J∈J
5 p−1 x ∗ , a1 + ap∗ , x + i=1 ai∗ , ai+1 ≤ · · · (x, x ) : p · · · ≤ x ∗ , x + i=1 ai∗ , ai ∗
(4.19)
où par .J on dénote la famille de tous les sous-ensembles finis ordonnés et . −1 les multiapplications J = {(ai , ai∗ )}i=1,··· ,p de . G. On désigne par . associées avec .G. On en déduit que G est maximal cycliquement monotone si et seulement si Les multiapplications . et . −1 sont alors dites maximales cycliquement .G = G. monotones. On dit que . cycliquement monotone est maximal cycliquement monotone sur n .V ⊂ R si . (x) = (x) .∀ x ∈ V pour tout . cycliquement monotone avec . ⊃ sur V . La proposition suivante liste certaines propriétés immédiates. Pour mémoire on mentionne aussi celles de .G. .
Proposition 4.18 Supposons G cycliquement monotone. Alors, 1. 2. 3. 4. 5. 6.
La fermeture de G est cycliquement monotone. et .G sont des sous-ensembles fermés de .Rn × Rn . G ⊆ G. .G ⊂ G ⊆ G et .F ⊆ G. Si .G ⊂ F , alors .F (x) et . (x) sont des sous-ensembles convexes fermés de .Rn . Pour tout .x ∈ Rn , . −1 (x ∗ ) et . −1 (x ∗ ) sont des sous-ensembles convexes Pour tout .x ∗ ∈ Rn , . n fermés de .R . .
La proposition suivante correspond au théorème 4.1. (x) ¯ = ∅ en tout .x¯ ∈ int (conv (dom ())) lorsque . est Proposition 4.19 . cycliquement monotone. Preuve : Par hypothèse on peut trouver .n + 1 points .x0 , x1 , · · · , xn dans int (dom ()) tels que .x¯ appartient à leur enveloppe convexe C. En raison du théorème 4.1, il existe un compact K tel que .∅ = (x) ¯ ⊂ K. Supposons, pour (x) ¯ = ∅. Alors, en raison de (4.19), on a contradiction, .
.
144
∅=
4 Monotonie et maximale monotonie
.
J∈J
5 p−1 ¯ + i=1 ai∗ , ai+1 ≤ · · · x ∗ , a1 + ap∗ , x x : ∩K p · · · ≤ x ∗ , x ¯ + i=1 ai∗ , ai . ∗
(4.20)
la famille .J étant définie de la même façon. On est en présence d’une intersection de compacts, il existe donc une partie finie .K de .J telle que (4.20) tient pour .K. Les points appartenant à une partie J de .K sont dénotés par .xn+1 , xn+2 , · · · , xp . Les ∗ (x) ¯ = ∅ est alors .x , i = 0, · · · , p sont les éléments de .(xi ) correspondants. . i équivalent à dire qu’il n’existe aucun .x¯ ∗ tel que l’ensemble constitué par les points .(x, ¯ x¯ ∗ ) et les .(xi , xi∗ ), i = 0, · · · , p est cycliquement monotone. Reportons-nous à la proposition 2.13 du Chapitre 2. Il existe des fonctions convexes f telles que .x ¯ ∗ ∈ ∂f (x) ¯ et .xi∗ ∈ ∂f (xi ) pour tout i. Nous avons obtenu une contradiction. . La proposition ci-dessus est également vraie en remplaçant l’intérieur par l’intérieur relatif. La proposition qui suit concerne la maximalité des graphes (multiapplications) cycliquement monotones. Proposition 4.20 Si G est cycliquement monotone, il est maximal cycliquement monotone si et seulement s’il est maximal monotone. Preuve : Il suffit de considérer le cas où le domaine D de . est d’intérieur non vide. ⊆G = G et Si G est cycliquement monotone et maximal monotone, alors .G ⊆ G donc il est maximal cycliquement monotone. Supposons . maintenant maximal cycliquement monotone. On se donne .X = {x0 , x1 , · · · , xk , · · · } ⊂ int (conv (D)) dénombrable tel que .X ∩ D = D. Pour tout i on choisit .xi∗ ∈ (xi ). Puisque G est maximal cycliquement monotone, ∗ ∗ .(xi , x ) ∈ G. Ainsi .X ⊂ D. L’ensemble .A = {(xi , x ), i = 0, 1, · · · } est i i cycliquement monotone. On a vu au Chapitre 2 qu’il existe une fonction f convexe sci unique telle que .f (0) = 0 et .xi∗ ∈ ∂f (xi ) pour tout i. En prenant en compte le théorème 4.6, on voit que .∂f et . coïncident. .
Chapter 5
Inéquations Variationnelles
5.1 Introduction La première formulation d’une inéquation variationnelle est due à HartmanStampacchia en 1966 dans un contexte d’équations différentielles elliptiques. Elle est comme suit : Trouver x¯ ∈ C tel que F (x), ¯ x − x ¯ ≥0
.
∀ x ∈ C,
(V I )
où .C ⊂ IR n est un convexe fermé et la fonction .F : C → Rn est continue. De nombreux problèmes peuvent être formalisés au moyen d’inégalités variationnelles : la recherche des racines de l’équation .F (x) = 0 (prendre .C = Rn ), la minimisation d’une fonction convexe f sur C (prendre .F = ∂f ), mais aussi de problèmes ne relevant pas de l’optimisation, en théorie des jeux, en recherche opérationnelle, en mécanique, .· · · A titre d’exemple, considérons le jeu à 2 joueurs suivant : L’ensemble convexe fermé .X1 ⊂ Rn1 représente le champ de stratégies du premier joueur, l’ensemble convexe fermé .X2 ⊂ Rn2 celui du deuxième joueur, les fonctions .f1 , f2 : X1 × X2 → R sont les fonctions coûts des deux joueurs. On suppose pour simplicité ces deux fonctions convexes et différentiables sur un ouvert contenant .X1 × X2 . Si le premier joueur sait que le deuxième adopte la stratégie .x2 , il choisira sa stratégie de manière à minimiser .f1 (·, x2 ) sur .X1 , on la note .x1 (x2 ). On introduit de la même façon .x2 (x1 ) qui minimise .f2 (x1 , .) sur .X2 . .x1 (x2 ) et .x2 (x1 ) sont solutions des inéquations ∇1 f1 (x1 (x2 ), x2 ), x1 − x1 (x2 ) ≥ 0 ∀ x1 ∈ X1 ,
.
∇2 f2 (x1 , x2 (x1 )), x2 − x2 (x1 ) ≥ 0 ∀ x2 ∈ X2 .
© The Author(s), under exclusive license to Springer Nature Switzerland AG 2023 J.-P. Crouzeix et al., Optimisation convexe et inéquations variationnelles monotones, Mathématiques et Applications 89, https://doi.org/10.1007/978-3-031-30681-5_5
145
146
5 Inéquations Variationnelles
Le couple .(x¯1 , x¯2 ) ∈ X1 × X2 est dit être un point d’équilibre de Nash pour le jeu si .x¯1 = x1 (x¯2 ) et .x¯2 = x2 (x¯1 ). A partir de ce couple de points on ne peut baisser la fonction coût d’un joueur sans augmenter la fonction coût de l’autre. Un tel couple est solution de l’inéquation ∇1 f1 (x¯1 , x¯2 ), x1 − x¯1 + ∇2 f2 (x¯1 , x¯2 , x2 − x¯2 ) ≥ 0 ∀ (x1 , x2 ) ∈ X1 × X2 .
.
La recherche d’un tel couple est un problème de type (VI) en prenant F (x) =
.
∇1 f1 (x1 , x2 ) , ∇2 f2 (x1 , x2 )
C = X1 × X2 .
Malgré la convexité des fonctions et des ensembles, ce problème ne peut se ramener à un problème d’optimisation convexe. Ce problème d’équilibre se généralise à des jeux à plusieurs joueurs, au cas non différentiable en utilisant des sous-différentiels au lieu des gradients, en permettant des coopérations entre plusieurs joueurs, . . . . . . . Revenons à l’inéquation (VI) avec F monotone continue et C convexe fermé. .α > 0 étant fixé, considérons la fonction . : C → C définie par .(x) = proj C (x − αF (x)). La fonction . est continue sur C et puisque .p ∈ C est projection de .x − αF (x) sur C si et seulement si p − x + αF (x), x − p ≥ 0
.
∀ x ∈ C,
le point .x¯ est solution de (VI) si et seulement si .x¯ = (x). ¯ Lorsque C est borné le théorème du point fixe de Brouwer permet d’affirmer l’existence de solutions de l’inéquation variationnelle. Des généralisations de ce théorème permettent d’étendre cette existence au cas où F est une multiapplication sous des conditions de continuité sur F au sens des multiapplications. Ces théorèmes du point fixe font appel à une lourde machinerie mathématique de type lemme de Zorn, axiome du choix, lemme de Sperner, théorème de Kakutani, . . . Nous allons montrer que l’étude des inéquations variationnelles monotones en dimension finie ne nécessite que des mathématiques assez élémentaires.
5.2 Inéquations variationnelles monotones Dans cette partie C est un sous-ensemble convexe fermé non vide de .Rn et → n est une multiapplication. Voici quatre formulations différentes n− .F : R → R d’inéquations variationnelles associées à F et C. (V1) Trouver .x¯ ∈ C tel qu’il existe . x¯ ∗ ∈ F (x) ¯ pour lequel .x¯ ∗ , y − x ¯ ≥ 0 pour tout .y ∈ C.
5.2 Inéquations variationnelles monotones
147
(V2) Trouver .x¯ ∈ C tel que pour tout .y ∈ C il existe .x ∗ (y) ∈ F (x) ¯ tel que ∗ .x (y), y − x ¯ ≥ 0. ∗ (V3) Trouver .x¯ ∈ C tel que .supx ∗ ∈F (x) ¯ ≥ 0 pour tout .y ∈ C. ¯ x , y − x ∗ (V4) Trouver .x¯ ∈ C tel que .y , y − x ¯ ≥ 0 pour tout .y ∈ C, .y ∗ ∈ F (y). La formulation (V1) est dite être la formulation forte de Stampacchia, les formulations (V2) et (V3) en sont des formulations faibles. La formulation (V4) est dite être de Minty. Proposition 5.1 Les quatre formulations sont équivalentes lorsque .F est une multiapplication monotone maximale sur . ouvert contenant C. Preuve : Désignons par .S(V 1), S(V 2), S(V 3) et .S(V 4) respectivement les ensembles des solutions des 4 inéquations variationnelles. Les inclusions .S(V 1) ⊂ S(V 2) ⊂ S(V 3) sont évidentes. .F étant monotone maximale sur l’ensemble ouvert . , l’ensemble .F (x) est un convexe compact non vide de .Rn quel que soit .x ∈ C. Donc .S(V 2) = S(V 3). Puisque F est monotone .S(V2 ) ⊂ S(V 4). C étant convexe, .x¯ ∈ C est solution de (V1) si et seulement .x¯ ∗ ∈ F (x) ¯ existe tel que .x¯ ∗ , d ≥ 0 pour tout .d ∈ D où D est l’ensemble convexe compact .D = {d = y − x¯ : y ∈ C, d ≤ 1}. Supposons .x¯ ∈ S(V 3). Compte tenu de la compacité et de la convexité des ensembles D et .F (x) ¯ 0 ≤ min ∗max x ∗ , d,
.
d∈D x ∈F (x) ¯
¯ ∈ F (x) et, en raison du théorème du minimax, il existe .(x¯ ∗ , d) ¯ × D tel que ¯ ≤ x¯ ∗ , d 0 ≤ min ∗max x ∗ , d = x¯ ∗ , d
.
d∈D x ∈F (x) ¯
∀ d ∈ D.
L’inclusion .S(V 3) ⊂ S(V 1) est donc prouvée. / S(V 2) et .x¯ ∈ C. Il existe alors .y¯ ∈ C tel que Supposons maintenant .x¯ ∈ F (x) ¯ ⊂ {x ∗ : x ∗ , y¯ − x ¯ < 0} := W.
.
Puisque F est scs en .x¯ et W est ouvert, il existe .V ⊂ voisinage convexe ouvert de .x¯ tel que .F (V ) ⊂ W . Prenons .t ∈ ] 0, 1[ tel que .xˆ = x¯ + t (y¯ − x) ¯ ∈ V . Alors, pour tout .x ∗ ∈ F (x) ˆ on a .x ∗ , xˆ − x ¯ < 0 et donc .x¯ ∈ / S(V 4). . Compte tenu de ces équivalences nous dénoterons par (V) l’inéquation variationnelle décrite sous l’une ou l’autre formulation et par S(V) l’ensemble des solutions de cette inéquation. Intéressons-nous maintenant à la structure de S(V). Construisons la fonction .g : Rn → R suivante
148
5 Inéquations Variationnelles
g(x) = sup
.
y,y ∗
y ∗ , x − y ∗ : y ∈ C, y ∈ F (y) . (1 + y)(1 + y ∗ )
(5.1)
La fonction g est convexe puisque sup de fonctions affines, elle est finie sur tout l’espace .Rn on a .0 ≤ g(x) pour tout .x ∈ C. Associons avec g le problème d’optimisation suivant .α = inf [ g(x) : x ∈ C ]. On en déduit le résultat suivant. Proposition 5.2 Si .C ⊂ Rn est un convexe fermé et si .F est une multiapplication maximale monotone sur un ouvert . contenant C, S(V) est un convexe fermé. Preuve : .x¯ ∈ C est solution de (V) si et seulement si .g(x) ¯ = 0 = α. Or la fonction g est convexe continue et C est un convexe fermé. .
.
La fonction g permet de caractériser les solutions de (V), elle est appelée fonction d’écart (gap function). Malheureusement, de par sa définition, elle est difficilement utilisable d’un point de vue algorithmique.
5.2.1 Existence de solutions Nous commençons par le cas où C est borné. → Rn est une multiapplication maximale monotone et si → Théorème 5.1 Si .F : Rn − C ⊂ int (dom (F )) est un convexe compact non vide, S(V) est un convexe compact non vide.
.
= C + B(0, r) ⊂ int (dom (F )). L’image du Preuve : Il existe .r > 0 tel que .C par la multiapplication F est compacte en raison de la proposition 2.7, compact .C il existe donc M tel que x ∗ ≤ M
.
∀ x ∗ ∈ F (x). ∀ x ∈ C,
k étant un entier strictement positif, on construit la multiapplication .Fk par Fk (x) = F (x) + k (x − proj C (x))
.
∀ x ∈ Rn .
.Fk est monotone puisque somme de deux multiapplications monotones. .Fk coincide avec F sur C. Montrons que .Fk est maximale monotone. Supposons .G monotone tel que .G ⊃ Fk . Alors .G + k proj C ⊃ Fk + k proj C . Mais, .Fk + k proj C = F + k I est maximale monotone en raison du Théorème de Minty et donc .G + k proj C = Fk + k proj C . On en déduit .G = Fk . Montrons maintenant que .0 ∈ int (dom (Fk−1 )) pour k suffisamment grand. Pour n .d ∈ R de norme 1, on choisit .y(d) ∈ arg maxx [ d, x : x ∈ C ]. On a alors ∗ .proj C (y(d) + d) = y(d). Choisissons .x (d) ∈ Fk (y(d) + d). Il est aisé de voir k qu’il existe .k(d) tel que
5.2 Inéquations variationnelles monotones
.
149
xk∗ (d) 1 − d ≤ xk∗ (d) 10
∀ k ≥ k(d).
On prend .k = maxi k(±ei ), les .ei étant les n vecteurs de la base canonique de .Rn . 0 appartient à l’enveloppe convexe des points .xk∗ (±ei ) et donc, puisque .Fk−1 est maximale monotone, .0 ∈ int (dom (Fk−1 )). Choisissons .xk ∈ Fk−1 (0) et appelons .yk la projection de .xk sur C. D’une part, il existe .xk∗ ∈ F (xk ) tel que .0 = xk∗ + k(xk − yk ). D’autre part, x ∗ , x − xk ≥ 0 ∀ x, ∀ x ∗ ∈ Fk (x).
.
En particulier, x ∗ , x − xk ≥ 0
.
∀ x ∈ C, ∀ x ∗ ∈ F (x).
(5.2)
Choisissons ensuite un point .yk∗ dans .F (yk ). Puisque F est monotone on a 0 ≤ xk∗ − yk∗ , xk − yk .
.
En remplaçant .xk∗ par .k(yk − xk ) on obtient k xk − yk 2 ≤ yk∗ , yk − xk ≤ M xk − yk .
.
Il s’ensuit que .xk − yk tend vers 0 lorsque .k → +∞. C étant compact, il existe x¯ ∈ C valeur d’adhérence commune aux suites .{xk } et .{yk }. Passant à la limite dans l’inéquation (5.2), on obtient
.
x ∗ , x − x ¯ ≥ 0 ∀ x ∈ C, ∀ x ∗ ∈ F (x).
.
x¯ est donc solution de l’inéquation variationnelle.
.
.
Intéressons-nous maintenant au cas où C est un convexe fermé non borné. Rappelons, qu’étant donné .A ⊂ Rn non vide, l’ensemble .A− est l’ensemble convexe fermé A− = {x ∗ ∈ Rn : x ∗ , x ≤ 0
.
∀ x ∈ A}.
→ Rn est une multiapplication maximale → Théorème 5.2 ( [23]) Si .F : Rn − monotone et si .C ⊂ int (dom (F )) est un convexe fermé non vide, S(V) est un convexe compact non vide si et seulement si .C∞ ∩ [F (C)]− = {0}. Preuve : Appelons S l’ensemble des solutions optimales du problème d’optimisation convexe α = inf [ g(x) : x ∈ C ]
.
150
5 Inéquations Variationnelles
où g est la fonction d’écart g définie en (5.1). On a vu que .x¯ est solution optimale de (V) si et seulement si .x¯ ∈ C et .0 = g(x) ¯ = α. i) L’ensemble S est un compact non vide si et seulement si la fonction convexe continue g est inf-compacte sur C, c’est-à-dire, si et seulement si .C∞ ∩ { d : g∞ (d) ≤ 0} = {0}. Calculons la fonction .g∞ . Choisissons .x ∈ C arbitraire, .d ∈ Rn étant fixé g∞ (d) = lim
.
t→∞
g(x + td) = lim sup θy,y ∗ (t, x), t→∞ y∈C, y ∗ ∈F (y) t
avec θy,y ∗ (t, x) =
.
1 y ∗ , x − y ∗ y . , d + (1 + y)(1 + y ∗ ) t
Puisque .
x y ∗ |y ∗ , x − y| ≤ + ≤ x + 1, (1 + y)(1 + y ∗ ) (1 + y) (1 + y ∗ ) 6 6 6 x + 1 6 y ∗ , d 6≤ 6 , . θy,y ∗ (t, x) − 6 ∗ (1 + y)(1 + y ) 6 t 6 6 6 g(x + td) 6 x + 1 y ∗ , d 6 6 − sup , .6 6≤ ∗ 6 ∗ t t y∈C y ∈F (y) (1 + y)(1 + y ) 6 g∞ (d) =
.
y ∗ , d . ∗ y∈C y ∗ ∈F (y) (1 + y)(1 + y ) sup
Ainsi { d : g∞ (d) ≤ 0} = { d : y ∗ , d ≤ 0 ∀ y ∗ ∈ F (C)} = [F (C)]− .
.
ii) Il reste à montrer que .α = 0 lorsque S est un compact non vide. Posons M = 1+maxx∈S x et .D = C ∩B(0, M). D est un convexe compact. L’inéquation variationnelle trouver .x¯ ∈ D et .x¯ ∗ ∈ F (x) ¯ tel que .x¯ ∗ , z − x ¯ ≥ 0 pour tout .z ∈ D a des solutions en raison du théorème 5.1. Soit .(x, ¯ x¯ ∗ ) une solution. ¯ ∈ D, mais alors Soit .y ∈ C ∩ D c . Il existe .t ∈ (0, 1) tel que .z = x¯ + t (y − x) .x ¯ ∗ , y − x ¯ ≥ 0. Donc le couple .(x, ¯ x¯ ∗ ) est solution de l’inéquation variationnelle originale (V) et par conséquent .α = 0. S est l’ensemble des solutions de (V). . .
Observons que la condition du théorème est remplie lorsque C est compact puisqu’alors .C∞ = {0}. On retrouve le théorème 5.1. La condition est aussi remplie lorsque .[F (C)]− = {0}. Nous reviendrons sur cette situation plus tard.
5.2 Inéquations variationnelles monotones
151
Nous allons maintenant utiliser la dualité entre cônes asymptotique et barrière (voir proposition 2.6) afin d’obtenir une formulation duale du théorème précédent. Rappelons pour mémoire que lorsque C est un convexe fermé non vide, barr (C) = {x ∗ : sup x ∗ , x < ∞},
.
x∈C
[C∞ ]◦ = barr (C),
C∞ = [barr (C)]0 .
→ Rn est une multiapplication maximale monotone et si Théorème 5.3 Si .F : Rn − → .C ⊂ int (dom (F )) est un convexe fermé non vide, S(V) est un convexe compact non vide si et seulement si .0 ∈ int (barr (C) + conv (F (C))). Preuve : i) Montrons tout d’abord que si .A1 et .A2 sont deux cônes convexes non vides de .Rn on a .(A1 + A2 )◦ = A◦1 ∩ A◦2 et .A1 + A2 = (A◦1 ∩ A◦2 )◦ . En effet ∗ ◦ .x ∈ (A1 + A2 ) si et seulement si x ∗ , λ1 x1 + λ2 x2 ≤ 0
.
∀ λ1 , λ2 > 0, ∀ x1 ∈ A1 , ∀ x2 ∈ A2 .
On en déduit la première assertion. Ensuite, puisque .A1 + A2 est un cône convexe, on a .(A1 + A2 )◦◦ = A1 + A2 . Prenons maintenant .A1 = barr (C) et .A2 = K où K est le cône convexe engendré par .conv (F (C)). Puisque .A◦1 = C∞ et .A◦2 = [F (C)]− , la condition − = {0} est équivalente à la condition .C∞ ∩ [F (C)] [C∞ ∩ [F (C)]− ]0 = barr (C) + K = Rn .
.
L’ensemble .barr (C) + K est un convexe, sa fermeture coïncide avec .Rn si et seulement s’il coïncide lui-même avec .Rn . L’ensemble est aussi un cône. Il coïncide avec .Rn si et seulement 0 appartient à son intérieur. Les conditions .C∞ ∩[F (C)]− = {0} et .0 ∈ int (barr (C) + K) sont donc équivalentes. ii) Supposons maintenant .0 ∈ / int (barr (C)+conv (F (C)). L’ensemble .barr (C)+ conv (F (C)) est un convexe non vide, il existe donc .x¯ = 0 tel que x, ¯ λx ∗ + y ∗ ≤ 0
.
∀ λ > 0, ∀ x ∗ ∈ barr (C), ∀ y ∗ ∈ conv (F (C)).
On en déduit .x¯ ∈ [barr (C)]0 ∩ [conv (F (C))]− = C∞ ∩ [F (C)]− et donc .C∞ ∩ [F (C)]− = {0}. On vient de montrer que .C∞ ∩ [F (C)]− = {0} implique .0 ∈ int (barr (C) + conv (F (C)). iii) Mais .0 ∈ int (barr (C) + conv (F (C)) implique .0 ∈ int (barr (C) + K). On a montré que les trois conditions .C∞ ∩ [F (C)]− = {0}, .0 ∈ int (barr (C) + K) et .0 ∈ int (barr (C) + conv (F (C)) sont donc équivalentes. Il suffit maintenant d’appliquer le théorème 5.2. . La condition .0 ∈ int (barr (C) + conv (F (C))) est trivialement remplie lorsque 0 ∈ int (conv (F (C)), c’est-à-dire lorsque le cône engendré par .F (C) coïncide avec n − = {0}. .R . On a alors .[F (C)] .
152
5 Inéquations Variationnelles
En appliquant le théorème lorsque F est le gradient d’une fonction convexe on retrouve les résultats bien connus sur l’existence de solutions optimales. Reformulons maintenant les théorèmes d’existence sans faire mention explicite de maximalité. → Rn est une multiapplication monotone → Théorème 5.4 On suppose que .F : Rn − et scs sur . ouvert convexe telle que, pour tout .x ∈ , l’ensemble .F (x) est un convexe compact non vide. Si, en outre .C est un convexe fermé non vide contenu dans . , chacune des deux conditions suivantes
(a) .C∞ ∩ [F (C)]− = {0}; (b) .0 ∈ int (barr (C) + conv (F (C))). est une condition nécessaire et suffisante pour que S(V) soit un convexe compact non vide. Preuve : Il existe D convexe fermé tel que .C ⊂ int (D) ⊂ . La multiapplication F + ND est maximale monotone en raison du théorème 4.7. Appliquer ensuite les théorèmes 5.2 et 5.3. .
.
Corollaire 5.1 Considérons le problème .min [ f (x) : x ∈ C ] où f est une fonction convexe sci propre et .C ⊂ int (dom (f )) est un ensemble convexe fermé non vide. L’ensemble des solutions optimales est un ensemble convexe compact non vide si et seulement si . 0 ∈ int (barr (C) + conv (∂f (C))). Lorsque .C = Rn , la condition devient . 0 ∈ int (dom (f ∗ )). Preuve : Il suffit de voir que, lorsque .C = Rn , les conditions .0 ∈ int (dom (f ∗ )) et n .0 ∈ int (∂f (R )) sont équivalentes. . Le corollaire suivant a été énoncé par Harker et Pang [44] dans le cadre plus restrictif des applications univoques, il est une conséquence immédiate de l’inclusion .C − ⊂ barr (C). → Rn est une multiapplication maximale monotone, si → Corollaire 5.2 Si .F : Rn −
C ⊂ int (dom (F )) est un convexe fermé non vide et si .0 ∈ F (C) + int (C − ) alors S(V) est un convexe compact non vide.
.
Intéressons-nous maintenant aux inéquations variationnelles linéaires. Théorème 5.5 Soit .C = {x ∈ Rn : x ≥ 0, Bx ≤ b} et .F (x) = Mx + q avec n p .q ∈ R , b ∈ R , M est une matrice .n × n semi-définie positive et B est une matrice .p × n. On suppose en outre C non vide. L’ensemble des solutions du problème trouver x ∈ C tel que Mx + q, x − x ≥ 0 ∀ x ∈ C,
.
est un convexe compact non vide si et seulement s’il existe .λ ≥ 0, .x ≥ 0 et .y ≥ 0 tels que .Bx ≤ λb et .Mx + B t y + λq > 0. Preuve : L’ensemble des solutions est un convexe fermé en raison de la proposition 5.2. D’une part .C∞ = { d : d ≥ 0, Bd ≤ 0} et d’autre part .d ∈ [F (C)]− si et
5.3 Quelques exemples
153
seulement si .
sup [ Mx + q, d : Bx ≤ b ] ≤ 0. x≥0
Par dualité en programmation linéaire .d ∈ [F (C)]− si et seulement s’il existe .u ≥ 0 tel que .q, d + b, u ≤ 0 et .B t u − M t d ≥ 0. Posons .en = (1, 1, · · · , 1)t ∈ Rn . .C∞ ∩ [F (C)]− = {0} si et seulement si 0=
sup
.
[ en , d : Bd ≤ 0, M t d − B t u ≤ 0, q t d + bt u ≤ 0 ],
(5.3)
d≥0, u≥0
qui est équivalent, par dualité en programmation linéaire, à 0=
.
inf
x≥0, y≥0,λ≥0
[ 0 : Mx + B t y + λq ≥ en , −Bx + λb ≥ 0 ].
C’est-à-dire encore équivalent à ∃ λ ≥ 0, x ≥ 0, y ≥ 0 tels que Mx + B t y + λq ≥ en , Bx ≤ λb.
.
La condition est donc nécessaire. Pour montrer qu’elle est suffisante, il suffit de remplacer .en par .ε = Mx + B t y + λq dans (5.3) pour obtenir .C∞ ∩ [F (C)]− = {0}. . Dans le théorème ci-dessus, il suffit de considérer les deux cas .λ = 0 et .λ = 1. Le théorème s’écrit : l’ensemble des solutions est un compact non vide si et seulement si une des deux conditions suivantes est satisfaite : — Il existe .x ≥ 0 et .y ≥ 0 tels que .Bx ≤ 0 et .Mx + B t y > 0. — Il existe .x ∈ C et .y ≥ 0 tels que .Mx + q + B t y > 0.
5.3 Quelques exemples Lorsque C est un cône convexe fermé, le problème .(V I ) devient trouver x ∈ C, x ∗ ∈ F (x) tels que x ∗ , λx − x ≥ 0 ∀ x ∈ C, ∀ λ ≥ 0.
.
x ∈ C est donc solution si et seulement si .x ∗ ∈ −C 0 et .x ∗ , x ≤ 0, soit encore si et seulement si .x ∗ ∈ −C 0 et .x ∗ , x = 0. Le problème s’écrit donc
.
Trouver x ∈ C, x ∗ ∈ F (x) tels que x ∗ ∈ −C 0 et x ∗ , x = 0.
.
(Cp)
154
5 Inéquations Variationnelles
Un tel problème est appelé problème de complémentarité. Si F est monotone on parle d’un problème de complémentarité monotone. C étant un cône convexe fermé, .C∞ = C et .barr (C) = C 0 . Les conditions d’existence des théorèmes 5.2, 5.3 et 5.4 deviennent .C ∩ [F (C)]− = {0} et .0 ∈ C 0 + conv (F (C)). Lorsque .C = Rn , .C 0 = {0}. Le problème de complémentarité n’est rien d’autre que la résolution de l’inclusion non linéaire .0 ∈ F (x). Voici quelques exemples de problèmes moins triviaux qui peuvent se formaliser comme problèmes de complémentarité.
5.3.1 Optimisation convexe Le problème d’optimisation convexe avec contraintes .min f (x) sujet à .gi (x) ≤ 0, i = 1, · · · , p où les fonctions .f, gi sont convexes sci sur .Rn et où la condition de Slater est satisfaite peut s’écrire comme un problème de complémentarité monotone. En effet, il revient à trouver .x¯ ∈ Rn , .x¯ ∗ ∈ ∂f (x), ¯ .x¯i∗ ∈ ∂gi (x) ¯ et .u¯ ∈ Rp tels que
.
x¯ ∗ +
p
.
u¯ i x¯i∗ = 0,
g(x) ¯ ≤ 0,
u¯ ≥ 0,
i=1
p
u¯ i gi (x) ¯ = 0.
i=1
Ce problème est de la forme (Cp) en prenant .C = Rn × [0, +∞[ p et .F : Rn × → Rn × Rp définie par → R − p
(y ∗ , v ∗ ) ∈ F (x, u) ⇐⇒ y ∗ ∈ ∂f (x) +
p
.
ui ∂gi (x), v ∗ = {−g(x)}.
i=1
La multiapplication F est monotone sur C si ∗
∗
A = x −y , x−y+
.
p
ui xi∗ , x−y−
i=1
p
vi yi∗ , x−y+g(x)−g(y), v−u ≥ 0,
i=1
pour tout .x, y ∈ Rn , .u, v ∈ [0, ∞[ p , .x ∗ ∈ ∂f (x), .y ∗ ∈ ∂f (y) et .xi∗ ∈ ∂gi (x), ∗ .y ∈ ∂gi (y) .i = 1, · · · , p. i ∗ ∗ .A = x − y , x − y + A1 + A2 avec A1 =
p
.
# $ ui gi (y) − gi (x) − xi∗ , y − x ,
i=1
A2 =
p i=1
# $ vi gi (x) − gi (y) − yi∗ , x − y .
5.3 Quelques exemples
155
La convexité des fonctions f et .gi entraine .A ≥ 0 et donc la monotonie de F . Lorsque .(x, ¯ u) ¯ ∈ C est solution du problème de complémentarité, .u¯ ≥ 0, .F (x, ¯ u) ¯ ⊂ −C − = {0} × [0, ∞[ p (et donc .g(x) ¯ ≤ 0) et finalement .g(x), ¯ u ¯ = 0. On retrouve les conditions d’optimalité.
5.3.2 Points de selle Considérons le problème Trouver (x, ¯ y) ¯ ∈ A × B tel que l(x, ¯ y) ≤ l(x, ¯ y) ¯ ≤ l(x, y) ¯ ∀ (x, y) ∈ A × B,
.
où .A ⊂ Rn et .B ⊂ Rp sont des convexes fermés non vides et l est une fonction différentiable, convexe sci en la première variable, concave scs en la deuxième. Ce problème consiste à trouver .(x, ¯ y) ¯ ∈ A × B tel que .x¯ minimise sur .Rn la fonction .l(·, y) ¯ + δ(·, A) et .y¯ minimise sur .Rp la fonction .−l(x, ¯ ·) + δ(·, B). Le problème de complémentarité associé (Cp) est obtenu avec F (x, y) =
.
∇x l(x, y) + NA (x) , −∇y l(x, y) + NB (y)
C = R n × Rp .
La multiapplication F est monotone.
5.3.3 Jeu bimatriciel, équilibre de Nash Suivant Chandrasekaran [14], nous considérons un jeu à deux joueurs où les deux joueurs disposent respectivement de n et m stratégies pures et de deux matrices .n×m A et B indiquent les gains des joueurs : si le premier joueur adopte la stratégie i et le deuxième la stratégie j le premier joueur reçoit .aij et le second .bij . Contrairement aux jeux à somme nulle, on ne suppose pas .A + B = 0. Posons .en = (1, 1, · · · , 1) ∈ Rn et .em = (1, 1, · · · , 1) ∈ Rm , ensuite .P = {p ∈ n R : p ≥ 0, en , p = 1} et .Q = {q ∈ Rm : q ≥ 0, em , q = 1}. Une stratégie mixte consiste pour le premier joueur à se donner un vecteur de probabilité .p ∈ P et choisir la stratégie pure i avec la probabilité .pi , même situation pour le deuxième joueur mais avec un vecteur .q ∈ Q. Si le deuxième joueur adopte la stratégie mixte .q, ¯ la meilleure stratégie mixte p ¯ p. pour le premier joueur est de choisir p qui maximise .Aq, Si le premier joueur adopte la stratégie mixte .p, ¯ la meilleure stratégie mixte q pour le deuxième joueur est de choisir q qui maximise .Bq, p. ¯ A et B sont des matrices .n × m données. Lorsque le couple .(p, ¯ q) ¯ est tel que Aq, ¯ p ¯ ≥ Aq, ¯ p ∀ p ∈ P et B q, ¯ p ¯ ≥ Bq, p ¯ ∀ p ∈ Q,
.
156
5 Inéquations Variationnelles
on dit que l’on a obtenu un équilibre au sens de Nash : si la stratégie du deuxième joueur est .q, ¯ la meilleure stratégie du premier est .p. ¯ Réciproquement si la stratégie du premier joueur est .p, ¯ la meilleure stratégie du second est .q. ¯ Posons M=
.
0 −A p −Aq , F (p, q) = M , = −B t 0 q −B t p
C = P × Q.
La recherche de l’équilibre consiste alors à trouver .u¯ = (p, ¯ q) ¯ solution de l’inéquation variationnelle trouver u¯ ∈ C tel que F (u), ¯ u − u ¯ ≥ 0 ∀ u ∈ C.
.
Lorsque F est monotone, la compacité de l’ensemble C assure l’existence d’un couple .(p, q) pour lequel on a un équilibre. L’ensemble de tels couples est un convexe compact. Il nous faut chercher sous quelle condition F est monotone sur l’ensemble C. Ce sera le cas si et seulement si la forme quadratique associée à la matrice M sur t y} est semi-définie positive. le sous-espace vectoriel .E = {(x, y) : ent x = 0 = em 1 t )y, Puisque .(x, y) ∈ E si et seulement si .x = (In − n en ent )x et .y = (Im − m1 em em F sera monotone sur C si et seulement si la matrice N ci-dessous n’a aucune valeur propre négative N=
.
0 −T −T t 0
où T = (In −
1 1 t en et )(A + B)(Im − em em ). n n m
F est donc monotone sur C si et seulement si .T = 0. Maintenant, .T = 0 si et seulement si (A + B) =
.
1 1 1 t t en ent (A + B) + (A + B)em em en et (A + B)em em − . n m nm n
En posant u = n−1 (A + B)t en ,
.
v = m−1 (A + B)em ,
λ = (nm)−1 ent (A + B)em ,
t − λe et . Remplaçant .A + B par cette expression on obtient .A + B = en ut + vem n m on obtient
.
u=
1 en , v t t t (en ut + vem − λ ]em , − λen em ) en = u + [ n n
v=
1 em , u t t (en ut + vem − λ ]en . − λen em )em = v + [ m m
.
ce qui implique .λ =
em ,u m
=
en ,v n .
5.4 Compléments sur l’ensemble solution
157
Proposition 5.3 F est monotone sur C si et seulement s’il existe .u ∈ Rm , .v ∈ Rn t − λe et et .λ = em ,u = en ,v . L’ensemble et .λ ∈ R tels que .A + B = en ut + vem n m m n des équilibres de Nash du problème est alors un convexe compact non vide. Nous avons vu (chapitre 3) que dans le cas .A + B = 0 (jeu à somme nulle) la résolution du problème relevait de techniques de programmation linéaire, ce n’est plus le cas dans le cas .A + B = 0. Ce problème ne peut se ramener à un problème d’optimisation, nous reviendrons sur ce problème dans la partie consacrée aux problèmes dits de complémentarité linéaire.
5.4 Compléments sur l’ensemble solution Nous supposons dans ce paragraphe que les conditions du théorème 5.4 sont remplies. Nous avons déjà vu que S(V) est un convexe compact non vide. i) Intéressons-nous à l’unicité de la solution. → n n− .F : R → R est dit strictement monotone sur C si x1∗ − x2∗ , x1 − x2 > 0 ∀ x1 , x2 ∈ C, x1 = x2 ,
.
x1∗ ∈ F (x1 ), x2∗ ∈ F (x2 ).
→ Rn est dit fortement monotone de coefficient .γ > 0 (.γ -monotone) sur → F : Rn − C si
.
x1∗ − x2∗ , x1 − x2 ≥ γ x1 − x2 ∀ x1 , x2 ∈ C, x1∗ ∈ F (x1 ), x2∗ ∈ F (x2 ).
.
La forte monotonie entraine la stricte monotonie qui entraine la monotonie. Ainsi F est fortement monotone de coefficient .γ > 0 si .F − γ I est monotone. Lorsque F est différentiable, F est strictement monotone sur C si la matrice .F (x) est définie positive en tout .x ∈ C, .γ -monotone sur C si la matrice .F (x) − γ I est semi-définie positive en tout .x ∈ C. Supposons .F : Rn → Rn différentiable sur un ouvert . contenant le convexe C. Supposons en outre C contenu dans le sous espace affine .a + E où .E = {x : Ax = 0} avec A matrice .p × n de rang p. Avec .x ∈ C associons .M(x) la matrice .(n + p) × (n + p) suivante M(x) =
.
F (x) + [F (x)]t At A 0
.
La proposition 1.23 et le théorème 1.18 se transposent comme suit Théorème 5.6 F est monotone sur C si et seulement si .μ− (M(x)) = p quel que soit .x ∈ C. Si pour tout .x ∈ C on a .μ+ (M(x)) = n alors F est strictement monotone. Rappelons que A de rang p implique .μ− (M(x)) ≥ p et .μ+ (M(x)) ≥ p.
158
5 Inéquations Variationnelles
Le sous-différentiel d’une fonction est strictement monotone si et seulement si la fonction est strictement convexe, fortement monotone si et seulement si la fonction est fortement convexe. Le résultat suivant est immédiat. Proposition 5.4 Si F est strictement monotone sur C, il existe au plus une solution de l’inéquation variationnelle. Voici un algorithme de résolution de type point fixe dans le cas où F est Lipschitzienne et fortement monotone. Proposition 5.5 Si .C ⊂ Rn est un convexe fermé non vide, si .F : C → Rn est fortement monotone et lipshitzienne sur C, la suite .{xk } construite à partir de .x0 ∈ C arbitraire par la relation .xk+1 = proj C [ xk − ρ F (xk )] converge linéairement vers la solution unique de (VI) pour .ρ > 0 convenablement choisi. Preuve : Les hypothèses entrainent l’existence de .α > 0 et L tels que α x − y2 ≤ F (x) − F (y), x − y, F (x) − F (y) ≤ Lx − y ∀ x, y ∈ C.
.
Pour tout entier .k ≥ 0 on a xk+2 − xk+1 2 = proj C [ xk+1 − ρ F (xk+1 )] − proj C [ xk − ρ F (xk )]2 ≤
.
.
· · · ≤ xk+1 −xk 2 −2ρ F (xk+1 )−F (xk ), xk+1 −xk +ρ 2 F (xk+1 )−F (xk )]2 ≤ .
· · · ≤ xk+1 − xk 2 [1 − 2ρα + ρ 2 L2 ].
Choisir .ρ > 0 de manière à ce que .γ :=
*
1 − 2ρα + ρ 2 L2 < 1. On en déduit
xk+2 − xk+1 ≤ γ xk+1 − xk ≤ γ k+1 x1 − x0
.
∀ k ≥ 0,
xk+2 − x0 ≤ [ 1 + γ + γ 2 + · · · + γ k+1 ] x1 − x0 .
.
La suite .{xk } est donc bornée. Soit .(x, ¯ x) ˆ une valeur d’adhérence de la suite {(xk , xk+1 )}. Alors .x¯ = xˆ = proj C [ x¯ − ρ F (x) ¯ ]. Il s’ensuit .F (x), ¯ x − x ¯ ≥ 0 pour tout .x ∈ C. On sait par ailleurs que la solution de l’inéquation variationnelle est unique en raison de la forte monotonie. En procédant comme ci-dessus on montre que .xk+1 − x ¯ ≤ γ xk − x ¯ pour . tout k. La convergence vers .x¯ est donc linéaire.
.
ii) Une solution de l’inéquation variationnelle maximale monotone (V) étant connue, nous nous intéressons maintenant à la détermination des autres solutions. Soient .(a, a ∗ ) et .(b, b∗ ) tels que .a ∗ , x − a ≥ 0 et .b∗ , x − b ≥ 0 pour tout ∗ ∗ .x ∈ C Alors, .a , b − a ≥ 0 et .b , a − b ≥ 0 et donc en raison de la monotonie ∗ ∗ .a , b − a = b , a − b = 0. Ce résultat ne s’étend pas à tout .x ∗ ∈ F (a) et .y ∗ ∈ F (b) : prendre, par exemple, pour F le sous-différentiel de la fonction convexe f définie par .f (x) =
5.4 Compléments sur l’ensemble solution
159
max [ 0, |x| − 1 ] pour tout .x ∈ R. Par contre, pour tout .c = a + t (b − a) avec t ∈ ] 0, 1 [ et .c∗ ∈ F (c) on a .c∗ , c − a = 0. Soit .(a, a ∗ ) tel que .a ∗ , x − a ≥ 0 pour tout .x ∈ C. Si .b ∈ S(V ), il existe ∗ ∗ .b ∈ F (b) tel que .b , x − b ≥ 0 pour tout .x ∈ C. Donc, .
S(V) ⊂ {x ∈ C : ∃ x ∗ ∈ F (x) tel que x ∗ , x − a = 0} ⊂ . . . ,
.
.
· · · ⊂ {x ∈ C : a ∗ , x − a = 0}.
Sans hypothèses additionnelles on ne peut assurer les égalités : prendre par exemple .C = [0, ∞[×R, .F (x) = (x2 , −x1 )t , .a = (0, 0)t est solution et t .b = (0, −1) ne l’est pas. Pourtant .F (a), b − a = 0 = F (b), b − a. D’où l’intérêt de conditions impliquant l’égalité, égalité essentielle dans les algorithmes utilisés pour la recherche de solutions approchées, en particulier les algorithmes de plans coupants (“cutting plane algorithms”). Elle est utilisée comme suit : si le point courant .xk n’est pas solution de l’inéquation variationnelle et si .xk∗ ∈ F (xk ) alors l’ensemble .S(V ) est contenu dans l’ensemble .{a ∈ C : xk∗ , a − xk < 0}. .a ∈ S(V ) étant donné, intéressons-nous aux conditions qui impliquent l’égalité S(V ) = {x ∈ C : ∃ x ∗ ∈ F (x) tel que x ∗ , x − a = 0}.
.
(eg)
Proposition 5.6 Si F est maximale monotone et cycliquement monotone d’ordre 2 sur .C ⊂ int (dom (F )) et si .a ∈ S(V ) alors on a l’égalité (eg) Preuve : Il existe .a ∗ tel que .(a, a ∗ ) est solution de (V1). Soit .b ∈ C et .b∗ ∈ F (b) tel que .b∗ , b − a = 0. La 2-monotonie implique b∗ , a − b + a ∗ , x − a + x ∗ , b − x ≤ 0
.
∀ x ∈ C, ∀ x ∗ ∈ F (x).
Donc 0 ≤ a ∗ , x − a ≤ x ∗ , x − b
.
∀ x ∈ C, ∀ x ∗ ∈ F (x).
b est donc bien solution de .(V4 ).
.
C’est le cas en particulier lorsque F est le sous-différentiel d’une fonction convexe f puisque celui-ci est cycliquement monotone à tout ordre. En outre, dans ce cas .S(V ) = {x ∈ C : f (x) = f (a)}. Nous supposons maintenant que C est un convexe fermé et F est une application univoque monotone sur C. Remarquons que, si chaque fois que .a ∈ S(V ) et que .b ∈ C est tel que .F (b), b − a = 0, on a .F (b) = F (a) alors F (b), x − b = F (a), x − a + F (b), a − b ≥ 0
.
∀x ∈ C
160
5 Inéquations Variationnelles
et par conséquent on a l’égalité (eg). Cette remarque motive l’introduction de la définition suivante. n + [25] sur .F : C → R est dite être paramonotone [54] ou encore monotone. C si monotone et si pour tout .x, y ∈ C F (x) − F (y), x − y = 0 ⇒ F (x) = F (y).
.
Proposition 5.7 La paramonotonie implique l’égalité (eg). Preuve : Soient .a ∈ S(V ), b ∈ C tels que .F (b), b − a = 0. La monotonie de F implique .F (b) − F (a), b − a = 0, la monotonie.+ implique .F (b) = F (a). On a pour tout .x ∈ C F (b), x − b = F (a), x − a + F (b), a − b ≥ 0.
.
Ainsi .b ∈ S(V ).
.
On montre facilement que la somme de deux multiapplications cycliquement monotones d’ordre 2 (paramonotones) est cycliquement monotone d’ordre 2 (paramonotone). La proposition suivante donne une condition suffisante de monotonie.+ Proposition 5.8 ( [25]) Soit .F : → Rn une application monotone différentiable sur . ⊂ Rn convexe ouvert. F est paramonotone sur . lorsque .
ker [ (F (x) + [F (x)]t ] ⊂ ker[ F (x) ]
∀ x ∈ .
Preuve : 1) Supposons .a, b ∈ tels que .F (b) − F (a), b − a = 0. Posons .h = (b − a). Soit .t ∈ [ 0, 1 ]. La monotonie de F implique .F (a + th) − F (a), h ≥ 0 et .F (b) − F (a + th), h ≥ 0. Il s’ensuit donc .F (a + th), h = F (a), h pour tout .t ∈ [0, 1] et par conséquent .F (a + th)h, h = 0. Puisque la matrice .F (a + th) est t semi-définie positive on a .(F (a+th)+[F (a+th)] )h = 0 et donc .F (a+th)h = 0 pour tout .t ∈ [0, 1]. Il s’ensuit donc .F (a + th) = F (a) pour tout .t ∈ [0, 1]. F est . bien paramonotone. Cette proposition conduit à la définition suivante : une matrice semi-définie positive A .n×n est dite semi-définie positive plus, en abrégé psd.+ si .(A+At )v = 0 implique .Av = 0. Il est clair que A est psd.+ si et seulement si .At est psd.+ . Proposition 5.9 Une matrice semi-définie positive A est psd.+ si et seulement si n n t t .A (R ) ⊂ (A + A )(R ). Preuve : Par hypothèse .{ v : (A + At )v = 0} ⊂ { v : Av = 0}. Passant aux sous-espaces orthogonaux des deux sous-espaces linéaires on obtient (A + At )(Rn ) = {v : (A + At )v = 0}⊥ ⊃ {v : Av = 0}⊥ = At (Rn ).
.
5.5 Problèmes d’équilibre monotones
161
D’où l’équivalence.
.
On a l’implication A définie positive ⇒ A psd+ ⇒ A semi-définie positive.
.
Proposition 5.10 Si F définie par .F (x) = Ax + a est cycliquement monotone d’ordre 2, alors A est psd.+ et F est paramonotone. Preuve : L’hypothèse implique Ax0 + a, x1 − x0 + Ax1 + a, x2 − x1 + Ax2 + a, x0 − x2 ≤ 0
.
∀ x0 , x1 , x2 .
Poser .u = x1 − x0 , v = x2 − x1 . La condition devient Au, u + Av, u + Av, v ≥ 0 ∀ u, v.
.
Supposons que l’on ait .(A + At )u = 0 avec .Au = 0. Prendre .v = λAt u. Alors, Au, u = 0,
.
λAt u2 + λ2 AAt u, At u ≥ 0 ∀ λ
ce qui n’est pas vrai pour .λ < 0 proche de 0.
.
5.5 Problèmes d’équilibre monotones Ces problèmes ont été introduits par Blum et Oettli [8] dans le but de généraliser les inéquations variationnelles. Ils sont de la forme Trouver a ∈ C tel que γ (a, x) ≥ 0 ∀ x ∈ C,
.
(Eqp)
où C est un sous ensemble convexe de . convexe ouvert et .γ est une fonction réelle définie sur . × . (Eqp) est dit être un problème d’équilibre monotone si : γ (x, x) = 0 pour tout .x ∈ C. la fonction .γ (x, ·) est convexe pour tout .x ∈ . .γ (x, y) + γ (y, x) ≤ 0 pour tout .x, y ∈ . la fonction .γ (·, y) est scs pour tout .y ∈ .
1. 2. 3. 4.
.
L’inéquation variationnelle Trouver a ∈ C tel que sup [ a ∗ , x − a : a ∗ ∈ (a) ] ≥ 0
.
∀ x ∈ C,
(I nv)
où .C ⊂ et . est une multiapplication maximale monotone sur . ouvert s’écrit comme un problème d’équilibre monotone en prenant .γ (x, y) = sup [ a ∗ , x − a : a ∗ ∈ (a) ]. Il a été espéré que les problèmes d’équilibre monotones puissent
162
5 Inéquations Variationnelles
couvrir une classe de problèmes plus vaste que celle couverte par les inéquations monotones. Nous allons montrer que ces espérances sont vaines. Théorème 5.7 Supposons les conditions 1 à 4 satisfaites. Pour tout .x ∈ posons (x) = {x ∗ : x ∗ , y − x ≤ γ (x, y)
.
∀ y ∈ }.
Alors . est maximale monotone. Preuve : Soit .x ∈ , fixé. Puisque .γ (x, x) = 0, .(x) n’est rien d’autre que le sous différentiel au point x de la fonction .γx = γ (x, ·). Mais .x ∈ int (dom (γx )) et par conséquent .(x) est un ensemble convexe fermé non vide. Soient .x, y ∈ , .x ∗ ∈ (x) et .y ∗ ∈ (y). Alors, x ∗ − y ∗ , x − y ≥ −γ (x, y) − γ (y, x) ≥ 0.
.
Donc . est monotone sur l’ensemble convexe ouvert . . Etant donné .x¯ ∈ , il existe un voisinage .V ⊂ de .x¯ et un compact K tel que, pour tout .y ∈ V , .(y) est un sous-ensemble de K convexe compact non vide. Montrons que la multiapplication . est scs en tout .x¯ ∈ . Si ce n’est pas le cas, il existe .x¯ ∈ , W ouvert contenant .(x) ¯ et une suite .{(xk , xk∗ )}k ∈ gph () ∗ telle que la suite .{xk }k converge vers .x¯ et .xk ∈ / W pour tout k. La suite .{xk∗ } est ∗ bornée. Soit .x¯ une de ses valeurs d’adhérence. Donc .x¯ ∗ ∈ / W . Soit .y ∈ fixé, ∗ .x , y − xk − γ (xk , y) ≤ 0 pour tout k. La scs de la fonction .γ (·, y) implique k .x ¯ ∗ , y − x ¯ − γ (x, ¯ y) ≤ 0. Ceci est vrai pour tout .y ∈ et donc .x¯ ∗ ∈ (x) ¯ ⊂ W, en contradiction avec .x¯ ∗ ∈ / W. Le théorème est alors une conséquence du théorème 4.4. . Sous les hypothèses du théorème précédent, (Eqp) est équivalent au problème Trouver a ∈ C tel que
.
γa (a + t (x − a)) − γa (a) ≥ 0 ∀ t ∈ [0, 1], ∀ x ∈ C, t
soit encore, puisque .γa est convexe, équivalent aussi à Trouver a ∈ C tel que γa (a, x − a) ≥ 0 ∀ x ∈ C,
.
et puisque .∂γa (a) = (a), (Eqp) est équivalent à Trouver a ∈ C tel que sup [ a ∗ , x − a : a ∗ ∈ (a) ] ≥ 0
.
∀ x ∈ C.
Le problème d’équilibre se ramène donc à une inégalité variationnelle.
Chapter 6
Dualité et Inéquations Variationnelles
6.1 Un schéma général de dualité → Rn de domaine non → 1) Considérons une multiapplication monotone .0 : Rn − n n vide et de graphe .G0 ⊂ R × R et l’inégalité variationnelle, que l’on appellerons inégalité variationnelle primale, Trouver x¯ ∈ Rn tel que 0 ∈ 0 (x). ¯
.
L’ensemble des solutions de cette inégalité est .0−1 (0). → Rn × Rp dont le → Donnons-nous une multiapplication monotone . : Rn × Rp − ∗ ∗ ∗ ∗ graphe .G = {(x, u, x , u ) : (x , u ) ∈ (x, u)} est tel que (x, x ∗ ) ∈ G0 ⇐⇒ ∃ u∗ ∈ Rp tel que (x, 0, x ∗, u∗ ) ∈ G,
(P )
.
ce qui revient à dire que .G0 s’obtient à partir de la projection de G sur .Rn ×Rp ×Rn . Par abus de langage, nous parlerons de .G0 et .0 comme étant les projections de G et . respectivement. L’inéquation variationnelle primale s’écrit alors .
Trouver x¯ ∈ Rn tel qu’il existe u¯ ∗ ∈ Rp avec (x, ¯ 0, 0, u¯ ∗ ) ∈ G.
(I0 )
Avec la variable u, appelée variable de perturbation, on associe l’ensemble → Rn par → perturbé .Gu ⊂ Rn × Rn et la multiapplication perturbée .u : Rn − (x, x ∗ ) ∈ Gu ⇐⇒ ∃ u∗ ∈ Rp tel que (x, u, x ∗, u∗ ) ∈ G,
.
Gu = gph (u ).
La monotonie de l’ensemble .G entraine celle de l’ensemble .Gu et donc la monotonie de la multiapplication .u . Par construction,
© The Author(s), under exclusive license to Springer Nature Switzerland AG 2023 J.-P. Crouzeix et al., Optimisation convexe et inéquations variationnelles monotones, Mathématiques et Applications 89, https://doi.org/10.1007/978-3-031-30681-5_6
163
164
6 Dualité et Inéquations Variationnelles
u (x) = { x ∗ : ∃ u∗ ∈ Rp tel que (x, u, x ∗, u∗ ) ∈ G },
.
dom (u ) = { x : ∃ (x ∗ , u∗ ) ∈ Rn+p tel que (x, u, x ∗, u∗ ) ∈ G }. L’inéquation variationnelle suivante Trouver x ∈ u−1 (0) = {x ∈ Rn : ∃ u∗ tel que (x, u, 0, u∗ ) ∈ G}
.
(Iu )
est appelée inéquation variationnelle primale pertubée. On appelle .Sp (u) l’ensemble de ses solutions. .Sp (u) coïncide avec .u−1 (0) et ainsi .Sp (0) est l’ensemble des solutions de .(I0 ). L’ensemble .D ⊂ (Rp × Rn ) × (Rp × Rn ) suivant, obtenu à partir de G par permutations de variables, (u∗, x ∗, u, x) ∈ D ⇐⇒ (x, u, x ∗, u∗ ) ∈ G,
.
est clairement monotone. On lui associe la multiapplication . définie par (u∗, x ∗ ) = {(u, x) : (u∗, x ∗, u, x) ∈ D },
.
puis, .x ∗ ∈ Rp étant fixé, l’ensemble monotone .Dx ∗ ⊂ Rp × Rp par (u∗, u) ∈ Dx ∗ ⇐⇒ ∃ x ∈ Rn tel que (u∗, x ∗, u, x) ∈ D
.
et la multiapplication monotone .x ∗ de graphe .Dx ∗ . .0 est dite être la multiapplication duale de .0 , les multiapplications .x ∗ sont appelées multiapplications duales perturbées associées à la perturbation .x ∗ . Elles sont définies par x ∗ (u∗ ) = { u : ∃ x ∈ Rn tel que (u∗, x ∗, u, x) ∈ D },
.
On introduit ensuite les inéquations variationnelles duales comme suit ∗ p ∗ ∗ Trouver u∗ ∈ −1 x ∗ (0) = {u ∈ R : ∃ x tel que (u , x , 0, x) ∈ D}.
.
(Jx ∗ )
On note par .Sd (x ∗ ) l’ensemble des solutions de l’inéquation précédente. Par construction, .Sd (x ∗ ) = −1 x ∗ (0). L’inéquation variationnelle duale non perturbée est Trouver u∗ ∈ Sd (0) := {u∗ ∈ Rp : ∃ x tel que (u∗, 0, 0, x) ∈ D}.
.
(J0 )
Le schéma de dualité ainsi construit est parfaitement symétrique. Transposons maintenant la notion de lagrangien que nous avons décrit dans le schéma de dualité convexe au schéma ci-dessus de dualité variationnelle. Introduisons l’ensemble L par
6.1 Un schéma général de dualité
165
(x, u∗, x ∗, u) ∈ L ⇐⇒ (x, u, x ∗, u∗) ∈ G.
.
La monotonie de G entraine celle de L. La multiapplication . associée à .L par (x, u∗ ) = {(x ∗, u) : (x, u∗, x ∗, u) ∈ L},
.
est monotone. L’inéquation variationnelle lagrangienne est définie par Trouver (x, u∗ ) ∈ −1 (0, 0) := {(x, u∗ ) ∈ Rn+p : (x, u∗, 0, 0) ∈ D}.
.
(IL )
L’ensemble .Sp (u) est la projection sur .Rn de l’ensemble .−1 (0, u), l’ensemble p ∗ −1 (x ∗ , 0). Il s’ensuit en particulier .Sd (x ) est la projection sur .R de l’ensemble . l’inclusion −1 (0, 0) ⊂ Sp (0) × Sd (0).
.
Pour tout .u∗ ∈ Sd (0), il existe .x ∈ Sp (0). De façon duale, pour tout .x ∈ Sp (0), il existe .u∗ ∈ Sd (0). On a .dom (Sp ) = {u : (0, u) ∈ dom (−1 )} et .dom (Sd ) = {x ∗ : (x ∗ , 0) ∈ dom (−1 )}. Les trois ensembles .G, D et L sont identiques à des permutations de variable près. C’est le principe de ce schéma, on peut de façon équivalente travailler sous l’une ou l’autre des trois formes. 2) Supposons maintenant l’ensemble G maximal monotone. Il en est alors de même des ensembles D et L. Ces trois ensembles sont fermés. Les multiapplications −1 , .−1 et .−1 sont maximales monotones, leurs domaines sont donc presque . convexes. Les domaines des multiapplications .u , .x ∗ sont presque convexes car obtenus à partir de projections d’ensembles presque convexes. Les ensembles . −1 (x ∗ , u∗ ) et .−1 (u, x) sont des convexes fermés, les ensembles .u (x) et .x ∗ (u∗ ), qui en sont les projections, sont convexes mais ils ne sont pas nécessairement fermés. Les ensembles .−1 (x ∗ , u) sont des convexes fermés, les domaines de .Sp et .Sd sont presque convexes puisque projections de l’ensemble presque convexe .dom (−1 ), les ensembles .Sp (u) et .Sd (x ∗ ) sont convexes puisque projections de l’ensemble convexe fermé .−1 (u, x ∗ ) mais ils ne sont pas nécessairement fermés. On peut avoir .−1 (u, x ∗ ) = Sp (u) × Sd (x ∗ ) comme le montre l’exemple suivant. Exemple 6.1 Considérons dans le schéma de dualité le graphe G tel que .−1 soit le sous-différentiel de la fonction convexe définie par .l(x, u∗ ) = |x + u∗ |. G est maximal monotone et on a .−1 (0, 0) = {(t, t) : t ∈ [−1, 1]}. ⎧ ⎨ {(1, 1)} si x + u∗ > 0, −1 ∗ . (x, u ) = {(−1, −1)} si x + u∗ < 0, ⎩ −1 (0, 0) si x + u∗ = 0.
166
6 Dualité et Inéquations Variationnelles
D’autre part, .Sp (0) = Sd (0) = [−1, 1]. Pour comparaison, considérons le cas des points de selle. Etant donnée une fonction .l : Rn × Rp → R, posons mp = inf[ f (x) := sup l(x, y) ],
.
x
y
Sp = arg min f (x),
.
x
md = sup[ g(y) := inf l(x, y) ], x
y
Sd = arg max g(y), y
SL = {(x, y) : l(x, y ) ≤ l(x, y) ≤ l(x , y) ∀ (x , y ) ∈ Rn × Rp }.
.
Le théorème 3.1 nous dit que .SL = Sp × Sd dès lors que .mp = md . Puisque .−1 est maximale monotone, .−1 (x ∗ , u) est un convexe compact non vide si et seulement si .(x ∗ , u) ∈ int (dom (−1 )). Nous utilisons ce fait dans les deux propositions qui suivent. → Rn × Rp maximale monotone. S’il existe → Proposition 6.1 Soit . : Rn × Rp − u0 ∈ Rp tel que .(0, u0 ) ∈ int (dom (−1 )) la multiplication .Sp est scs et à valeurs compactes non vides sur un voisinage de .u0 .
.
Preuve : Pour u voisin de .u0 , .(0, u) ∈ int (dom (−1 )) et .Sp (u) est alors un convexe compact non vide. Soit maintenant X ouvert arbitraire contenant .Sp (u), p −1 (0, u). La multiapplication .−1 est scs dans un .X × R est un ouvert contenant . voisinage de .(0, u) car maximale monotone, il existe donc U voisinage de u pour lequel .−1 (0, v) ⊂ X × Rp pour tout .v ∈ U . Mais alors .Sp (v) ⊂ X. . La version duale de cette proposition est la suivante. → Rn × Rp maximale monotone. S’il existe → Proposition 6.2 Soit . : Rn × Rp − p ∗ ∗ −1 .x 0 ∈ R tel que .(x0 , 0) ∈ int (dom ( )) la multiapplication .Sd est scs et à valeurs compactes non vides sur un voisinage de .x0∗ . On peut dans ces propositions remplacer intérieur par intérieur relatif, il faut alors remplacer compact par compact à un sous-espace vectoriel près. Intéressons-nous maintenant à la maximale monotonie des multiapplications .u et .x ∗ . → Rn × Rp est maximale → Proposition 6.3 Si la multiapplication . : Rn × Rp − monotone et s’il existe .x0 tel que .(x0 , u0 ) ∈ int (dom ()), alors la multiapplication u0 est maximale monotone. → Rn × Rp définies → Preuve : Introduisons les multiapplications ., : Rn × Rp −
.
par (x, u) =
.
{0} × Rp si u = u0 , , ∅ si u = u0 .
= + .
6.2 Exemples
167
Il est facile de voir que . est maximale monotone. Puisque l’intersection int (dom ()) ∩ dom () est non vide, le théorème 4.11 entraine la maximale monotonie de . . Prenons .b = (0, u0 ) ∈ Rn+p et considérons l’application .A : Rn → Rn+p définie par .A(x) = (x, 0). Remarquons que .u0 (x) = At (Ax + b) pour tout x, ce qui implique la maximalité de .u0 en raison du théorème 4.12. .
.
En voici sa version duale. → Rn × Rp est maximale → Proposition 6.4 Si la multiapplication . : Rn × Rp − ∗ ∗ ∗ monotone et s’il existe .u0 tel que .(u0 , x0 ) ∈ int (dom ()), alors la multiapplication .x ∗ est maximale monotone. 0 Ici encore, on peut dans ces deux propositions remplacer intérieur par intérieur relatif.
6.2 Exemples 6.2.1 Composition avec une application linéaire Nous avons étudié cette composition à l’occasion du théorème 4.12, nous allons la reformuler avec notre schéma de dualité. Considérons l’inéquation variationnelle Trouver x¯ ∈ Rn tel que 0 ∈ 0 (x) ¯ := B t (a + B x), ¯
.
→ Rp est une multiapplication → où .a ∈ Rp , B est une matrice .p × n et . : Rp − monotone. Cette inéquation généralise le problème d’optimisation .
inf [ f (a + Bx) : x ∈ Rn ], x
où f est une fonction convexe sur .Rp . A partir de .x, u et .x ∗ ∈ B t (a + Bx + u), on cherche .u∗ de façon à ce que l’ensemble .G ⊂ (Rn × Rp ) × (Rn × Rp ) des points .(x, u, x ∗, u∗) ainsi obtenu soit monotone. On doit donc avoir, pour tout .x1 , x2 ∈ Rn , .u1 , u2 ∈ Rp , .y1∗ ∈ (a + Bx1 + u1 ) et .y2∗ ∈ (a + Bx2 + u2 ), B t y1∗ − B t y2∗ , x1 − x2 + u∗1 − u∗2 , u1 − u2 ≥ 0,
.
y1∗ − y2∗ , a + Bx1 + u1 − a − Bx2 − u2 + u∗1 − y1∗ − u∗2 + y2∗ , u1 − u2 ≥ 0.
.
étant monotone, cela sera vrai lorsque .u∗1 − y1∗ = u∗2 − y2∗ = 0. On prendra donc
.
G = {(x, u, B t y ∗ , y ∗ ) : y ∗ ∈ (a + Bx + u)},
.
168
6 Dualité et Inéquations Variationnelles
(x, u) = {(x ∗ , u∗ ) : u∗ ∈ (a + Bx + u), x ∗ = B t u∗ }.
.
On a .dom () = {(x, u) ∈ Rn × Rn : a + u + Bx ∈ dom ()}. Proposition 6.5 Si la multiapplication . est maximale monotone, il en est de même de la multiapplication .. Preuve : i) Montrons que l’ensemble L L = {(x, u∗ , x ∗ , u) = (x, u∗ , B t u∗ , u) : u ∈ −1 (u∗ ) − a − Bx},
.
est maximal monotone. Il nous faut montrer pour cela que . (x, u∗ , x ∗ , u) appartient . Pour tout .y ∈ Rn , v ∗ ∈ Rp et .v˜ ∈ −1 (v ∗ ) on a à L lorsqu’il appartient à . L x ∗ − B t v ∗ , x − y + u − v˜ + a + By, u∗ − v ∗ ≥ 0,
.
et donc, B t u∗ − x ∗ , y − x + u + a + Bx − v, ˜ u∗ − v ∗ ≥ 0.
.
Faisons .y = x, .u ∈ −1 (u∗ ) − a − Bx puisque . est maximale monotone. Faisons ensuite .v ∗ = u∗ , nous obtenons alors .x ∗ = B t u∗ . . Il suffit maintenant d’appliquer la proposition 6.3 pour obtenir le résultat suivant. Théorème 6.1 Si la multiapplication . est maximale monotone et s’il existe .x0 tel que .a + Bx0 appartient à l’intérieur (intérieur relatif) de .(dom ()) alors, pour u voisin de 0, .u est maximale monotone. En accord avec le schéma de dualité, (x ∗ , u∗ ) =
.
(x, u) tel que u + Bx ∈ −1 (u∗ ) − a si x ∗ = B t u∗ , ∅ sinon.
(B t u∗ , u) où u ∈ −1 (u∗ ) − a − Bx si u∗ ∈ dom ( −1 ), ∅ sinon.
(x, u∗ ) =
.
dom () = {(x ∗ , u∗ ) : x ∗ = B t u∗ , u∗ ∈ dom ( −1 )}
.
et dom () = Rn × dom ( −1 ).
.
Etudions l’effet de la perturbation u sur la solution, rappelons que x ∈ Sp (u) ⇐⇒ ∃ u∗ tel que (x, u∗ ) ∈ −1 (0, u),
.
6.2 Exemples
169
ce qui donne dans le cas présent, x ∈ Sp (u) ⇐⇒ ∃ u∗ tel que
.
0 a+u
∈ T (x, u∗) :=
B t u∗ . −Bx + −1 (u∗ )
Trouver .x¯ solution de l’inéquation originelle consiste donc à trouver .(x, ¯ u¯ ∗ ) solution de 0 B t u∗ . . ∈ (x, u∗) := −Bx + −1 (u∗ ) − a 0 La multiapplication . est maximale monotone, on peut employer l’algorithme proximal pour trouver une solution.
6.2.2 Somme de deux multiapplications Considérons l’inéquation variationnelle Trouver x¯ ∈ Rn tel que 0 ∈ 0 (x) ¯ := A(x) ¯ + B(x). ¯
.
où A et B sont deux multiapplications monotones sur .Rn . On introduit la multiapplication perturbée u (x) = {x ∗ = xA∗ + xB∗ : xA∗ ∈ A(x + u), xB∗ ∈ B(x)}
.
∀ (x, u) ∈ Rn × Rn .
On détermine .u∗ en fonction de .x, u et de .x ∗ ∈ u (x) de manière à ce que l’ensemble .G ⊂ (Rn × Rn ) × (Rn × Rn ) des points .(x, u, x ∗, u∗) ainsi obtenu soit monotone. On doit donc avoir pour tout .x, y, u, v ∈ Rn , .xA∗ ∈ A(x + u), ∗ ∗ ∗ .x ∈ B(x), .y ∈ A(y + v) et .y ∈ B(v), B A B 0 ≤ α := xA∗ − yA∗ + xB∗ − yB∗ , x − y + u∗ − v ∗ , u − v.
.
α = xA∗ − yA∗ , (x + u) − (y + v) + xB∗ − yB∗ , x − y + · · ·
.
· · · + (u∗ − xA∗ ) − (v ∗ − yA∗ ), u − v. Puisque A et B sont monotones, .α ≥ 0 lorsque .u∗ = xA∗ et .v ∗ = yA∗ . Cela conduit à prendre G = {(x, u, x ∗, u∗) : u∗ ∈ A(x + u), x ∗ − u∗ ∈ B(x)}.
.
170
6 Dualité et Inéquations Variationnelles
Cet ensemble satisfait la propriété de projection .(P ). La multiapplication associée est (x, u) = {(x ∗ , u∗ ) : u∗ ∈ A(x + u), x ∗ ∈ u∗ + B(x)}
.
∀ (x, u) ∈ Rn × Rn .
L’ensemble dual D est D = {(u∗, x ∗, u, x) : x ∈ B −1 (x ∗ − u∗ ), u ∈ A−1 (u∗ ) − x},
.
et la multiapplication duale perturbée est x ∗ (u∗ ) = A−1 (u∗ ) − B −1 (x ∗ − u∗ ).
.
Cette multiapplication est monotone. L’inégalité variationnelle duale est Trouver u¯ ∗ ∈ Rn tel que 0 ∈ A−1 (u¯ ∗ ) − B −1 (−u¯ ∗ ).
.
L’ensemble L est L = {(x, u∗, x ∗, u) : x ∗ ∈ u∗ + B(x), u ∈ −x + A−1 (u∗ )}.
.
L’inégalité variationnelle lagrangienne est donc Trouver (x, ¯ u¯ ∗ ) ∈ R2n tel que x¯ ∈ B −1 (−u¯ ∗ ), u¯ ∗ ∈ A(x). ¯
.
Ou bien encore, de façon équivalente, Trouver (x, ¯ u¯ ∗ ) ∈ R2n tel que u¯ ∗ ∈ −B(x), ¯ x¯ ∈ A−1 (u¯ ∗ ).
.
Signalons que si on avait choisi la perturbation associée à u (x) = {x ∗ = xA∗ + xB∗ : xA∗ ∈ A(x + u), xB∗ ∈ B(x − u)}
.
∀ (x, u) ∈ Rn × Rn ,
on aurait obtenu les mêmes inégalités variationnelles duales et lagrangiennes, les expressions de D et L étant légèrement différentes. Proposition 6.6 Si les multiapplications .A et .B sont maximales monotones, il en est de même de .. Preuve : Il nous faut montrer que .(x, u∗ , x ∗ , u) ∈ L lorsque x ∗ − y ∗ , x − y + u∗ − v ∗ , u − v ≥ 0 ∀ (y, v ∗ , y ∗ , v) ∈ L.
.
C’est-à-dire, lorsque pour tout .y, v ∗ , y2∗ , v1 tels que .y2∗ ∈ B(y), v1 ∈ A−1 (v ∗ ), x ∗ − v ∗ − y2∗ , x − y + u∗ − v ∗ , u + y − v1 ≥ 0.
.
6.2 Exemples
171
Soit encore, lorsque pour tout .(y, y2∗ ) ∈ gph (B) et .(v ∗ , v1 ) ∈ gph (A−1 ) (x ∗ − u∗ ) − y2∗ , x − y + u∗ − v ∗ , (u + x) − v1 ≥ 0.
.
Mais alors .(x, x ∗ − u∗ ) ∈ gph (B) et .(u + x, u∗ ) ∈ gph (A) puisque A et B sont maximales monotones. Ce qui implique .(x, u∗ , x ∗ , u) ∈ L. . Il suffit maintenant d’appliquer la proposition 6.3 pour obtenir le résultat suivant. Théorème 6.2 Si les multiapplications .A et .B sont maximales monotones, et s’il existe .x0 ∈ int (dom (A) ∩ dom (B)), alors pour u voisin de 0, .u est maximale monotone. En particulier, la multiapplication .0 = A + B est maximale monotone. Preuve : Les multiapplications .A et .B étant maximales monotones ont leurs domaines presque convexes. La condition est équivalente à l’existence de .x0 tel que .(x0 , 0) ∈ int (dom()). . Là encore, on peut remplacer dans l’hypothèse intérieur par intérieur relatif. Sous les hypothèses du théorème, trouver .x¯ solution de l’inéquation originelle ¯ u¯ ∗ ) solution de consiste donc à trouver .(x, 0 u∗ + Bx ∗ . . ∈ (x, u ) := A−1 (u∗ ) − x 0 La multiapplication . est maximale monotone et on peut employer l’algorithme proximal pour trouver une solution.
6.2.3 Comment traiter les contraintes? → Rn est maximale → Dans toute cette partie .C ⊂ Rn est convexe et fermé, . : Rn − monotone et il existe .x0 ∈ int [ C ∩ dom () ]. Considérons les deux problèmes Trouver x¯ ∈ C, x¯ ∗ ∈ (x) ¯ tels que x¯ ∗, x − x ¯ ≥ 0 ∀ x ∈ C,
(6.1)
Trouver x¯ ∈ Rn tel que 0 ∈ 0 (x) ¯ := (x) ¯ + NC (x). ¯
(6.2)
.
.
Rappelons que la multiapplication .NC est définie par (3.3) NC (x) = {x ∗ : x ∗ , y − x ≤ 0 ∀ y ∈ C} si x ∈ C,
.
NC (x) = ∅ sinon.
Elle est maximale monotone puisqu’elle est le sous-différentiel de la fonction indicatrice de C. En raison de la condition d’intériorité .0 est maximale monotone. Si .(x, ¯ x¯ ∗ ) est solution de (6.1), alors .−x¯ ∗ ∈ NC (x), ¯ .x¯ est alors solution de (6.2). Réciproquement, si .x¯ est solution de (6.2), .x¯ ∗ ∈ (x) ¯ ∩ [−NC (x)] ¯
172
6 Dualité et Inéquations Variationnelles
et par conséquence .(x, ¯ x¯ ∗ ) est solution de (6.1). Les deux problèmes sont donc équivalents.
Perturbation sur → Rn comme suit → Construisons la multiapplication perturbée .u : Rn − u (x) := (x + u) + NC (x)
.
∀ x, u ∈ Rn .
Le problème perturbé est Trouver x ∈ Rn tel que 0 ∈ u (x) := (x + u) + NC (x).
.
L’inégalité variationnelle duale est Trouver u¯ ∗ ∈ Rn tel que 0 ∈ −1 (u¯ ∗ ) − NC−1 (−u¯ ∗ ).
.
Les inégalités variationnelles duales perturbées sont Trouver u¯ ∗ ∈ Rn tel que 0 ∈ −1 (u¯ ∗ ) − NC−1 (x ∗ − u¯ ∗ ).
.
L’inégalité variationnelle lagrangienne est Trouver (x, ¯ u¯ ∗ ) ∈ R2n tel que x¯ ∈ NC−1 (−u¯ ∗ ), u¯ ∗ ∈ (x). ¯
.
(6.3)
Notons que les multiapplications qui à .u∗ associent .−NC−1 (x ∗ −u∗ ) sont maximales monotones. En outre, la condition d’intériorité implique l’existence d’un voisinage convexe U de 0 pour lequel .x0 ∈ int [ (C + u) ∩ dom () ] pour tout .u ∈ U , .u est alors maximale monotone en raison du théorème 6.2. Les ensembles .Sd (x ∗ ) des solutions des inéquations variationnelles duales perturbées sont des convexes compacts non vides. Cette dualisation est intéressante lorsqu’il existe une expression agréable de −1 .N C . La définition de .NC entraine gph (NC−1 ) = {(x ∗ , x) : x ∈ arg max x ∗ , y}.
.
y∈C
Il s’ensuit que .NC−1 (x ∗ ) est contenu dans la frontière relative de C, cette inclusion se traduira par une condition de complémentarité comme nous le verrons plus tard. La détermination du graphe de .NC se fait en écrivant les conditions d’optimalité du problème de maximisation. Voici quelques exemples. Exemple 6.2 .C ⊂ Rn est un cône convexe fermé non vide.
6.2 Exemples
173
gph (NC ) = { (x, x ∗ ) ∈ C × C ◦ : x ∗ , x = 0},
.
où .C ◦ désigne le cône polaire de C. Exemple 6.3 C est le simplexe de .Rn , c’est-à-dire, C = {x ∈ Rn : x ≥ 0, et x = 1} où e = (1, 1, · · · , 1) ∈ Rn .
.
En écrivant les conditions d’optimalité du problème de minimisation on obtient gph (NC ) = {(x, x ∗ ) : x ≥ 0, x ∗ − x t x ∗ e ≤ 0, et x = 1, x t (x ∗ − x t x ∗ e) = 0}.
.
Exemple 6.4 B est la boule unité fermée de .Rp associée à la norme n. Désignons par .nd sa norme duale et par .Bd la boule unité fermée associée. En utilisant les conditions d’optimalité et l’expression du sous-différentiel de n on obtient gph (NB ) = { (x, x ∗ ) : x ∈ B, x ∗ , x ≥ nd (x ∗ )}.
.
Rappelons que pour tout .x, x ∗ on a .x ∗ , x ≤ n(x)nd (x ∗ ). On retrouve bien .NB (x) = {0} lorsque .n(x) < 1 et .NB (x) = ∅ lorsque .n(x) > 1. Lorsque .n(x) = 1, ∗ ∗ ∗ .NB (x) = { x : x , x = nd (x )}. Exemple 6.5 .C = {x ∈ Rn : gi (x) ≤ 0 ∀ i = 1, · · · , p} où, pour tout i, .gi est convexe sci propre et .C ⊂ int (dom (gi )). On suppose en outre l’existence de .x˜ tel ˜ < 0. En utilisant les conditions d’optimalité on obtient que .g(x) NC−1 (x ∗ ) = { x ∈ C : ∃ u∗ ≥ 0 tel que x ∗ ∈
.
u∗i ∂gi (x), u∗ , g(x) = 0}.
i
Traitons maintenant quelques applications. Exemple 6.6 .C = Rn+ , . est maximal monotone, il existe .x0 > 0 tel que .x0 ∈ int (dom ()). Considérons le problème Trouver x ≥ 0 et x ∗ ∈ (x) tels que x ∗, y − x ≥ 0
.
∀ y ≥ 0.
Si le couple .(x, x ∗ ) est solution on a nécessairement .x ∗ ≥ 0 et .x ∗ , x = 0. Son problème dual consiste à Trouver u∗ ≥ 0 et u ∈ −1 (u∗ ) tels que u, u∗ − v ∗ ≥ 0
.
∀ v ∗ ≥ 0.
Si le couple .(u∗ , u) est solution on a nécessairement .u ≥ 0 et .u∗ , u = 0. L’inégalité variationnelle lagrangienne consiste à Trouver x ≥ 0, u∗ ≥ 0 tels que u∗ ∈ (x), u∗ , x = 0.
.
174
6 Dualité et Inéquations Variationnelles
Ces trois problèmes sont équivalents. Exemple 6.7 Revenons sur l’exemple sur les jeux bimatriciels donné dans le chapitre 5. Le problème consiste à trouver u¯ ∈ C tel que
.
F (u), ¯ u − u ¯ ≥0
∀ u ∈ C,
où .u = (p, q) ∈ Rn ×Rm , .C = P ×Q, P et Q étant les simplexes respectivement de .Rn et .Rm . 0 −A p −Aq .F (p, q) = . = −B t 0 q −B t p On se place dans le cas où F est monotone. En écrivant le problème sous la forme −1 on déduit que .(p, q) est solution si et lagrangienne et puisque .NC−1 = NP−1 × NQ seulement si p ≥ 0, q ≥ 0, Aq − pt Aqe ≤ 0, B t p − pt Bqε ≤ 0,
.
e, p = ε, q = 1, Aq − pt Aqe, p = B t p − pt Bqε, q = 0.
.
L’ensemble des solutions .(p, q) du problème est un convexe fermé non vide. Exemple 6.8 Dans cet exemple, n est une norme sur .Rp , .B = {x ∈ Rp : n(x) ≤ 1}, . est maximale monotone et il existe .x0 ∈ int (B) ∩ dom (). Considérons le problème Trouver x ∈ B, x ∗ ∈ (x) tels que x ∗, y − x ≥ 0 ∀ y ∈ B.
.
Soit .nd la norme duale de n et .Bd = {x ∗ ∈ Rp : nd (x ∗ ) ≤ 1}. Le problème lagrangien consiste à Trouver (x, ¯ x¯ ∗ ) ∈ gph () ∩ [B × Bd ] tel que n(x) ¯ nd (x¯ ∗ ) + x¯ ∗, x ¯ = 0.
.
Les deux problèmes sont équivalents.
Perturbation sur l’ensemble C On se donne .E ⊂ Rn × Rp convexe fermé tel que .C = {x : (x, 0) ∈ E}, puis on considère la multiapplication (x, u) := (x) × {0} + NE (x, u).
.
NE est maximale monotone. Rappelons que .NE (x, u) = ∅ si .(x, d) ∈ / E et .(0, 0) ∈ NE (x, u) lorsque .(x, u) ∈ E.
.
6.2 Exemples
175
Sous la condition “il existe .x˜ tel que .(x, ˜ 0) ∈ int (E)”, . est maximale monotone. La dualité construite sera intéressante dès lors que l’on obtiendra une expression agréable de .NE−1 . Nous avons déjà traité les exemples ci-dessous en utilisant l’expression de .NC−1 (x ∗ ), ici nous perturbons directement l’ensemble C. Exemple 6.9 .C = {x ∈ Rn : gi (x) ≤ 0 ∀ i = 1, · · · , p} où, pour tout i, .gi est convexe sci propre et .C ⊂ int (dom (gi )). On suppose en outre l’existence de .x˜ tel ˜ < 0. Le problème primal est que .g(x) Trouver x ∈ C et x ∗ ∈ (x) tels que x ∗, y − x ≥ 0
.
∀ y ∈ C.
On prend .E = {x, u) ∈ Rn × Rp : g(x) + u ≤ 0}. E est un convexe fermé et .(x, ˜ 0) ∈ int (E), . est donc maximal monotone. Soit .(x, u) ∈ E. .(x ∗ , u∗ ) ∈ NE (x, u) si et seulement si .(x, u) est solution du problème de maximisation θ (x ∗ , u∗ ) = sup [ x ∗ , y + u∗ , v : g(y) + v ≤ 0 ].
.
(y,v)∈E
Ce sera le cas lorsque .u∗ ≥ 0, .x ∗ ∈ pour .(x, u) ∈ E,
i
u∗i ∂gi (x) et .0 = u∗ , g(x). En résumé,
NE (x, u) = {(x ∗ , u∗ ) : u∗ ≥ 0, x ∗ ∈
.
u∗i ∂gi (x), u∗ , g(x) = 0}.
i
Réciproquement, si .u∗ ≥ 0, NE (x ∗ , u∗ ) = {(x, u) : x ∗ ∈
.
u∗i ∂gi (x), g(x) + u ≤ 0, u∗ , g(x) = 0}.
i
L’inégalité variationnelle lagrangienne consiste à trouver x et u∗ tels que u∗ ≥ 0, g(x) ≤ 0, u∗ , g(x) = 0,
.
et 0 ∈ (x) +
.
u∗i ∂gi (x).
i
Elle est équivalente au problème primal. Exemple 6.10 .C = {x ∈ Rn : x ≥ 0, Ax = a, Bx ≤ b} où .a ∈ Rp , .b ∈ Rq , A est une matrice .p × n et B est une matrice .q × n. On suppose l’existence de .x˜ ≥ 0 tel que .Ax˜ = a et .B x˜ ≤ b. Le problème primal est Trouver x ∈ C et x ∗ ∈ (x) tels que x ∗, y − x ≥ 0
.
∀ y ∈ C.
176
6 Dualité et Inéquations Variationnelles
On prend E = { (x, u, v) ∈ Rn+p+q : x ≥ 0, v ≥ 0, Ax + u = a, Bx + v = b}.
.
E est un convexe fermé et .(x, ˜ 0, 0) ∈ ri (E). . est donc maximal monotone. Soit .(x, u, v) ∈ E. Procéder comme ci-dessus, .(x ∗ , u∗ , v ∗ ) ∈ NE (x, u, v) si et seulement si on a v ∗ ≥ 0, x ∗ − At u∗ − B t v ∗ ≤ 0 et x ∗ − At u∗ − B t v ∗ , x = v ∗ , v = 0.
.
Introduisons l’ensemble E ∗ = { (x ∗ , u∗ , v ∗ ) ∈ Rn+p+q : x ∗ ≥ 0, v ∗ ≥ 0, x ∗ − At u∗ − B t v ∗ ≤ 0}.
.
NE−1 (x ∗ , u∗ , v ∗ ) = ∅ lorsque .(x ∗ , u∗ , v ∗ ) ∈ / E ∗ . Dans le cas contraire, −1 ∗ ∗ ∗ .(x, u, v) ∈ N E (x , u , v ) si et seulement si .
x ≥ 0, b − Bx = v ≥ 0 et x ∗ − At u∗ − B t v, x = v ∗ , v = 0.
.
L’inégalité variationnelle lagrangienne consiste à Trouver x ≥ 0, v ∗ ≥ 0, x ∗ ∈ (x) tels que
.
Ax = a, Bx ≤ b, x ∗ + At u∗ + B t v ∗ ≥ 0
.
.
et x ∗ + At u∗ + B t v ∗ , x = v ∗ , b − Bx = 0.
Elle est équivalente au problème (6.1).
6.3 Problèmes de complémentarité. Considérons le système très simplifié d’une économie avec n biens ou services. Pour simplifier les services sont assimilés à des biens. Un vecteur .x = (x1 , · · · , xn ) ∈ Rn représente un ensemble de biens, .xi étant la quantité d’unités du bien i dans l’ensemble. .f (x) est le coût total du vecteur de biens x. On suppose la fonction f convexe différentiable. .a > 0 étant donné, on veut obtenir au moindre coût x tel que .x ≥ a, ce qui conduit au problème d’optimisation suivant .
min [ f (x) : x ≥ a ]. x
Sa formulation variationnelle est
6.3 Problèmes de complémentarité.
177
Trouver x tel que x − a ≥ 0 et ∇f (x), y − x ≥ 0 ∀ y tel que y − a ≥ 0.
.
Appliquer les conditions d’optimalité, .x¯ est solution optimale si et seulement si x¯ − a ≥ 0 et s’il existe .u¯ ∗ ≥ 0 tel que .∇f (x) ¯ − u¯ ∗ = 0 et .u¯ ∗ , x¯ − a = 0. Soit encore, si et seulement si,
.
x¯ − a ≥ 0,
.
∇f (x) ¯ ≥0
et
∇f (x), ¯ x − a = 0.
La condition .∇f (x), ¯ x − a = 0 est dite être la condition de complémentarité, associée aux deux conditions de positivité .x¯ − a ≥ 0 et .∇f (x) ¯ ≥ 0. Elle dit que si la composante i d’un des deux vecteurs est strictement positive, la composante de l’autre est nulle. L’ensemble des trois conditions exprime l’optimalité, il est dénoté en anglais sous le nom de “complementarity slackness condition”, l’adjectif “slack” s’appliquant aux inéquations. De façon générale, on parle de complémentarité lorsqu’on est en présence de deux vecteurs à composantes positives ou nulles dont le produit scalaire est nul Les différents exemples traités dans la section précédentes font apparaître des conditions de complémentarités. Les problèmes de complémentarité ont été très étudiés eu égard à leurs nombreuses applications dans des domaines très variés, théorie des jeux, problèmes d’équilibre, problèmes de transports, . . . . . Une formulation assez générale est comme suit : trouver .x ≥ 0 tel que .F (x) ≥ 0 et .F (x), x = 0. Lorsque F est affine, on parle de complémentarité linéaire. Les problèmes de programmation quadratique (minimiser une fonction quadratique sur un polyèdre convexe) peuvent être transformés en de tels problèmes. Considérer par exemple le problème suivant : .
1 minn [ Au, u + a, u : u ≥ 0, Bu ≤ b ], 2 u∈R
où A est une matrice symétrique .n×n semi-définie positive, B est une matrice .p×n, a ∈ Rn et .b ∈ Rp . On suppose l’existence de .u ≥ 0 tel que .Bu ≤ b. Trouver .u solution optimale du problème revient à trouver .(u, v) ∈ Rn+p tel que
.
Au + a + B t v ≥ 0, −Bu + b ≥ 0, u ≥ 0, v ≥ 0,
.
Au + a + B t v, u = −Bu + b, v = 0.
.
Posons u .x = , v
M=
A Bt −B 0
,
a q= . b
Lorsque A est semi-définie positive la matrice M ainsi construite est semi-définie positive mais elle est non symétrique, l’application F définie par .F (x) = Mx + q
178
6 Dualité et Inéquations Variationnelles
est donc monotone. Le problème est alors équivalent à trouver x ∈ Rn tel que x ≥ 0, Mx + q ≥ 0, Mx + q, x = 0.
.
(Cp)
6.3.1 Complémentarité linéaire (Cp) est la formulation canonique des problèmes de complémentarité linéaire. M est une matrice .p × n non nécessairement symétrique et .q ∈ Rm . Le problème est monotone lorsque M est semi-définie positive. Posons := { x ∈ Rn : x > 0, Mx + q > 0}. C := { x ∈ Rn : x ≥ 0, Mx + q ≥ 0}, C
.
Notons .S(Cp) l’ensemble des solutions de (Cp). Remarquons que résoudre (Cp) est équivalent à résoudre l’inéquation variationnelle (monotone) trouver x ≥ 0 tel que Mx + q, y − x ≥ 0 ∀ y ≥ 0.
.
(V )
De la théorie des inéquations variationnelles nous savons que dans le cas monotone S(Cp) est un convexe fermé, éventuellement vide.
.
Proposition 6.7 1) C est non vide si et seulement si .u ≥ 0 tel que .M t u ≤ 0 implique .q, u ≥ 0. est non vide si et seulement si .v ≥ 0 non nul tel que .M t v ≤ 0 implique 2) .C .q, v > 0. 3) C est borné si et seulement s’il existe .u ≥ 0 tel que .M t u < 0, ce qui n’est pas possible lorsque M est sdp. 4) Supposons M sdp. Alors S(Cp) est un convexe compact non vide si et seulement si .x, y ≥ 0 et .λ ≥ 0 existent tels que .Mx + λq > M t y. Preuve : 1) C est non vide si et seulement si 0 = inf [ 0, x : Mx + q ≥ 0 ] = max [ −q, u : M t u ≤ 0].
.
x≥0
u≥0
est vide si et seulement si 2) .C 0 = sup [ t : ten − x ≤ 0, ten − Mx ≤ q ],
.
t,x
0 = min [ q, v : en , u + v = 1, −u − M t v = 0].
.
u≥0,v≥0
3) C non vide est borné si et seulement si
6.3 Problèmes de complémentarité.
.
179
+ ∞ > α = sup [ en , x : −Mx ≤ q ] = inf [ q, u : −M t u ≥ en ]. x≥0
u≥0
α > −∞ puisque C est non vide, l’inf est donc un minimum. Il existe donc u ≥ 0 tel que .M t u < 0. On a donc .u = 0 et .M t u, u < 0. 4) Appliquer le théorème 5.5 en faisant .B = −M et .b = q. . . .
Le théorème suivant permet d’obtenir l’ensemble des solutions à partir de l’une d’entre elles. Il complète en outre les informations sur la structure de .S(Cp). Théorème 6.3 Si M est semi-définie positive et si .a ∈ S(Cp) alors S(Cp) = {b : b ≥ 0, Mb + q ≥ 0, (M + M t )(b − a) = 0, q, b − a = 0}.
.
S(Cp) est donc un polyèdre convexe.
.
Preuve : 1) Supposons .b ∈ S(Cp). Puisque a et b sont toutes deux solutions de t .(V ) on a .M(a − b), a − b = 0 et donc .(M + M )(b − a) = 0. En développant t les équations .0 = a, (M + M )(b − a) = b, (M + M t )(b − a) on obtient .Ma, a = Mb, b. Ecrire ensuite .Ma +q, a = Mb+q, b = 0 pour obtenir .q, b − a = 0. 2) Supposons .b ∈ C tel que .(M + M t )(b − a) = 0 et .q, b − a = 0. Puisque .Ma, a = Mb, b on a .Mb + q, b = Ma + q, a + q, b − a = 0. . On peut aussi aborder le problème .(Cp) à partir du problème de minimisation suivant α = min [ Mx + q, x : x ≥ 0, Mx + q ≥ 0 ].
.
x
(Q)
ll est clair que .a ∈ S(Cp) si et seulement si .α = 0 et si a est solution optimale du problème quadratique convexe .(Q). Il existe alors .u ≥ 0 et .v ≥ 0 tels que (M + M t )a + q = M t u + v,
.
Ma + q, u = v, a = 0.
D’autre part, puisque .a ∈ S(Cp), a ≥ 0, Ma + q ≥ 0 et Ma + q, a = 0.
.
On a donc .Ma + q = M t (u − a) + v. On en déduit 0 = Ma + q, a = M t (u − a), a,
.
0 = Ma + q, u = M t (u − a), u + v, u,
.
0 ≤ M t (u − a), u − a = −u, v ≤ 0.
.
180
6 Dualité et Inéquations Variationnelles
On en déduit .(M + M t )(a − u) = 0 et .v, u = 0, ensuite .Mu + q = v ≥ 0 et .Mu + q, u = v, u = 0. Il s’ensuit .u ∈ S(Cp). Supposons maintenant .u ∈ S(Cp). Posons .v = Mu+q. Montrons que u et v sont les multiplicateurs associés à la solution optimale a du problème (Q). Puisque u et .a appartiennent à .S(Cp) on a .(M +M t )(u−a) = 0 et donc .(M +M t )a+q = M t u+v. Ensuite, puisque u et a sont l’un et l’autre solutions de l’inéquation variationnelle monotone (V), .Ma + q, u − a = Mu + q, a − u = 0, .Ma + q, u = v, a = 0. Il y a donc identification entre les solutions de C et les multiplicateurs de Lagrange associés au problème quadratique. En particulier on peut prendre .u = a et .v = Ma + q.
6.3.2 Quelques mots sur l’aspect algorithmique Sur un plan purement théorique, on peut résoudre le problème .(Cp) en un nombre fini d’opérations. En effet, il s’agit de trouver les points .x ∈ C pour lesquels .n équations parmi les 2n .xi = 0 et .(Mx + q)i = 0 sont satisfaites, il y a .2n façons de sélectionner ces équations. Le comportement exponentiel du nombre de points par rapport à la taille n du problème réserve cette méthode à des problèmes de très très petite taille. Nous sommes dans une situation comparable aux problèmes de programmation linéaire pour lesquels il suffirait en principe de considérer tous les sommets du polyèdre associé. On a vu que l’algorithme du simplexe permet, en se déplaçant de sommets en sommets adjacents, de réduire le nombre de sommets à considérer. L’algorithme de Lemke [67] se place dans la même perspective. Tout comme dans l’algorithme du simplexe, on se déplace de sommets en sommets. Des tableaux successifs sont construits en utilisant la méthode des pivots. Les régles de changement de sommets sont plus complexes que dans l’algorithme du simplexe. Signalons aussi une méthode de type points intérieurs basée sur la fonction potentielle de Karmarkar proposée par Kojima-Meggido-Ye [61].
Commentaires et notes bibliographiques
Optimisation et inéquations variationnelles, deux composantes majeures de l’analyse non linéaire ont été activement développées depuis les années 1950, tout particulièrement en présence d’une structure de convexité pour la première, de monotonie pour la seconde. La convexité est une notion géométrique. Les premières caractérisations des ensembles convexes en termes d’enveloppe datent des années 1910 avec Caratheodory [13] et Minkowsky [75], vient ensuite Krein-Milman [63]. Si les théorèmes de séparation de deux convexes s’obtiennent à partir de la projection d’un point sur un ensemble convexe fermé très simplement sur .Rn , puis sur les espaces de Hilbert en jouant sur la complétude, l’extension (théorèmes d’Hahn-Banach en 1920–1930) à des structures topologiques plus générales nécessite des techniques plus avancées (axiome du choix par exemple). La dualité (polarité) sur les cônes convexes fermés est une conséquence des théorèmes de séparation. Le lemme de Farkas [40] (1902), conséquence de cette dualité, permettra dans les années 1950 l’introduction des multiplicateurs (Karush [59], Kuhn-Tucker [64]) intervenant dans les conditions d’optimalité de problèmes d’optimisation sous contraintes. Avec l’algorithme du simplexe de Dantzig [32, 33] fin des années 1940, débute la programmation linéaire (minimiser une fonction linéaire sur un polyèdre convexe) en symbiose avec l’introduction début des années 1950 de l’utilisation des notations matricielles en algèbre linéaire. Un polyèdre convexe est l’intersection de demi-espaces affines fermés. S’il est borné, il est réunion finie de simplexes - un simplexe de .Rn est l’enveloppe convexe de dimension n de .n + 1 points. Le lemme de Sperner (1928), le théorème de Kuratowsky-Knaster-Mazurkiewicz (1929) sont essentiels pour démontrer les théorèmes de points fixes Brouwer (1930) et Kakutani (1941) - il en existe depuis nombreux avatars - que l’on utilisera plus tard pour l’étude de l’existence de solutions d’inéquations variationnelles. Les épigraphes des fonctions convexes sont des ensembles convexes. Les riches propriétés induites par la convexité des épigraphes vont se transposer aux fonctions. © The Author(s), under exclusive license to Springer Nature Switzerland AG 2023 J.-P. Crouzeix et al., Optimisation convexe et inéquations variationnelles monotones, Mathématiques et Applications 89, https://doi.org/10.1007/978-3-031-30681-5
181
182
Commentaires et notes bibliographiques
Les travaux de Fenchel des années 1950 [41] sur les ensembles, cônes et fonctions convexes sont repris et développés dans les années 1970 par Rockafellar [91] et Moreau [81]. La notion de fonction conjuguée est une conséquence des théorèmes de séparation sur les convexes. Il est alors possible de construire un schéma de dualité pour les problèmes d’optimisation (Rockafellar [93], Joly-Laurent [55]) de mieux interpréter dans le cas convexe le rôle des multiplicateurs en optimisation sous contraintes : les multiplicateurs sont les variables du problème dual associé, les conditions de qualification des contraintes de Mangasarian-Fromowitz [71] se réduisent à la condition de Slater [97]. Il convient de signaler que le modèle d’une économie en extension de von Neumann (1937) est sans doute un des premiers exemples où on voit apparaitre une dualité entre deux problèmes (il a été formulé en 1956 sous forme matricielle par Kemeny-Morgenstern-Thompson [60]). La théorie des inéquations variationnelles prend son développement dans les années 1960 pour l’étude des problèmes d’équilibre en économie (citons parmi les pionniers von Neumann-Morgenstern [87], Nash [84], Kantorovich [56], Debreu [34]), pour la théorie des équations aux dérivées partielles (Stampacchia [98], Lions-Stampacchia [69], Hartman-Stampacchia [45], Ekeland-Temam [38], Glowinski-Lions-Trémolières [43]), dans les années 1980 pour l’étude des problèmes de complémentarité avec Cottle-Gianessi-Lions [20]. En parallèle la théorie des opérateurs monotones s’élabore avec Minty [78, 79], Brezis [11], BrezisHaraux [12], Rockafellar [92]). Les chapitres 1, 2 et 3 sont très largement inspirés de Rockafellar [91], JolyLaurent [55], Mangasarian [72], les chapitres 4,5 et 6 se sont appuyés sur les livres et travaux d’Auslender-Teboulle [3], Brezis-Haraux [12], Rockafellar [92], Rockafellar-Wets [94], Pennanen [88]. Ces deux listes sont trop limitatives, il faut ajouter une longue liste de mathématiciens qui par leurs articles et livres ont contribué à enrichir la théorie de la convexité et des inéquations variationnelles, certains d’entre eux figurent dans la bibliographie de ce livre Nous nous sommes limités dans ce livre à la dimension finie, pour le lecteur voulant voir les extensions à la dimension infinie, nous suggérons les livres de Laurent [65], Borwein [9], Hiriart-Urruty-Lemaréchal [51]. Les auteurs rendent un particulier hommage à l’excellent livre de Berge [6] (1966), un des premiers à discuter de la continuité des multiapplications, qui est une source d’enrichissement mathématique.
References
1. J.-P. Aubin. Optima and Equilibria: an Introduction to Nonlinear Analysis. Springer Verlag, Heidelberg, 1993. 2. A. Auslender. Optimisation : Méthodes numériques. Masson, Paris, 1976. 3. A. Auslender and M. Teboulle. Asymptotic Cones and Functions in Optimization and Variational Inequalities. Springer Monographs in Mathematics, Springer-Verlag, New York, 2003. 4. Dominique Azé. Elements d’analyse convexe et variationnelle. Editions Ellipses, Paris, 1998. 5. Y. Bello-Cruz and A. N. Iusem. Convergence of direct methods for paramonotone variational inequalities. Computational Optimization and Applications 46, 2010, 247-263. 6. C. Berge. Espaces topologiques, fonctions multivoques. Dunod, Paris, 1966. 7. C. Berge. Topological spaces, including a treatment of multivalued functions, vector spaces and convexity. Translated by E. M. Patterson. Dover Publications Inc., Mineola, New York, 1997. 8. E. Blum and W. Oettli. From Optimization and Variational Inequality to Equilibrium Problems. Mathematical Studies 63, 1994, 123–145. 9. J. Borwein and A. S. Lewis. Convex Analysis and Nonlinear Optimization: Theory and Examples, Springer-Verlag, New York, 2000. 10. R. I. Bot, S.-M. Grad and G. Wanka. Almost convex functions: conjugacy and duality, in Generalized Convexity and Related Topics edited by I. V. Konnov, D. T. Luc, A. M. Rubinov, Lecture Notes in Economics and Mathematical Systems 583, Springer-Verlag, Berlin, 2007, 101–114. 11. H. Brezis. Opérateurs Maximaux Monotones et Semi-groupes de Contractions dans les espaces de Hilbert, North Holland, Amsterdam, 1973. 12. H. Brezis and A. Haraux. Image d’une somme d’opérateurs monotones et applications. Israel Journal of Mathematics 23, 1976, 165–186. 13. C. Caratheodory. Uber den der Fourierschen constanten von positiven harmonischen funktionen. Rendiconti del Circolo Matematico de Palermo 32, 1911, 193–217. 14. R. Chandrasekaran. Bimatrix Games. Indiana University, Bloomington E 521–2132, coursehero.com. 15. Y. Chabrillac and J.-P. Crouzeix. Definiteness and semi-definiteness of quadratic forms revisited. Linear algebra and its applications 63, 1984, 283–292. 16. G. Choquet. Ensembles et cônes convexes faiblement complets Comptes Rendus de l’Académie des Sciences de Paris, A 254, 1962, 190–191. 17. R. W. Cottle. Manifestations of the Schur complement. Linear Algebra and its applications 8, 1974, 189–211.
© The Author(s), under exclusive license to Springer Nature Switzerland AG 2023 J.-P. Crouzeix et al., Optimisation convexe et inéquations variationnelles monotones, Mathématiques et Applications 89, https://doi.org/10.1007/978-3-031-30681-5
183
184
References
18. R. W. Cottle, J.-S. Pang and V. Venkateswaran. Sufficient Matrices and the Linear Complementarity Problem. Linear Algebra and its applications 114/115, 1989, 234–249. 19. R. W. Cottle, J.-S. Pang and R. E. Stone. The Linear Complementarity Problem, Academic Press, Boston, 1992. 20. R. W. Cottle, F. Gianessi and J.-L. Lions. Variational Inequalities and Complementary Problems. Wiley, New-York, 1980. 21. J.-P. Crouzeix. A relationship between the second derivatives of a convex function and its conjugate. Mathematical Programming 13, 1977, 364–365. 22. J.-P. Crouzeix, J. Ferland and S. Schaible. Generalized convexity on affine subspaces with an application to potential functions. Mathematical Programming 56–2, 1992, 223–232. 23. J.-P. Crouzeix. Pseudomonotone variational inequality problems: existence of solutions. Mathematical Programming 78, 1997, 305–314. 24. J.-P. Crouzeix, A. Hassouni, A. Lahlou, and S. Schaible. Positive subdefinite matrices, generalized monotonicity, and linear complementarity problems. SIAM Journ. on Matrix Analysis and Applications 22, 2000, 66–85. 25. J.-P. Crouzeix, P. Marcotte and D. Zhu. Conditions ensuring the applicability of cutting plane methods for solving variational inequalities. Mathematical Programming 88, 2000, 305–314. 26. J.-P. Crouzeix and C. Gutan. A measure of asymmetry for positive semidefinite matrices. Optimization 52–3, 2003, 251–262. 27. J.-P. Crouzeix, E. Ocaña and W. Sosa. A construction of a maximal monotone extension of a monotone map. ESAIM proceedings 20, 2007, 93–104. 28. J.-P. Crouzeix and B. Merikhi, A logarithm barrier method for semi-definite programming. Rairo-Operations Research 42–2, 2008, 123–139. 29. J.-P. Crouzeix, and E. Ocaña. Monotone and maximal monotone affine subspaces. Operations Research Letters 38, 2010, 139–142. 30. J.-P. Crouzeix and E. Ocaña. Maximality is nothing but continuity. Journal of Convex Analysis 17, 2010, 521–534. 31. J.-P. Crouzeix. An Elementary Proof of the Existence of Solutions of a Monotone Variational Inequality in the Finite Dimensional Case. Journal of Optimization Theory and Applications 168-2, 2016, 441–445. 32. G. B. Dantzig. Linear Programming and Extensions. Princeton University Press, Princeton, New Jersey, 1963. 33. G. B. Dantzig. Origins of the simplex method. A History of Scientific Computing, G. Nash, editor, ACM Press Hist. Ser., ACM Press, Reading, MA, USA, 1990, 141–151. 34. G. Debreu. Theory of Value, Yale University Press, New Haven, 1975. 35. J-P. Dedieu. Etude d’un point de vue projectif des fonctionnelles convexes. Produits tensoriels des fonctionnelles convexes. Université Paul Sabatier, juin 1975. 36. J. Dieudonné. Sur la séparation des ensembles convexes. Mathematische Annalen 163, 1966, 1–3. 37. I. Ekeland. On the variational principle. Journal of Mathematical Analysis and Applications 47, 1974, 324–353. 38. I. Ekeland and R. Temam. Analyse Convexe et Problèmes Variationnels. Dunod, Paris, 1974. 39. F. Facchinei and J. S. Pang. Finite Dimensional Inequalities and Complementary Problems, Springer-Verlag, New York, Berlin, Heidelberg, 2003. 40. J. Farkas. Theorie der einfachen Ungleichungen. Journal fur die reine und angewandte Mathematik 124, 1902, 1–27 41. W. Fenchel, Convex cones, sets and functions. Mimeographed Notes, Princeton University, 1951. 42. S. Gloria-Palermo. Introducing Formalism in Economics: The Growth Model of John von Neumann. Panoeconomus 2, 2010, 153–172. https://halshs.archives-ouvertes.fr/halshs00726348. 43. R. Glowinski, J.-L. Lions and R. Trémolières. Analyse numérique des inéquations variationnelles, Dunod, Paris, 1976.
References
185
44. P. T. Harker and J. S. Pang. Finite dimensional variational inequality and nonlinear complementarity problems: a survey of theory, algorithms and applications. SIAM Journal on Matrix Analysis and Applications 11, 1990, 161–220. 45. P. Hartman and G. Stampacchia. On some linear elliptic differential equations. Acta Math. 115, 1966, 271–310. 46. A. Hassouni. Quasimonotone multifunctions, applications to optimality conditions in quasiconvex programming. Numerical functional analysis and optimization 13 3–4, 1992 , 267–275. 47. A. Hassouni and A. Moudafi. A perturbed algorithm for variational inclusions. Journal of Mathematical Analysis and Applications 185, 1994, 706–712. 48. A. Hassouni and W. Oettli. On regularity and optimality in nonlinear semi-infinite programming. In M. A. Goberna and M. A. Lopez, Semi-infinite programming, Nonconvex optimization. Appl. 57, Kluwer Academic Publishers, Dordrecht, 2001, 59–74. 49. A. Hassouni, A. Lahlou and A. Lamghari. Existence theorems for linear complementarity problems on solid closed convex cones. Journal of Optimization Theory and Applications 126, 2005, 225–246. 50. C. J. Himmelberg. Fixed points of compact multifunctions, J. Math. Anal. Appl. 38, 1972, 205–207. 51. J.-B. Hiriart-Urruty, and C. Lemaréchal. Convex analysis and minimization algorithms, tome 1 : Fundamentals. Springer-Verlag, Berlin, 1993. 52. J.-B. Hiriart-Urruty Optimisation et Analyse Convexe. Presses Universitaires de France, Paris, 1998. 53. J.-B. Hiriart-Urruty Bases, outils et principes pour l’analyse variationnelle. Mathématiques et applications, Springer Berlin, Heidelberg, 2012. 54. A. N. Iusem. On some properties of paramonotone operators. Journal of Convex Analysis 5, 1998, 269–278. 55. J.-L. Joly and P.-J. Laurent. Stability and duality in convex minimization problem. RIRO R2, 1971, 3–42. 56. L. V. Kantorovich. The Best Uses of Economic Resources. Ergamon Press, London, 1965. 57. S. Karamardian. Complementarity Problems over Cones with Monotone and Pseudomonotone Maps. Journal of Optimization Theory and Applications 18, 1976 , 445–454. 58. N. Karmarkar. A new polynomial-time algorithm for linear programming. Combinatorica 4–4, 1984, 373–395. 59. W. Karush. Minima of functions of several variables with inequalities as side conditions. Master’s thesis, University of Chicago, 1939. 60. J. G. Kemeny, O. Morgenstern and G. L. Thompson. A generalization of the von Neumann model of an expanding economy. Econometrica 24–2, 1956, 115–135. 61. M. Kojima, N. Megiddo and Y. Ye. An interior point potential reduction algorithm for the linear complementarity problem. Mathematical Programming 54, 1992 , 267–279. 62. H. Komiya. Elementary proof for Sion’s minimax theorem. Kodai Math. Journ. 11, 1988, 5–7. 63. M. Krein and D. Milman, On the extreme points of regularly convex sets. Combinatorica Studia Mathematica-9, 1940, 133–138. 64. H. W. Kuhn and A. W. Tucker. Nonlinear programming. Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, Berkeley, 1951. 65. P.-J. Laurent. Approximation and Optimisation. Herman Editions, Paris, 1972. 66. C. E. Lemke. Complementarity problems, In Non linear programming. O. L. Mangasarian and K. Ritter eds, Academic Press, New-York, London, 1970, 350–384. 67. C. E. Lemke. Some pivot schemes for the linear complementarity problem, Mathematical Programming Study 7, 1978, 15–35. 68. P.-L. Lions. Two remarks on the convergence of convex functions and monotone operators. Nonlinear Analysis 38-2, 1978, 553–562.
186
References
69. J.-L. Lions and G. Stampacchia. Variational Inequalities. Communication in Pure and Applied Mathematics 20, 1967, 493–519. 70. D. G. Luenberger. Introduction to linear and nonlinear programming, Addison Wesley, 1973. 71. O. L. Mangasarian and S. Fromovitz. The Fritz John necessary optimality conditions in the presence of equality and inequality constraint. Journal of Mathematical Analysis and Applications 17, 1967, 3–47. 72. O. L. Mangasarian. Nonlinear Programming, reprint of the 1969 book, Classics in Applied Mathematics, SIAM, 1974. 73. P. Marcotte. Inéquations variationnelles: Motivation, algorithmes de résolution et quelques applications, Centre de Recherche sur les Transports, Publication CRT-97-02, Université de Montréal , 1997. 74. L. McLinden. An extension of Fenchel’s duality theorem to saddle functions and dual minimax problems. Pacific Journal of Mathematics 50, 1974, 135–150. 75. H. Minkowski. Geometrie der Zahlen Leipzig, 1910. 76. H. Minkowski. Theorie der konvexen korper, Gesammelte Abhandlungen II, Leipzig-Berlin: Teubner, 1911, 131–229. 77. M. Minoux. Programmation mathématique : Théorie et algorithmes, tome 1, Dunod, Paris, 1983. 78. G. J. Minty. On the maximal domain of a monotone function. The Michigan Mathematical Journal 8, 1961, 135–137. 79. G. J. Minty. On some aspects of theory of monotone operators. In theory and applications of monotone operators, Proc. NATO Adv. Study Inst., Venice, 1968–1969, 67–82. 80. J.-J. Moreau. Proximité et dualité dans un espace hilbertien, Bulletin de la Société Mathématique de France, 93 1965, 273–299. 81. J.-J. Moreau. Fonctionnelles Convexes. Séminaire sur les équations aux dérivées partielles, Collège de France, Paris, 1966. 82. U. Mosco. Dual variational inequalities. J. of Mathematical Analysis and Applications 40, 1972, 202–206. 83. H. Moulin and F. Fogelman-Soulié. La Convexité dans les Mathématiques de la Décision. Hermann, Paris 1979. 84. J. Nash. On the variational principle. Non-cooperative games. Annals of Mathematics 54, 1951, 286–295. 85. J. von Neumann. Zur Theorie der Gesellshaftsspiel. Mathematische Annalen, 100, 1928, 295–320. 86. J. von Neumann. Über ein ökonomisches Gleichungssystem und eine Verallgemeinerung des Brouwerschen Fixpunktsatzes . Ergebnisse eines Mathematischen Seminars, Karl Menger edit. 8, 1937, 73–83. 87. J. von Neumann and O. Morgenstern. The Theory of Games and Economic Behavior. Princeton University Press, Princeton, N.J., 1948. 88. T. Pennanen. Dualization of generalized equations of maximal monotone type. SIAM J. Opti. 10–3, 2000, 809–835. 89. R. R. Phelps. Convex Functions, Monotone Operators, and Differentiability. Lecture Notes in Mathematics 1364, Springer, New York, 1989. 90. A. W. Roberts and D. E. Varberg. Convex Functions. Academic Press, 1973. 91. R. T. Rockafellar. Convex Analysis. Princeton University Press, Princeton, New Jersey, 1970. 92. R. T. Rockafellar. On the maximality of the sum of nonlinear monotone operators. Translations of the American Mathematical Society 149, 1970, 75–88. 93. R. T. Rockafellar. Convex Duality and Optimization. SIAM regional conference series in applied mathematics, 1974. 94. R. T. Rockafellar and J.-B. Wets. Variational Analysis, Springer-Verlag, Berlin, Heidelberg, 1998. 95. S. Simons. From Hahn-Banach to Monotonicity. Lecture Notes in Mathematics 1693, 2008. 96. M. Sion. On general minimax theorems. Pacific J. Math. 8, 1958, 171–176.
References
187
97. M. Slater. Lagrange multipliers revisited: a contribution to non-linear programming. Cowles Commission Discussion Paper, Math. 403, 1950. 98. G. Stampacchia. Formes bilinéaires coercitives sur les ensembles convexes. Comptes rendus hebdomadaires des séances de l’Académie des sciences 258, 1964, 4413–4416. 99. J. J. Sylvester. A demonstration of the theorem that every homogeneous quadratic polynomial is reducible by real orthogonal substitutions to the form of a sum of positive and negative squares. Philosophical Magazine. 4th Series. 4-23, Princeton, N. J., 1852, 138–142. 100. J. Vandernberghe and S. Boyd. Semidefinite Programming. SIAM Review 38, 1996, 49–95. 101. J. H. Weyl. Elementare Theorie Derkonvexen Polyeder. Commentarii Math. Helvetici 7, 1935, 290–306. 102. R. R. Yager and J. Kacprzyk. The Ordered Weighted Averaging Operators: Theory and Applications, Kluwer: Norwell, Ma, 1997. 103. Yosida K. Functional Analysis. Springer Verlag, Berlin, 1965.
Notations
L’espace vectoriel Rn Le produit scalaire de deux vecteurs x, y ∈ Rn est noté x, y. La norme euclidienne du vecteur x ∈ Rn est notée x. B(x, r), B(x, r) sont respectivement la boule ouverte et fermée de centre a et de rayon r. en = (1, 1, · · · , 1) ∈ Rn . Etant donné un ensemble A ⊂ Rn non vide Ac , A, int (A), ri (A), intg (A) désignent respectivement le complémentaire, la fermeture, l’intérieur, l’intérieur relatif, l’intérieur géométrique de A. conv (A), conv (A), aff (A) sont respectivement le plus petit convexe, le plus petit convexe fermé, le plus petit sous-espace affine contenant A. dim(A) est la dimension du sous-espace vectoriel aff (A) − a, a étant arbitrairement choisi dans A. A⊥ = {a ∗ ∈ Rn : a ∗ , a = 0 ∀ a ∈ A}. Le cône de récession (cône asymptotique) de A convexe fermé est A∞ = {d ∈ Rn : a + td ∈ A ∀ t > 0} a ∈ A choisi arbitrairement.
.
La projection de x ∈ Rn sur A ⊂ Rn convexe fermé est notée proj A (x). Le cône normal en a ∈ A est NA (a) = ∩{x ∗ : x ∗ x − a ≤ 0 ∀ x ∈ A}. La fonction indicatrice de A est définie par δA (x) = δ(x, A) = 0 si x ∈ A, +∞ sinon.
.
La fonction support de A est définie par ∗ ∗ δA (x ) = δ ∗ (x ∗ , A) = sup [ x ∗ , x : x ∈ A ].
.
x
© The Author(s), under exclusive license to Springer Nature Switzerland AG 2023 J.-P. Crouzeix et al., Optimisation convexe et inéquations variationnelles monotones, Mathématiques et Applications 89, https://doi.org/10.1007/978-3-031-30681-5
189
190
Notations
Etant donnée une fonction f : Rn → R dom (f ) = {x ∈ Rn : f (x) < +∞} est le domaine de f . epi (f ) = {(x, λ) ∈ Rn × R : f (x) ≤ λ} est l’épigraphe de f . (f ) = {(x, λ) ∈ Rn × R : f (x) < λ} est l’épigraphe strict de f . epi f est la fonction dont l’épigraphe est la fermeture de epi (f ). Soit a ∈ Rn tel que |f (a)| < +∞. La fonction asymptote (de récession) de f fonction convexe propre est f∞ (d) = lim
.
t→+∞
f (a + td) , t
a pris arbitraire dans dom (f ).
La dérivée directionnelle en a selon la direction d ∈ Rn est f (a, d) = lim
.
t↓0
f (a + td) − f (a) . t
f est Fréchet-différentiable en a s’il existe x ∗ ∈ Rn tel que f (x) − f (a) − x ∗ , x − a , x→0 x − a
0 = lim
.
ce vecteur x ∗ est appelé gradient de f en a et est noté ∇f (a). Etant donnée M matrice réelle n × p La matrice p × n transposée de M est notée M t . Puisque x, y ∈ Rn sont des matrices n × 1, on a x, y = x t y. Le rang de M est la dimension de M(Rn ). L’inertie In (M) de M matrice symétrique n × n est le triplet In (M) = (μ+ (M), μ− (M), μ0 (M))
.
composé du nombre de valeurs propres > 0, < 0, = 0 de M on a n = μ+ (M) + μ− (M) + μ0 (M).
.
Dualité L’ensemble polaire de ∅ = K ⊂ Rn K ◦ = ∩x∈K {x ∗ : x ∗ , x ≤ 1}.
.
Le cône dual positif et le cône dual négatif de ∅ = K ⊂ Rn sont K + = ∩x∈K {x ∗ : x ∗ , x ≥ 0}, K − = ∩x∈K {x ∗ : x ∗ , x ≤ 0}.
.
Si K est un cône alors K ◦ = K − = −K + . Le cône barrière de A = ∅ est noté barr (A) = {x ∗ : supx∈A x ∗ , x < +∞}.
Notations
191
La fonction conjuguée de f : Rn → R est donnée par f ∗ (x ∗ ) = sup [ x ∗ , x − f (x) ].
.
x
L’inf-convolution f g des fonctions f, g : Rn → R est définie par f g(x) = inf n [ f (y) + g((y − x) ]. y∈R
.
Multiapplications A l’ensemble G ⊂ Rn × Rp sont associées les multiapplications (x) = {x ∗ ∈ Rp : (x, x ∗ ) ∈ G},
.
∗ (x ∗ ) = −1 (x ∗ ) = {x ∈ Rn : (x, x ∗ ) ∈ G}.
.
dom () = proj Rn (G) = {x ∈ Rn : ∃ x ∗ tel que (x, x ∗ ) ∈ G}.
.
dom ( −1 ) = proj Rp (G) = {x ∗ ∈ Rp : ∃ x tel que (x, x ∗ ) ∈ G}.
.
Le sous-différentiel de la fonction f : Rn → R en x est l’ensemble ∂f (x) = {x ∗ ∈ Rn : f (x) + f ∗ (x ∗ ) ≤ x ∗ , x}.
.
Les multiapplications ∂f et ∂f ∗ sont associées à l’ensemble G = {(x, x ∗ ) ∈ Rn : f (x) + f ∗ (x ∗ ) ≤ x ∗ , x}.
.
Approximation proximale Etant donnés r > 0 et f fonction convexe sci propre sur Rn , l’approximation proximale yr (x) du point x ∈ Rn est la solution unique du problème de minimisation .
min [ f (y) +
1 x − y2 ]. 2r
Lorsque r = 1, l’approximation polynomiale yr (x) est notée prox f (x).
Index
A Algorithme de Karmarkar, 115 du simplexe, 100 proximal, 98, 134
C Complémentarité conditions d’optimalité, 75, 76 linéaire, 176 monotone, 154 Complément de Schur, 31 Composantes principales, 48 Condition de Slater, 74, 75 Cône asymptotique, de récession, 10 barrière, 46 convexe généré, 40 convexe polyédrique, 39, 40 dual positif, négatif, 38 épointé, engendré, 2 normal, 70, 71 Conservation de l’inertie, 30
D Différentiabilité et convexité continuité du gradient, 59 dérivées directionnelles, 57 domaine du sous-différ., 54 Fréchet différentiabilité, 58 intégration convexe, 61, 132
sous-diff. d’une somme, 72 sous-différentiel, 51 Dualité en optimisation inégalité du minimax, 82, 86 lagrangien, 67, 74, 75, 85 perturbation, 65 point de selle, 67 problème dual, 66 problème primal, 65 Dualité sur Inéqu. Variation. inéqu. var. duales, 164 inéqu. var. lagrang., 165 inéqu. var. primales, 163 perturbation, 163
E Elimination Fourier-Motzkin, 41 Ensemble affine engendré, 2 combinaison convexe, 3 convexe, 1 convexe finiment généré, 42 dimension d’un , 2 enveloppe convexe, 2 intérieur géométrique, 6 intérieur relatif, 7 point extrémal, 16 polaire, 37 polyèdre convexe, 42 presque convexe, 8, 55, 124, 165, 171 sous-espace affine, 2 Entropie de Shannon, 68 Equilibre de Nash, 146, 156
© The Author(s), under exclusive license to Springer Nature Switzerland AG 2023 J.-P. Crouzeix et al., Optimisation convexe et inéquations variationnelles monotones, Mathématiques et Applications 89, https://doi.org/10.1007/978-3-031-30681-5
193
194 F Fonction (bi)conjuguée, 43, 44 convexe, 19 convexité stricte, forte, 29, 33 d’écart, 148 de perturbation, 65, 80 fonction de récession, 28 indicatrice, 45 inf-compacte, 32, 33 marginale, 65 positivement homogène, 45 potentielle, 107 propre, 20 proximale, 125 régularisée sci, 19 semi-continuité sci et scs, 18 support, 45
I Inéquations variationnelles différentes formulations, 146 existence de solutions, 148 l’ensemble solution, 148, 149, 151, 152, 157, 159 problèmes d’équilibre, 161 Inf-convolution, 93, 96
J Jeu à somme nulle, 85 Jeu bimatriciel, 155
L Lemme de Farkas, 40, 81
M Matrice bordée, 31 inertie d’une, 30–32 semi-définie positive plus, 160 Mauvais comport. asymptotq., 99 Méthode des quotas, 76 Méthode proximale, 96, 125 algorithme proximal, 98, 134
Index application prox, 97, 126 Monotonie, 60, 118 constr. max. monotone, 140 continuité du domaine, 124 cyclique, 60 cyclique maximale, 143 cyclique ordre p, 60, 141 forte, stricte, 157 maximalité, 120, 132 maximalité locale, 125 Multiapplication, 52 continuité, 52, 125, 127 domaine, inverse, graphe, 52 monotone+ , 160 paramonotone, 160
N Norme duale, 50 dualité des normes usuelles, 76 sous-différentiel d’une, 51
P Point de selle, 75, 83, 155 Princ. variationnel d’Ekeland, 35 Projection sur le simplexe, 78 Projection sur un convexe, 11–12
T Théorème d’alternatives, 80, 122 de Berge, 15 de Carathéodory, 3 de Helly, 14 de Krein-Milman, 17 de Minkowsky, 16 de Minkowsky-Weil, 41, 42 de Minty, 132 de séparation, 13 de Sion, 87 de Sylvester, 30 de Von Neumann, 85 du minimax, 83 du point de selle, 83 Transform. Legendre-Fenchel, 43