Contributions à l'apprentissage statistique structuré : théorie et algorithmes
| Auteur / Autrice : | Théophile Cantelobre |
| Direction : | Benjamin Guedj, Alessandro Rudi, Carlo Ciliberto |
| Type : | Thèse de doctorat |
| Discipline(s) : | Informatique |
| Date : | Soutenance le 16/10/2024 |
| Etablissement(s) : | Université Paris sciences et lettres |
| Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
| Partenaire(s) de recherche : | Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique |
| Equipe de recherche : Statistical machine learning and parsimony (Paris) | |
| Établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....) | |
| Jury : | Président / Présidente : Olivier Cappé |
| Examinateurs / Examinatrices : Benjamin Guedj, Alessandro Rudi, Olivier Cappé, Éric Moulines, Gilles Blanchard, Zoltán Szabó, Gersende Fort, Lorenzo Rosasco | |
| Rapporteurs / Rapporteuses : Éric Moulines, Gilles Blanchard |
Mots clés
Mots clés contrôlés
Résumé
Les méthodes d’apprentissage automatique exploitent des biais inductifs liés à la structure des données considérées. Cette structure peut être constituée de symétries, d’invariances, d’équivariances ou d’une structure de dépendance probabiliste. La structure peut être apprise à partir des données, imposée au moment de l’apprentissage à l’aide de techniques telles que l’augmentation de données, ou elle peut être conçue directement dans l’algorithme. La prise en compte de structures riches dans les algorithmes permet de produire des algorithmes plus efficaces et plus performants. Nous développons, analysons et mettons en oeuvre des méthodes permettant de tirer parti de la structure dans différents contextes d’apprentissage et d’inférence statistiques. Tout d’abord, nous développons une divergence qui est invariante aux difféomorphismes sur des espaces de données généraux. Nous montrons que la divergence peut être calculée en forme close. Nous démontrons qu’elle est invariante, développons un algorithme pour l’approximer permettant de conserver ses propriétés invariantes et étudions ses performances empiriques sur des images. Deuxièmement, nous développons une divergence différentiable entre les séries temporelles, similaire au Dynamic Time Warping. Nous étudions en détail son invariance, sa différentiabilité et ses propriétés d’approximation, nous présentons comment la calculer en pratique et nous démontrons ses performances sur différents ensembles de données et tâches. Enfin, nous concevons un algorithme de filtrage séquentiel bayésien qui généralise les estimateurs précédemment proposés et applicable dans des contextes variés. L’algorithme est basé sur des modèles de la famille des kernel sum-ofsquares. Nous montrons que l’algorithme est stable et robuste aux erreurs de modèle, et que ses propriétés s’adaptent à la régularité du problème en question. Enfin, n ous p rouvons q u’il p eut a voir u ne p erformance c omparable a u filtre particulaire dans des configurations réalistes.