Thèse soutenue

Contributions à l'apprentissage statistique structuré : théorie et algorithmes

FR  |  
EN
Auteur / Autrice : Théophile Cantelobre
Direction : Benjamin GuedjAlessandro RudiCarlo Ciliberto
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 16/10/2024
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
Equipe de recherche : Statistical machine learning and parsimony (Paris)
Établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Olivier Cappé
Examinateurs / Examinatrices : Benjamin Guedj, Alessandro Rudi, Olivier Cappé, Éric Moulines, Gilles Blanchard, Zoltán Szabó, Gersende Fort, Lorenzo Rosasco
Rapporteurs / Rapporteuses : Éric Moulines, Gilles Blanchard

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Les méthodes d’apprentissage automatique exploitent des biais inductifs liés à la structure des données considérées. Cette structure peut être constituée de symétries, d’invariances, d’équivariances ou d’une structure de dépendance probabiliste. La structure peut être apprise à partir des données, imposée au moment de l’apprentissage à l’aide de techniques telles que l’augmentation de données, ou elle peut être conçue directement dans l’algorithme. La prise en compte de structures riches dans les algorithmes permet de produire des algorithmes plus efficaces et plus performants. Nous développons, analysons et mettons en oeuvre des méthodes permettant de tirer parti de la structure dans différents contextes d’apprentissage et d’inférence statistiques. Tout d’abord, nous développons une divergence qui est invariante aux difféomorphismes sur des espaces de données généraux. Nous montrons que la divergence peut être calculée en forme close. Nous démontrons qu’elle est invariante, développons un algorithme pour l’approximer permettant de conserver ses propriétés invariantes et étudions ses performances empiriques sur des images. Deuxièmement, nous développons une divergence différentiable entre les séries temporelles, similaire au Dynamic Time Warping. Nous étudions en détail son invariance, sa différentiabilité et ses propriétés d’approximation, nous présentons comment la calculer en pratique et nous démontrons ses performances sur différents ensembles de données et tâches. Enfin, nous concevons un algorithme de filtrage séquentiel bayésien qui généralise les estimateurs précédemment proposés et applicable dans des contextes variés. L’algorithme est basé sur des modèles de la famille des kernel sum-ofsquares. Nous montrons que l’algorithme est stable et robuste aux erreurs de modèle, et que ses propriétés s’adaptent à la régularité du problème en question. Enfin, n ous p rouvons q u’il p eut a voir u ne p erformance c omparable a u filtre particulaire dans des configurations réalistes.