Internal methods for the generation and inpainting of images and videos

Nicolas Cherel

Résumé

Image editing and generation are complex problems in image processing. Recently, we have seen a great leap in development by using learning-based approaches that take advantage of large image databases.In this thesis, we study internal methods i.e. methods based on a single image as a data source.This includes patch-based methods, internal learning approaches that train a neural network on a single image, and attention mechanisms that combine patches and deep networks.First, we present a contribution to single image generation with a patch-based method. This classical approach is competitive with recent network-based approaches but does not require a learning phase.Second, attention mechanisms are important for modeling long-range dependencies and are more flexible than convolutions but suffer from poor computational complexity. In fact, the complexity grows quadratically with the number of input elements making such layers unusable for high-resolution images or videos. We propose an efficient approximation based on nearest neighbor search.Finally, we look at the recent diffusion models for image and video inpainting. In the single image setting, we show how very lightweight architectures are competitive with the state-of-the-art. Our models run and train at a fraction of the computational cost of popular models.We also propose an application to video inpainting with a specific training strategy that significantly improves the results over the baseline. This strategy is particularly adapted to these one-shot models.

L'édition et la génération d'images sont des problèmes complexes dans le domaine du traitement d'images. Récemment, nous avons vu un grand bond en avant dans le développement en utilisant des approches basées sur l'apprentissage qui tirent parti de grandes bases de données d'images.Dans cette thèse, nous étudions les méthodes internes, c'est-à-dire les méthodes basées sur une seule image comme source de données.Cela inclut les méthodes par patchs, les approches d'apprentissage interne qui entraînent un réseau neuronal sur une seule image, et les mécanismes d'attention qui combinent les patchs et les réseaux profonds.Tout d'abord, nous présentons une contribution à la génération mono-image avec une méthode par patchs. Cette approche classique est compétitive par rapport aux approches récentes par réseau mais évite la phase d'apprentissage.Deuxièmement, les mécanismes d'attention sont importants pour modéliser les dépendances à longue distance et sont plus flexibles que les convolutions, mais souffrent d'une terrible complexité calculatoire. En fait, la complexité croît de façon quadratique avec le nombre d'éléments d'entrée, ce qui rend ces couches inutilisables pour les images haute-résolution ou les vidéos. Nous proposons une approximation efficace basée sur la recherche du plus proche voisin.Enfin, nous examinons les modèles de diffusion récents pour l'inpainting d'images et de vidéos. Dans les cas mono-images, nous montrons comment des architectures très légères sont compétitives par rapport à l'état de l'art. Nos modèles s'exécutent et s'entraînent pour une fraction du coût de calcul des modèles les plus courants.Nous proposons également une application à l'inpainting vidéo avec une stratégie d'entraînement spécifique qui améliore significativement les résultats par rapport à la méthode de base. Cette stratégie est particulièrement adaptée à ces modèles à usage unique.

Internal methods for the generation and inpainting of images and videos

Méthodes internes pour la génération et l'inpainting d'images et de vidéos

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager