
Stable Diffusion est un modèle d’apprentissage profond texte-image publié en 2022 par Stability AI et basé sur des techniques de diffusion. Il est principalement utilisé pour générer des images détaillées à partir de descriptions textuelles.
Cependant, il peut également être appliqué à des tâches telles que l’inpainting, l’outpainting et la génération de traductions image-image guidées par une invite textuelle. Il s’agit d’un type de modèle d’intelligence artificielle générative profonde. Son code et les poids de son modèle ont été open source et il peut fonctionner sur la plupart des matériels grand public.
Grâce à un accès plus ouvert, l’intelligence artificielle Stable Diffusion vous permet d’explorer la possibilité de demander au système de rendre des concepts imaginatifs et de combiner des idées.
Ses capacités de génération d’images continuent de progresser à mesure que les chercheurs affinent la technique pour produire des images de plus en plus réalistes et complexes à partir de textes dans un éventail d’applications toujours plus large. Dans cet article, nous allons explorer ce qu’est l’architecture Stable Diffusion.
Architecture du modèle Stable Diffusion
L’intelligence artificielle Stable Diffusion utilise un modèle de diffusion latente (LDM) développé par le groupe de recherche CompVis.
L’architecture de Stable Diffusion est entraînée à ajouter de manière itérative du bruit aux images, puis à le supprimer, fonctionnant comme une séquence d’auto-encodeurs de débruitage. Les composants clés de l’architecture de Stable Diffusion sont un auto-encodeur variationnel (VAE), un décodeur U-Net et un encodeur de texte optionnel.
- Le VAE compresse les images dans un espace latent de dimension inférieure qui capture la signification sémantique.
- Un bruit gaussien est appliqué à cette représentation latente dans le processus de diffusion vers l’avant. Le U-Net supprime ensuite le bruit des vecteurs latents, inversant ainsi la diffusion.
- Enfin, le décodeur VAE reconstruit l’image à partir de la représentation latente nettoyée.
Ce processus de débruitage peut être conditionné par des invites textuelles, des images ou d’autres modalités via des couches d’attention croisée. Pour le conditionnement textuel, Stable Diffusion utilise un encodeur de texte CLIP ViT-L/14 pré-entraîné pour encoder les invites dans un espace d’intégration. L’architecture modulaire offre des avantages en termes d’efficacité computationnelle pour l’entraînement et l’inférence.
Comment fonctionne le modèle Stable Diffusion ?
Stable Diffusion utilise un réseau auto-encodeur convolutif avec des encodeurs de texte basés sur des transformateurs. L’auto-encodeur est entraîné à l’aide de modèles probabilistes de diffusion avec débruitage (DDPM) afin de manipuler les vecteurs d’images latents en ajoutant et en supprimant de manière itérative du bruit gaussien.
Le processus de diffusion implique un encodeur qui prend une image x et l’encode en un vecteur latent. Un bruit gaussien est ensuite ajouté pour corrompre ce vecteur latent, avec un programme de variance paramétré qui augmente le bruit au fil du temps. Cette injection de bruit crée les entrées codées bruitées qui traversent l’architecture.
Le décodeur agit à l’inverse, en essayant de recréer l’image originale x à partir des vecteurs bruités en supprimant progressivement le bruit. Ce débruitage entraîne le modèle à rendre des images à partir du bruit en apprenant des représentations intermédiaires stables à travers les étapes de diffusion.
Les encodeurs de texte (TE) ingèrent des invites textuelles pour produire des descriptions latentes. Celles-ci sont concaténées et projetées dans la dimension correcte avant d’être fusionnées avec l’entrée du décodeur.
Cela conditionne la génération d’images en fonction de la pertinence du texte, ce qui permet de contrôler le processus de rendu.
Pendant l’échantillonnage, les vecteurs de bruit alimentent le décodeur qui débruit les sorties à chaque étape en fonction des indications de codage du texte. Les images deviennent ainsi plus claires, passant d’une résolution inférieure à une résolution pouvant atteindre 1024×1024, ce qui leur confère une cohérence globale.
Capacités du modèle Stable Diffusion
Le modèle d’intelligence artificielle Stable Diffusion peut générer de nouvelles images à partir de zéro grâce à une invite textuelle décrivant les éléments à inclure ou à omettre dans la sortie. Même les images existantes peuvent être redessinées par le modèle afin d’incorporer de nouveaux éléments décrits par une invite textuelle.
Ce processus est connu sous le nom de « synthèse d’images guidée ». Le modèle permet également d’utiliser des invites pour modifier partiellement des images existantes via le remplissage et le débordement, lorsqu’il est utilisé avec une interface utilisateur appropriée qui prend en charge ces fonctionnalités.
Il est recommandé de l’exécuter avec 10 Go ou plus de VRAM, mais les utilisateurs disposant de moins de VRAM peuvent opter pour une précision float16 au lieu de la précision float32 par défaut afin d’obtenir des performances du modèle avec une utilisation moindre de la VRAM.
Limites du modèle Stable Diffusion
Bien que l’intelligence artificielle Stable Diffusion affiche des capacités exceptionnelles de génération d’images, elle présente certaines limites, notamment
- Qualité d’image – Le modèle a été entraîné sur des images de différentes résolutions et peut générer des images jusqu’à 1024×1024. Bien que 512×512 soit une résolution courante, les capacités du modèle vont au-delà de cette seule résolution. Les résolutions supérieures ou inférieures peuvent présenter certaines variations de qualité, mais le modèle n’est pas strictement limité à une seule résolution d’entrée ou de sortie.
- Inexactitudes – Des données d’entraînement insuffisantes et de mauvaise qualité sur les membres humains entraînent des anomalies anatomiques lorsque le modèle est invité à générer des personnes. Les membres, les mains et les visages générés présentent souvent des proportions irréalistes ou des distorsions qui trahissent le manque de caractéristiques représentatives des membres dans les ensembles de données.
- Contraintes d’accessibilité – Malgré la démocratisation de l’accès pour tous, la personnalisation de Stable Diffusion pour de nouveaux cas d’utilisation nécessite des ressources hors de portée de la plupart des développeurs individuels. La formation de nouveaux ensembles de données de niche nécessite des GPU à mémoire VRAM élevée dépassant 30 Go, ce que les cartes grand public ne peuvent pas fournir. Cela empêche les extensions personnalisées d’adapter le modèle à des besoins uniques.
- Biais – Le modèle ayant été principalement formé à partir de paires texte-image en anglais représentant principalement les cultures occidentales, Stable Diffusion renforce intrinsèquement ces perspectives démographiques profondément ancrées. Les images générées perpétuent des biais manquant de diversité tout en se référant par défaut aux types occidentaux en raison de l’absence de données d’entraînement multiculturelles.
- Limitations linguistiques – Les modèles génératifs tels que Stable Diffusion peuvent avoir des capacités variables pour interpréter et générer des images à partir de prompts dans différentes langues, en fonction de la diversité linguistique des données d’entraînement.
Méthodes de réglage fin pour l’IA Stable Diffusion
Pour pallier ces limitations et ces biais, vous pouvez mettre en œuvre un entraînement supplémentaire afin de personnaliser les résultats du modèle Stable Diffusion en fonction de vos besoins spécifiques grâce à un réglage fin.
Il existe trois approches principales pour le réglage fin accessible aux utilisateurs pour Stable Diffusion :
- Intégration – Les utilisateurs fournissent des ensembles d’images personnalisés pour entraîner de petites représentations vectorielles qui sont ajoutées à l’encodeur de texte du modèle. Lorsque les noms d’intégration sont référencés dans les invites, cela biaise les images pour qu’elles correspondent au style visuel des données de l’utilisateur. Les intégrations aident à remplacer les biais démographiques et à imiter l’esthétique de niche.
- Hyperréseau – Il s’agit de minuscules réseaux neuronaux, développés à l’origine pour piloter les modèles de génération de texte, qui modifient les paramètres clés de l’architecture centrale de Stable Diffusion. En identifiant et en transformant des régions spatiales importantes, les hyperréseaux peuvent amener Stable Diffusion à imiter les styles caractéristiques d’artistes spécifiques absents des données d’entraînement d’origine.
- DreamBooth – Cette technique exploite des ensembles d’images fournis par les utilisateurs représentant une personne ou un concept particulier afin d’affiner le processus de génération de Stable Diffusion. Après un entraînement sur des exemples de niche, les invites faisant explicitement référence au sujet déclenchent des résultats précis plutôt que des résultats par défaut.
Cas d’utilisation du modèle Stable Diffusion
Les capacités du modèle Stable Diffusion sont ouvertes à des applications pratiques dans de nombreux secteurs, notamment
- Médias numériques : les artistes utilisent Stable Diffusion pour générer rapidement des croquis, des storyboards, des concepts artistiques et même des illustrations complètes en décrivant les sujets et les styles souhaités. Les studios de médias peuvent également réduire les coûts de création de contenu pour les films, les jeux vidéo, les couvertures de livres, etc.
- Conception de produits : les créateurs de mode utilisent Stable Diffusion pour présenter des vêtements avec de nouveaux imprimés, de nouvelles couleurs et de nouvelles silhouettes. Les concepteurs de produits décrivent des produits hypothétiques afin de visualiser et d’itérer des rendus CAO de modèles 3D. Cela accélère la phase initiale de conceptualisation.
- Marketing et publicité : les agences de publicité utilisent Stable Diffusion pour composer des images de produits, des scènes de vie et des publications sur les réseaux sociaux. Les images générées par l’IA réduisent les frais de prise de vue et fournissent un contenu illimité en accord avec la marque.
- Science et médecine : les chercheurs fournissent des détails sur les composés chimiques, les génomes, les molécules et les maladies afin de visualiser les données et les modèles. Cela peut révéler de nouvelles perspectives scientifiques pour la recherche. Les images médicales aident à diagnostiquer les pathologies et à planifier les traitements pour les données des patients.
L’infrastructure optimisée et les puissants GPU d’Hyperstack garantissent une expérience Stable Diffusion fluide et transparente. Plus besoin d’attendre des générations pour le rendu ! Inscrivez-vous dès aujourd’hui pour accéder aux GPU NVIDIA RTX à la demande.
FAQ
Qu’est-ce que l’intelligence artificielle Stable Diffusion ?
Stable Diffusion AI est un modèle d’IA générative qui permet de créer des images originales à partir de simples descriptions textuelles. Il suffit de donner une consigne à ce modèle pour qu’il conçoive une image réaliste en fonction de vos besoins spécifiques.
Que signifie Stable Diffusion ?
Le modèle Stable Diffusion est utilisé pour générer des images de haute qualité à partir de descriptions textuelles, améliorer les processus créatifs dans les domaines de l’art, du design et de la création de contenu, et permettre des tâches efficaces d’édition et de retouche d’images.
Quel est le meilleur GPU pour Stable Diffusion ?
Nous recommandons d’utiliser les GPU NVIDIA A100, H100, RTX A6000 et L40 pour les charges de travail d’IA générative telles que l’IA Stable Diffusion.
Quelles sont les limites du modèle Stable Diffusion ?
L’IA Stable Diffusion a du mal à traiter les images qui ne sont pas au format 512×512, ce qui entraîne des inexactitudes anatomiques chez les personnes. Elle nécessite des GPU haut de gamme pour le réentraînement, perpétue les biais démographiques de son ensemble de données centré sur l’Occident et n’interprète de manière fiable que les invites de texte en anglais.