Utiliser efficacement le texte en image avec la diffusion stable, l'alternative DALL-E 2 / MidJourney

2 septembre 2022

Il est possible de tirer parti de l'IA pour générer des images à partir de texte (également connu sous le nom de conversion de texte en image). Stable Diffusion, de Stability AI, est le meilleur modèle d'IA open-source pour la génération d'images, et une excellente alternative à DALL-E 2 ou MidJourney. Mais l'utilisation correcte de ce modèle demande un peu de pratique, alors nous allons vous montrer comment générer des images étonnantes avec Stable Diffusion !

DALL-E 2 et MidJourney

DALL-E 2, publié par OpenAI, est un puissant modèle d'IA pour la conversion de texte en image. Mais il est toujours en version bêta fermée au moment où nous écrivons ces lignes, ce qui signifie que vous devez demander un accès spécial pour l'utiliser.

Avec DALL-E 2, vous pouvez soit générer des images réalistes qui ressemblent à une vraie photographie, soit générer des images plus abstraites qui peuvent ressembler à des dessins, des peintures ou des images de synthèse.

MidJourney est également un excellent candidat pour la conversion de texte en image et il est particulièrement populaire pour la génération d'art AI.

Comment générer de telles images ? Tout simplement en créant une instruction textuelle en langage naturel. Voici quelques exemples :

Image conceptuelle d'une ville futuriste au coucher du soleil.

Image conceptuelle d'une ville futuriste au coucher du soleil, générée par la diffusion stable.

Photographie d'un gorille dans la rue.

Photographie d'un gorille dans la rue, générée par Diffusion Stable

Diffusion stable

Stable Diffusion est un modèle texte-image open-source, créé par une société de chercheurs appelée Stability AI (voir leur site web ici).

Stable Diffusion est le premier modèle d'IA open-source atteignant les mêmes performances que DALL-E 2 et MidJourney. Il renvoie des résultats précis tout en maintenant un temps de réponse assez faible.

La Diffusion Stable est maintenant disponible sur NLP Cloud ! Mais tirer le meilleur parti de ce grand modèle d'IA demande un peu de pratique et vous pourriez être déçu par vos premiers résultats.

C'est pourquoi nous avons pensé qu'il serait intéressant de vous donner plus de détails sur la façon d'utiliser ces modèles de conversion de texte en image.

L'approche naïve

À première vue, vous pourriez vouloir utiliser des instructions très simples comme "une voiture" ou "un lion". Cela ne donnerait pas nécessairement des résultats étonnants. Voici quelques exemples :

Une voiture

Une voiture, générée par Diffusion Stable

Un lion

Un lion, généré par la Diffusion Stable

Ce n'est pas mal, mais nous pouvons faire beaucoup mieux !

Choisir une technique

L'amélioration la plus simple et la plus impressionnante que vous puissiez faire est de choisir une technique de création pour votre image. Par exemple, il peut s'agir de peinture à l'huile, de dessin au crayon, de concept art, de photographie... Essayons quelques exemples :

Un dessin au crayon d'un lion

Dessin au crayon d'un lion, généré par Diffusion Stable

Une peinture à l'huile d'un lac en hiver

Une peinture à l'huile d'un lac en hiver, générée par la diffusion stable.

Un concept artistique d'une voiture cyberpunk

Un concept artistique d'une voiture cyberpunk, généré par Stable Diffusion.

Il est impressionnant de voir à quel point il est facile de générer des œuvres d'art suivant un style spécifique en un rien de temps, n'est-ce pas ?

Choisissez un style

Parfois, une technique n'est pas suffisante pour décrire le type d'image que vous souhaitez générer. Dans ce cas, spécifier un artiste peut être utile ! Voici quelques exemples :

Un champ de tulipes réalisé par Claude Monet

Un champ de tulipes réalisé par Claude Monet, généré par Diffusion Stable

Une peinture à l'huile d'une femme réalisée par Rembrandt

Une peinture à l'huile d'une femme réalisée par Rembrandt, générée par Diffusion Stable

C'est une bonne occasion de faire des recherches sur des artistes que vous ne connaissez pas encore.

Explorez

Les exemples ci-dessus peuvent être très utiles, mais vous pouvez encore faire mieux en utilisant certains mots-clés spécifiques. L'équipe Stability AI vous recommande d'essayer certains des mots-clés suivants dans vos instructions :

Hautement détaillé, surréalisme, tendance sur art station, schéma de couleurs triadique, lisse, mise au point nette, mat, élégant, la plus belle image jamais vue, illustration, peinture numérique, sombre, lugubre, rendu octane, 8k, 4k, couleurs lavées, nettes, éclairage dramatique, magnifique, post traitement, image du jour, éclairage ambiant, composition épique.

Nul doute que vous découvrirez des instructions spéciales que personne n'a jamais essayées avant vous et qui donnent des résultats étonnants !

N'hésitez pas non plus à créer des instructions plus longues. Vous ne devez pas nécessairement vous en tenir à une seule phrase. Vous pouvez par exemple utiliser un paragraphe entier.

Si vous avez besoin d'idées, voici quelques exemples intéressants :

lunettes d'ordinateur Apple iGlass futuristes hautement détaillées sur le visage d'un humain, cyberpunk, suivi de la main, concept art, character art, studio lightning, couleurs vives, complexe, chef-d'œuvre, photoréaliste, hyperréaliste, mise au point précise, contraste élevé, Artstation HQ, DeviantArt trending, 8k UHD, Unreal Engine 5

Une illustration manga détaillée d'un homme animé cyborg aux cheveux noirs qui a un œil mécanique rouge, trending on artstation, digital art, 4 k resolution, detailed, high quality, sharp focus, hq artwork, insane detail, concept art, character concept, character illustration, full body illustration, cinematic, dramatic lighting

un guerrier zoulou cyberpunk assis sur une falaise regardant de loin la chute d'un météore sur terre, par alena aenami et android jones et greg rutkowski, Trending on artstation, hyperréalisme, élégant, stylisé, art numérique hautement détaillé, résolution 8k, hd, illumination globale, ray tracing, lumière rayonnante, éclairage volumétrique, environnement détaillé et complexe du ghetto cyberpunk, rendu en octane, huile sur toile, grand angle, portrait dynamique

Machine dieu se reconstruisant, fantaisie, d & d, complexe, détaillée, fantaisiste, détaillée, trending on artstation, trending on artstation, smooth

Vieux moine sage guidant une âme perdue dans les limbes, dans le style de Tomer Hanuka et Atey Ghailan, couleurs vives, tendance sur artstation

paul bettany en ange avec des ailes est couvert de vignes, de fleurs et de mousse et se tient devant un beau cottage, une peinture numérique de thomas canty et thomas kincade et ross tran, art nouveau, éclairage atmosphérique, tendance sur artstation

concept art pour une voiture aux énormes pointes acérées, peint par syd mead, haute qualité

Jeunes médecins indiens pâles et anxieux portant des vêtements américains devant un hôpital, portrait, élégant, complexe, peinture numérique, artstation, concept art, lisse, netteté, illustration, art par artgerm et greg rutkowski et alphonse mucha

dieu crâne, portrait rapproché, puissant, complexe, élégant, éclairage volumétrique, paysage, peinture numérique, très détaillé, artstation, netteté, illustration, concept art, ruan jia, steve mccurry

fille ukrainienne avec des vêtements bleus et jaunes près d'un grand avion en ruine, concept art, tendance sur artstation, très détaillé, complexe, netteté, art numérique, 8 k

fantôme terrifiant qui pleure, visage très détaillé, caractéristiques détaillées, fantaisie, circuits, explosion, dramatique, complexe, élégant, très détaillé, peinture numérique, artstation, concept art, lisse, netteté, illustration, art par Gustave Dore, octane render

Portrait d'une belle et espiègle dame en liberté, art nouveau, fantaisie, tenant un vase de René Lalique, élégant, très détaillé, mise au point précise, art par Artgerm et Greg Rutkowski et WLOP

un portrait de femme qui est une représentation de la culture argentine, buenos aires, fantaisie, complexe, très détaillé, peinture numérique, artstation, concept art, lisse, netteté, illustration, art par artgerm et greg rutkowski et alphonse mucha

Peinture de Greg Rutkowski, la nuit, une grande cruche en céramique avec des ornements dorés vole haut dans le ciel bleu foncé au-dessus d'une petite maison blanche au toit de chaume, étoiles dans le ciel, couleurs riches et pittoresques.

fête de la pizza dans un parc à thème, poussière de lumière, magnifique, gros plan, détails, mise au point, élégant, très détaillé, illustration, par Jordan Grimmer et greg rutkowski et PiNe(パイネ) et 薯子Imoko et 香川悠作 et wlop et maya takamura, complexe, beau, Trending artstation, pixiv, digital Art

Photo de studio d'un portrait hyperréaliste de timothy dalton, magnifique symétrique !!! visage précis visage détaillé proportions réalistes, fait de verre dépoli rose sur un piédestal par ron mueck et matthew barney et greg rutkowski, hyperréalisme éclairage cinématographique détail choquant 8 k

Conclusion

Comme vous pouvez le constater, la génération d'images est une technique très impressionnante qui a été démocratisée par des modèles comme DALL-E 2 ou MidJourney et Stable Diffusion.

Une fois que vous maîtrisez les techniques de conversion du texte en image, vous pouvez facilement générer des tonnes d'images étonnantes en un clin d'œil.

J'espère que vous l'avez trouvé utile ! Si vous avez des questions sur la façon de réaliser la diffusion la plus stable, n'hésitez pas à nous les poser. n'hésitez pas à nous les poser.

Julien Salinas
Directeur technique de NLP Cloud