MidJourney vs Stable Diffusion vs Bing Image Creator



L’Impact Révolutionnaire de l’Intelligence Artificielle sur l’Art

L’intelligence artificielle transforme radicalement le domaine artistique. Une application particulièrement captivante de l’IA dans ce secteur est l’utilisation de générateurs d’art descriptif. Ces outils sont capables d’analyser et d’interpréter des images, puis de créer de nouvelles œuvres d’art en se basant sur leur analyse.

Dans cet article, nous examinerons trois de ces générateurs d’art IA : MidJourney, Stable Diffusion et Microsoft Bing Image Creator, afin de déterminer lequel offre les meilleurs résultats à partir de requêtes textuelles.

MidJourney

MidJourney, conçu par David Holz, est un générateur d’art IA qui utilise l’apprentissage automatique pour identifier les schémas et les caractéristiques des œuvres d’art existantes. Ces informations sont ensuite utilisées pour créer de nouvelles pièces artistiques.

MidJourney a été lancé en version bêta ouverte le 12 juillet 2022. Avant cette aventure, Holz avait cofondé Leap Motion, une entreprise qui a révolutionné les interfaces utilisateur en utilisant la capture vidéo et les gestes de la main. En 2019, Leap Motion a été cédée à Ultrahaptics.

Alors que MidJourney gagne en popularité, Holz a partagé sa vision sur la technologie et son impact sur l’art et la société. Il considère les artistes comme des clients de MidJourney, non comme des concurrents, et il est convaincu que la plateforme peut stimuler la créativité et l’expérimentation au stade de l’idéation.

Néanmoins, des préoccupations subsistent concernant d’éventuelles violations du droit d’auteur dues à l’ensemble de données de formation de MidJourney, qui pourrait contenir des œuvres protégées par les droits d’autres artistes.

Holz insiste sur le fait que MidJourney est conçu pour améliorer les capacités humaines, et non pour les remplacer. Il compare cette situation aux voitures, en soulignant que la rapidité des voitures par rapport à l’homme n’implique pas que nous devrions nous amputer les jambes.

En exploitant la génération d’images IA de MidJourney, les artistes peuvent explorer de nouvelles pistes et générer de nombreuses idées avant de créer leurs propres œuvres.

Stable Diffusion

Stable Diffusion est un modèle d’apprentissage automatique open source capable de générer des images à partir de texte, de modifier des images en fonction de descriptions textuelles ou de compléter les détails d’images de faible résolution ou peu détaillées. Il a été entraîné sur des milliards d’images et peut produire des résultats comparables à ceux de DALL-E 2 et MidJourney.

Emad Mostaque, fondateur et PDG de Stability AI, est à la tête de l’entreprise responsable de Stable Diffusion. Ce modèle de diffusion latente a été développé par le groupe CompVis de l’université LMU de Munich, et conçu par Patrick Esser et Robin Rombach, qui avaient précédemment créé l’architecture du modèle de diffusion latente utilisé par Stable Diffusion.

Une collaboration entre Stability AI, CompVis LMU, Runway, EleutherAI et LAION a permis de rendre Stable Diffusion accessible au public.

Stable Diffusion peut être déployé sur différentes plateformes, y compris les appareils Windows et Apple. L’utilisation du déploiement sur l’appareil au sein d’une application est un gage de protection de la vie privée des utilisateurs, une approche préférable à une solution basée sur un serveur.

Microsoft Bing Image Creator

Microsoft a introduit un nouvel outil appelé Bing Image Creator, qui permet aux utilisateurs de concevoir leurs propres images directement dans Microsoft Edge. L’entreprise a lancé une série d’outils de création conçus pour encourager la créativité et l’expression personnelle. Cet outil offre la possibilité de créer des images personnalisées pour partager des moments de vie ou tout autre besoin.

Les utilisateurs peuvent facilement accéder à Image Creator à partir de la barre latérale de Microsoft Edge. Microsoft a pris des mesures pour assurer une utilisation responsable de l’outil, évitant ainsi la diffusion de contenu offensant.

L’entreprise a mis en place une politique de contenu qui interdit l’utilisation d’Image Creator dans certaines situations, et les utilisateurs peuvent signaler toute infraction à cette politique. De plus, Microsoft a mis en œuvre une technologie pour traiter les biais potentiels qui pourraient apparaître dans la technologie de génération d’images.

Dans cet article, nous allons explorer les résultats obtenus par chaque générateur d’images IA descriptives en utilisant les mêmes requêtes textuelles.

Requêtes testées:

  • Invite 1 : Un Père Noël moderne sur un traîneau tiré par des rennes par une chaude journée ensoleillée sur une autoroute
  • Invite 2 : Gros plan d’un animal aux grands yeux, capturant son innocence et sa gentillesse
  • Invite 3 : Un astronaute humain jouant à atterrir sur une nouvelle planète est accueilli par des créatures extraterrestres hostiles qui sortent leurs armes
  • Invite 4 : Art abstrait moderne d’une couverture de livre d’un roman basé à New York dans des couleurs vives et audacieuses
  • Invite 5 : Un homme choisit entre deux assiettes : une avec une pizza et une avec un cheeseburger dessus
  • Invite 6 : Un guerrier blessé chevauchant son cheval sur une montagne enneigée avec une épée à la main
  • Invite 7 : Une image abstraite utilisant différentes nuances qui montre le mouvement et l’écoulement de l’eau
  • Invite 8 : Saumon dans une rivière avec des arbres verdoyants en arrière-plan
  • Invite 9 : Un verre d’eau sur une table avec un citron pressé dedans par une main
  • Invite 10 : Vue de l’horizon dans un désert du point de vue des personnes qui y chevauchent un éléphant
  • Invite 11 : Une forêt où le papier-monnaie pousse sur les arbres et où les oiseaux sont faits de pièces de monnaie
  • Invite 12 : Bol de ramen, cel shading, éclairage du soir, photoréaliste
  • Invite 13 : Elon Musk est pauvre et au chômage

Bilan

Après avoir analysé les résultats de MidJourney, Stable Diffusion et Bing Image Creator, il n’y a pas de vainqueur incontestable.

Chaque générateur interprète les requêtes de manière unique, avec des similitudes observées entre les sorties de Bing Image Creator et MidJourney. Stable Diffusion se révèle efficace lorsque les requêtes sont précises, mais interprète souvent les mots de manière trop littérale. Bien que MidJourney et Bing Image Creator réussissent généralement bien, ils produisent parfois des résultats qui ne correspondent pas parfaitement aux requêtes.

Il est à noter que Bing Image Creator fait preuve de prudence lors de la génération de contenus potentiellement abusifs ou incitatifs, affichant un message d’avertissement lorsqu’il est invité à créer une image d’un Elon Musk pauvre et sans emploi. L’adoption de telles mesures de protection par Microsoft est louable.

De son côté, l’expertise du réseau neuronal de MidJourney a généré une image d’un Elon Musk démuni et désespéré. En conséquence, on peut conclure que chaque générateur saura répondre aux besoins de sa propre base d’utilisateurs.