MidJourney vs Stable Diffusion vs Bing Image Creator

0 Partages

L’intelligence artificielle change le monde de l’art de manière remarquable. L’une des applications fascinantes de l’IA dans le segment de l’art est l’utilisation de générateurs d’art descriptif. Ces générateurs ont la capacité d’examiner et d’interpréter des images et de générer des œuvres d’art entièrement nouvelles en fonction de leur analyse.

Dans cet article, nous discutons de trois de ces générateurs d’art AI : MidJourney, Stable Diffusion et Microsoft Bing Image Creator, et lequel parmi les trois arrive en tête pour générer les meilleurs résultats basés sur des invites.

Table des matières

À mi-parcours

MidJourney, fondé par David Holz, est un générateur d’art IA qui utilise l’apprentissage automatique pour identifier les motifs et les caractéristiques des œuvres d’art existantes, qui peuvent ensuite être utilisées pour créer de nouvelles pièces.

MidJourney est entré en version bêta ouverte le 12 juillet 2022. Avant de lancer MidJourney, Holz a cofondé Leap Motion, une startup qui a transformé les interfaces utilisateur en utilisant la capture vidéo et les gestes de la main. En 2019, il a vendu Leap Motion à Ultrahaptics.

Avec MidJourney qui gagne en popularité, Holz a partagé ses idées sur la technologie et son influence sur l’art et la société. Holz considère les artistes comme des clients de MidJourney, et non comme des concurrents, et estime que la plateforme peut faciliter une plus grande créativité et expérimentation dans la phase d’idéation.

Cependant, il existe des inquiétudes concernant la violation potentielle du droit d’auteur de l’ensemble de formation de MidJourney, qui peut inclure des œuvres protégées par le droit d’auteur d’autres artistes.

Holz souligne que MidJourney est conçu pour améliorer les capacités humaines plutôt que de les remplacer. Il compare cela aux voitures, expliquant que ce n’est pas parce que les voitures sont plus rapides que les humains que nous devons nous couper les jambes.

En utilisant la génération d’images AI de MidJourney, les artistes peuvent explorer de nouvelles possibilités et générer de nombreuses idées avant de créer leurs propres œuvres.

Diffusion stable

Stable Diffusion est un modèle d’apprentissage automatique open source qui peut générer des images à partir de texte, modifier des images basées sur du texte ou remplir des détails sur des images à faible résolution ou peu détaillées. Il a été formé sur des milliards d’images et peut produire des résultats comparables à ceux que vous obtiendriez avec DALL-E 2 et MidJourney.

Emad Mostaque, fondateur et PDG de Stability AI, est la société responsable de Stable Diffusion. Stable Diffusion est un modèle de diffusion latente développé par le groupe CompVis du LMU Munich, et il a été conçu par Patrick Esser et Robin Rombach, qui ont précédemment créé l’architecture du modèle de diffusion latente utilisée par Stable Diffusion.

Une collaboration entre Stability AI, CompVis LMU, Runway, EleutherAI et LAION a rendu Stable Diffusion accessible au public.

La diffusion stable peut être déployée sur diverses plates-formes, y compris les appareils Windows et Apple. L’utilisation du déploiement sur l’appareil dans une application peut protéger la confidentialité des utilisateurs, ce qui est préférable à une approche basée sur un serveur.

Créateur d’images Microsoft Bing

Microsoft a dévoilé un nouvel outil appelé Bing Image Creator, qui permet aux utilisateurs de créer leurs propres images directement dans Microsoft Edge. La société a publié une suite d’outils de création conçus pour stimuler la créativité et l’expression de soi. L’outil permet aux utilisateurs de créer des images personnalisées pour partager les mises à jour de leur vie ou à toute autre fin dont ils pourraient avoir besoin.

Les utilisateurs peuvent facilement accéder au créateur d’images à partir de la barre latérale de Microsoft Edge. Microsoft a pris des mesures proactives pour s’assurer que l’outil est utilisé de manière responsable et ne facilite pas la diffusion de contenu offensant.

La société a défini une politique de contenu qui interdit l’utilisation d’Image Creator dans certains cas, et les utilisateurs peuvent signaler toute violation de cette politique. De plus, Microsoft a mis en œuvre une technologie pour traiter les biais potentiels qui pourraient survenir dans la technologie d’image générative.

Dans cet article, nous entreprendrons un voyage pour évaluer les résultats de chaque générateur d’images AI descriptives lorsqu’il est invité avec des invites de texte identiques.

Invite 1 : Père Noël moderne sur un traîneau tiré par des rennes par une chaude journée ensoleillée sur une autoroute

Invite 2 : gros plan d’un animal aux grands yeux, capturant son innocence et sa gentillesse

Invite 3 : Un astronaute humain jouant à atterrir sur une nouvelle planète est accueilli par des créatures extraterrestres hostiles qui sortent leurs armes

Invite 4 : Art abstrait moderne d’une couverture de livre d’un roman basé à New York dans des couleurs vives et audacieuses

Invite 5 : Un homme choisit entre deux assiettes : une avec une pizza et une avec un cheeseburger dessus

Invite 6 : Un guerrier blessé chevauchant son cheval sur une montagne enneigée avec une épée à la main

Invite 7 : Une image abstraite utilisant différentes nuances qui montre le mouvement et l’écoulement de l’eau

Invite 8 : Saumon dans une rivière avec des arbres verdoyants en arrière-plan

Invite 9: Un verre d’eau sur une table avec un citron pressé dedans par une main

Invite 10 : Vue de l’horizon dans un désert du point de vue des personnes qui y chevauchent un éléphant

Invite 11 : Une forêt où le papier-monnaie pousse sur les arbres et où les oiseaux sont faits de pièces de monnaie

Invite 12 : Bol de ramen, cel shading, éclairage du soir, photoréaliste

Invite 13 : Elon Musk est pauvre et au chômage

Verdict

Après avoir évalué les résultats de MidJourney, Stable Diffusion et Bing Image Creator, il est évident qu’il n’y a pas de gagnant définitif.

Chaque générateur interprète les invites d’une manière distincte, avec des similitudes trouvées dans les sorties de Bing Image Creator et MidJourney. La diffusion stable est efficace lorsque les invites ont des descriptions claires mais prennent souvent les mots trop littéralement. Bien que MidJourney et Bing Image Creator réussissent généralement bien, ils produisent parfois des résultats qui ne correspondent pas aux invites.

Notamment, Bing Image Creator fait preuve de prudence lorsqu’il génère des sorties abusives ou incitatives, émettant un message d’avertissement lorsqu’il est invité à créer une image d’un Elon Musk pauvre et sans emploi. L’adoption par Microsoft de telles mesures de protection est louable.

Pendant ce temps, l’expertise du réseau neuronal de MidJourney a généré une image d’un Elon Musk démuni et désespéré. Par conséquent, on peut conclure que chaque générateur répondra à sa base d’utilisateurs respective.