DALL-E 2 d’OpenAI a provoqué un choc chez ceux qui pensaient que l’intelligence artificielle ne commencerait jamais (ou du moins pas rapidement) à s’infiltrer dans le domaine de la créativité. Mais DALL-E 2 est-il là pour prendre le travail des artistes ?

Comment fonctionne DALL-E 2 ?

Une représentation du réseau neuronal de DALL-E 2
OpenAI

DALL-E 2 est si impressionnant qu’il ressemble presque à de la magie, mais il n’est pas difficile de comprendre dans les grandes lignes comment il crée des images aussi étonnantes et réalistes.

DALL-E 2 se compose de deux éléments principaux : le premier est GPT-3, qui est sans doute l’algorithme d’apprentissage automatique en langage naturel le plus avancé à l’heure actuelle. DALL-E 2 utilise également un autre modèle OpenAI connu sous le nom de CLIP (Contrastive Language-Image Pre-training).

GPT-3 et CLIP permettent à un ordinateur de comprendre et de générer un langage naturel sophistiqué. En entraînant le réseau neuronal de DALL-E avec des milliards d’images et leurs descriptions en langage naturel provenant (principalement) d’Internet, il apprend les relations entre les concepts.

Dans un sens, DALL-E est l’inverse d’une pratique courante d’apprentissage automatique, où vous fournissez une image et l’IA tente de décrire ce qu’elle voit.

L’UNESCO FAIT AVANCER LA « DÉCLARATION UNIVERSELLE » SUR L’INTELLIGENCE ARTIFICIELLE

Un exemple de génération d’images par diffusion de DALL-E 2 : un ours polaire jouant de la guitare basse.

Pensez à la fameuse application « Not a Hotdog » de la série télévisée Silicon Valley. La différence ici, c’est qu’au lieu de demander à l’IA si l’image est un hotdog ou non, vous décrivez le hotdog et elle génère une image de hotdog entièrement originale en se basant sur tout ce qu’elle a appris sur eux.

La deuxième grande caractéristique de DALL-E est la façon dont il génère les images. Il utilise une méthode connue sous le nom de « diffusion ». Plus précisément, la compréhension de la description d’une image en langage humain qui a été créée, est transformée en une image à l’aide d’un modèle OpenAI appelé GLIDE. GLIDE prend une image constituée d’un bruit généré de manière aléatoire, puis élimine progressivement ce bruit jusqu’à ce qu’il corresponde à l’image décrite en langage naturel. C’est un peu comme si un sculpteur partait d’un bloc de marbre et l’enlevait jusqu’à ce qu’il ne reste qu’une statue.

Pour une description beaucoup plus technique et détaillée du fonctionnement de DALL-E 2, nous vous recommandons vivement l’explication de DALL-E 2 sur le blog d’apprentissage profond AssemblyAI.

Pourquoi DALL-E 2 est-il si perturbateur ?

DALL-E 2 est loin d’être le premier logiciel d’apprentissage automatique capable de générer des images. Il y a eu de nombreux systèmes antérieurs, et DALL-E 2 s’appuie sur les leçons tirées de ces autres projets. Alors pourquoi cette fois-ci a-t-elle l’air d’un tournant perturbateur ?

Une raison importante est que les images produites par DALL-E et DALL-E 2 sont esthétiquement agréables. Les autres systèmes de génération d’images d’IA créent souvent des images que les gens décrivent comme dérangeantes ou comme issues d’un rêve. C’est un peu comme l’Uncanny Valley, mais pour les arts visuels. DALL-E 2 crée des images qui ont clairement un œil artistique ou un certain sens de l’esthétique.

Les images créées par DALL-E 2 sont donc comparables à celles réalisées par des artistes ou des photographes talentueux qui ont passé leur vie à développer leur sens de l’esthétique. Il n’est pas difficile d’imaginer qu’une personne de ce genre regarde les images que DALL-E 2 peut cracher en quelques secondes et qu’elle ait l’impression d’être sur le point de devenir insignifiante.

Variations d’une peinture existante générée par DALL-E 2.

Non seulement le système est capable de produire en quelques secondes de superbes images en haute résolution à partir d’invites en langage naturel, mais il peut également modifier et éditer ces images, ou fournir de multiples variations d’une image existante, même celle fournie par l’utilisateur. Cela signifie-t-il pour autant que les artistes doivent remballer leurs chevalets et leurs tablettes à dessin et « apprendre à coder » à la place ?

DALL-E 2 signifie que les artistes vont changer, mais pas disparaître.

OpenAI a été très prudent quant à la diffusion de sa technologie au monde entier. C’est logique, car il y a clairement beaucoup de possibilités d’abus. Pourtant, maintenant qu’ils ont montré que c’était possible, il ne faudra pas longtemps avant que des chercheurs en IA commerciaux ou indépendants reproduisent ce que DALL-E fait et le mettent à la disposition de tous. Les grands acteurs du secteur de l’apprentissage automatique ont également leurs propres artistes de l’IA à haute performance qui attendent dans les coulisses, comme Imagen de Google.

Comme la boîte de Pandore ne peut être fermée, nous devons accepter que le monde des arts visuels va irrémédiablement changer, mais cela ne signifie pas que les artistes appartiennent au passé.

Une façon de voir les choses est que cette technologie met le pouvoir de générer de l’art entre les mains de n’importe qui. L’accent n’est plus mis sur la capacité technique de créer des images, mais sur la capacité de décrire précisément et d’itérer votre vision, jusqu’à ce que ce que vous voyez à l’écran corresponde à ce que vous aviez en tête. En d’autres termes, davantage de personnes auront désormais la capacité de s’exprimer visuellement, tout comme davantage de personnes peuvent désormais effectuer des calculs précis grâce à l’existence des calculatrices.

Certains types d’artistes n’ont peut-être plus de modèle économique viable. Si vous gagnez votre vie en réalisant des commandes contre rémunération, il est difficile de rivaliser avec un programme capable de créer des centaines d’images à l’heure sur la base de la description d’un client et de modifier ces images presque instantanément. Il est préférable d’utiliser ces outils pour réaliser votre propre vision, puis de vendre ces images uniques en fonction de votre sensibilité.

Le client a toujours raison

Il est également important de se rappeler qu’en fin de compte, ces images sont créées pour la consommation humaine. Nous, les humains, avons nos propres valeurs qui vont au-delà de la commodité et de la supériorité technique. Dans un monde où l’art généré est abondant et donc relativement bon marché et jetable, il y aura toujours un public prêt à apprécier (et à acheter) l’art créé par l’homme, simplement parce qu’il est relativement rare.

En d’autres termes, un logiciel comme DALL-E 2 pourrait sonner le glas des artistes qui gagnent leur vie en produisant des œuvres à la chaîne, mais il est peu probable qu’il assombrisse les perspectives des artistes qui ont quelque chose à dire et une identité visuelle unique à travers laquelle s’exprimer.