Les générateurs d’images d’IA font fureur ces temps-ci, mais la plupart d’entre eux sont limités à la création d’images à basse résolution, ou le matériel manque de mémoire vidéo. Il existe désormais (au moins) une solution à ce problème : une version modifiée de Stable Diffusion appelée « txt2imghd ».

Le nouveau projet txt2imghd est basé sur le mode « GOBIG » d’un autre dérivé de Stable Diffusion, qui est lui-même le modèle utilisé pour créer la plupart des images d’IA que vous avez probablement vues récemment. Les images créées avec txt2imghd peuvent être plus grandes que celles créées avec la plupart des autres générateurs – les images de démonstration sont 1536×1536, alors que Stable Diffusion est généralement limité à 1024×768, et que la valeur par défaut pour Midjourney est 512×512 (avec une mise à l’échelle optionnelle à 1664 x 1664).

Image générée avec l’invite : « Photo en gros plan de la main d’une femme mage rousse majestueuse et à couper le souffle, tenant dans sa main une minuscule boule de feu par une nuit enneigée dans un village. zoom sur la main. mise au point sur la main. profondeur d’image. effets d’ombre. art par greg rutkowski et luis royo. ultra réaliste. extrêmement détaillé. nikon d850. post-traitement cinématographique. »

Comment créer un NFT

Les évolutions de l'art créé par les système NFT

Txt2imghd a une façon astucieuse de mettre à l’échelle les images. Selon la documentation du projet, il « crée des images détaillées et de plus haute résolution en générant d’abord une image à partir d’une invite, en la mettant à l’échelle, puis en exécutant img2img sur des morceaux plus petits de l’image mise à l’échelle, et en fusionnant le résultat avec l’image originale ». Il s’agit d’un contournement astucieux des limites des cartes vidéo, mais comme on peut s’y attendre, le résultat est plus long à générer qu’une seule image à basse résolution.

La version mise à jour a à peu près la même configuration requise que la diffusion stable classique, qui recommande une carte graphique avec au moins 10 Go de mémoire vidéo (VRAM). Si vous souhaitez l’essayer, vous pouvez exécuter le modèle dans votre navigateur (un compte GitHub gratuit est nécessaire). Vous pouvez également télécharger le code pour l’exécuter sur votre propre ordinateur à partir du lien source ci-dessous.