Comment protéger vos images des générateurs d’art par l’IA

By Corentin BURTIN

Les générateurs d’art par IA ne sont peut-être pas capables d’imiter la créativité humaine, mais ils peuvent certainement vous escroquer. C’est une source d’inquiétude pour les artistes et pour ceux qui redoutent la mainmise de l’IA, mais tout n’est peut-être pas perdu.

Comment protéger l’art protégé par des droits d’auteur contre l’IA ?

Les générateurs d’art de l’IA ne sont rien sans les ensembles de données sur lesquels ils ont été formés. Il s’agit de prendre un vaste échantillon d’œuvres d’art existantes et de le contextualiser de manière à permettre aux humains d’utiliser des invites en langage naturel pour créer des œuvres d’art similaires. Vous pouvez l’essayer vous-même en utilisant une application d’art génératif comme DALL-E 2 ou Midjourney d’OpenAI.

Nous avons demandé à DALL-E 2 de produire « une image d’Elmo de Sesame Street dans le style de Pablo Picasso » et voici ce que nous avons obtenu (oui, c’était la meilleure du lot) :

Elmo dans le style de Pablo Picasso avec l’aimable autorisation d’OpenAI DALL-E 2

La possibilité de créer des œuvres d’art dans le style d’artistes décédés n’est pas forcément une source d’inquiétude, surtout dans un style aussi reconnaissable. Mais pour les artistes modernes qui partagent leurs créations sur des sites tels que ArtStation, DeviantArt, Behance, des sites web personnels et des pages de médias sociaux comme Instagram ou Facebook, c’est beaucoup plus inquiétant.

Que pouvez-vous donc faire pour éviter que vos propres créations ne soient utilisées pour former une IA capable de produire des créations bien plus rapidement que vous ?

Pourquoi vous devriez envisager d’accrocher de l’art AI 

Se retirer des ensembles de données d’entraînement

Vous pouvez choisir de ne pas participer à deux des plus grands ensembles de données d’entraînement d’images ouverts sur l’internet, LAION-400M et LAION-5B, en utilisant HaveIBeenTrained.com. Ces ensembles de données sont utilisés par certains des plus grands générateurs d’images du web, notamment Stable Diffusion et Google Imagen. Parce qu’ils sont vraiment ouverts, de nombreux autres outils d’IA générative les utilisent également.

Malheureusement, le processus est lent et fastidieux. Vous devez d’abord vous inscrire pour obtenir un compte, puis rechercher ou télécharger une image pour trouver des correspondances dans l’ensemble de données. Vous pouvez ensuite cliquer avec le bouton droit de la souris sur l’image dans le navigateur Web de votre bureau et choisir l’option « Ajouter à mes exclusions ». Vous pouvez également donner à l’ensemble de données l’autorisation explicite d’utiliser une image en cliquant sur « Ajouter à mes options ».

Désactiver des ensembles de données avec HaveIBeenTrained.com

Vous devrez effectuer cette opération pour chaque image trouvée, ce qui peut s’avérer fastidieux si vous êtes un artiste possédant un grand nombre d’œuvres. Le temps que cela prendra dépend en fin de compte de la facilité avec laquelle il est possible de filtrer votre travail, ce qui peut être plus facile si votre travail est associé à un nom ou à un projet unique, s’il est suivi par un grand nombre de personnes en ligne, etc.

Bien que ces deux énormes ensembles de données constituent un excellent point de départ, ils sont loin d’être les seuls à être utilisés. Les particuliers peuvent créer leurs propres ensembles de données, et certains le font pour reproduire un artiste ou un style artistique particulier. Certaines entreprises, comme OpenAI, ne divulguent pas du tout les ensembles de données utilisés par leurs outils, de sorte qu’il n’y a aucun moyen de les combattre.

A lire également :   Sécurisez votre routeur sans fil : 8 choses à faire

Utiliser Robots.txt pour repousser les robots d’indexation

Un fichier robots.txt est un petit document texte placé dans le répertoire racine d’un site web pour indiquer aux robots d’indexation où ils sont autorisés ou non à aller. Bien que Google déclare explicitement qu’il ne s’agit pas d’un mécanisme permettant d’exclure une page web de Google, vous pouvez tout de même essayer de l’utiliser pour éloigner les robots d’indexation de votre œuvre d’art si vous l’hébergez sur votre propre site web.

Comme leur nom l’indique, les robots d’indexation parcourent le web à la recherche de contenu à indexer. Les moteurs de recherche sont loin d’être les seuls crawlers, et les crawlers sont également utilisés pour créer des ensembles de données tels que les ensembles de données LAION-400M et LAION-5B mentionnés ci-dessus. Le principal problème du fichier robots.txt est qu’il repose sur le respect de votre demande par le robot d’exploration.

L’un des plus grands ensembles de données existants est Common Crawl, dont les données ont été utilisées pour construire les ensembles de données de LAION. Le processus d’exploration du web est un processus continu, LAION déclarant que son jeu de données LAION-400M actuel (au moment de la rédaction du présent document) a été créé « à partir de pages web aléatoires explorées entre 2014 et 2021 ».

Common Crawl indique qu’il respecte le fichier robots.txt et le protocole d’exclusion des robots, à la fois en termes de blocage de contenu et de retardement de l’exploration (pour économiser de la bande passante). Vous pouvez le faire en créant une règle pour l’agent utilisateur « CCBot » dans votre fichier Robots.txt. Bien entendu, rien de tout cela ne sera utile si vous n’hébergez pas vous-même votre œuvre d’art.

Google Search Central propose un guide pratique pour la création d’un fichier robots.txt, ou vous pouvez utiliser un site web tel que le générateur de robots.txt de Ryte pour en créer un pour vous. Vous pouvez autoriser ou interdire l’accès de certains agents utilisateurs à des répertoires spécifiques, ou simplement tout bloquer à l’aide d’un caractère générique (*). Par exemple, un fichier robots.txt qui bloque tous les fichiers de votre répertoire /images/ de Common Crawl tout en permettant à d’autres robots d’indexer votre site web se lirait comme suit :

User-agent : CCbot
Disallow : /images/

User-agent : *
Autoriser : /

Plan du site : https://www.example.com/sitemap.xml

Cela n’empêchera pas les crawlers qui ont déjà visité votre site web, mais cela devrait empêcher Common Crawl d’indexer votre dossier /images/ (et tout nouveau téléchargement depuis le dernier crawl) à l’avenir.

Les évolutions de l'art créé par les système NFT

Droits d’auteur sur vos œuvres d’art

Bien que le droit d’auteur soit implicite dans les œuvres que vous avez créées, il peut être utile de faire des efforts pour protéger vos œuvres. Aux États-Unis, vous pouvez le faire en enregistrant vos œuvres sur le site Copyright.gov. Vous pouvez soumettre jusqu’à 10 œuvres non publiées en une seule demande, mais sachez que le traitement de vos œuvres peut prendre un certain temps (environ un an à l’heure actuelle).

Le fait d’avoir enregistré le droit d’auteur sur votre œuvre vous donne plus de poids dans les affaires qui impliquent les tribunaux. C’est l’idée qui sous-tend une action collective intentée contre Stability AI (concepteur de Stable Diffusion et de DreamStudio, bailleur de fonds de LAION), DeviantArt (plateforme pour artistes et concepteur de DreamUp) et Midjourney, une application d’art génératif, au nom des artistes concernés.

Différents types d’œuvres que vous pouvez protéger par le droit d’auteur sur Copyright.gov

Si vous pensez que votre œuvre a été utilisée pour former ces générateurs, vous pouvez vous joindre à l’action collective en contactant l’équipe juridique. La demande d’enregistrement de votre œuvre auprès de l’Office américain des droits d’auteur est une première étape importante si vous souhaitez emprunter cette voie.

À l’instar d’autres pratiques qui ont attiré les avocats par le passé – piratage, jailbreaking, filesharing – il est peu probable qu’une action en justice mette un terme à ces pratiques. La défense fera probablement valoir que ces outils ont été formés à l' »utilisation équitable » de matériel recueilli sur des sites web publics. Nous devrons attendre de voir quel sera l’effet de ce type de procès, s’il y en a un.

A lire également :   Créez un assistant personnel avec les instructions personnalisées de ChatGPT

Filigrane agressif

Si vous ne téléchargez jamais vos œuvres d’art qu’avec un filigrane agressif ou à la limite de l’autodestruction, les œuvres d’art incluses dans les ensembles de données en tiendront compte. En fin de compte, cela dépend en grande partie de la raison pour laquelle votre œuvre est téléchargée. Si vous créez des œuvres d’art à des fins non commerciales pour le plaisir d’Internet, cela semble en fin de compte aller à l’encontre du but recherché.

En revanche, si vous vendez des peintures dans le monde réel et que vous souhaitez les exposer en ligne avant de les vendre, cela peut s’avérer utile. Il est certain que cela nuira à l’œuvre d’art finie, c’est donc quelque chose que vous devrez prendre en considération.

Ne téléchargez pas vos œuvres sur l’internet

Cela peut sembler ridicule (et ça l’est), mais si vos œuvres ne sont jamais téléchargées sur l’internet, il n’y a aucune chance qu’elles soient prises dans le filet et utilisées pour former l’IA. Bien entendu, gagner sa vie en tant qu’artiste sans utiliser l’internet pour partager ses œuvres est quasiment impossible (surtout si vous travaillez sur un support numérique).

Pour les artistes qui travaillent sur la musique, c’est une impossibilité. Même si vous travaillez avec des matériaux traditionnels comme l’huile ou l’aquarelle, il est impossible de savoir si quelqu’un va prendre une photo de l’œuvre terminée et la télécharger lui-même.

L’art de l’IA peut-il être protégé par le droit d’auteur ?

La question de savoir si les résultats de l’IA générative peuvent être protégés par le droit d’auteur est complexe. Ce qui est généralement admis, c’est que l’outil d’IA utilisé pour générer l’œuvre d’art a rarement des droits sur le résultat.

Cela est clairement indiqué dans les conditions d’utilisation de la plupart des outils, y compris Stable Diffusion :

À l’exception de ce qui est stipulé dans le présent document, le concédant ne revendique aucun droit sur les résultats que vous générez à l’aide du modèle. Vous êtes responsable de la sortie que vous générez et de ses utilisations ultérieures. Aucune utilisation de la sortie ne peut contrevenir à l’une des dispositions de la licence.

La licence poursuit en interdisant toute utilisation qui « viole toute loi ou réglementation nationale, fédérale, nationale, locale ou internationale applicable », ce qui inclut la loi sur les droits d’auteur.

Voyage à mi-parcours :

Vous êtes propriétaire de tous les actifs que vous créez avec les services, dans la mesure où la loi en vigueur le permet. Cela exclut la mise à l’échelle des images d’autrui, qui restent la propriété des créateurs de l’actif d’origine.

Et OpenAI (DALL-E 2) :

Entre les parties et dans la mesure permise par la loi applicable, vous êtes propriétaire de tous les intrants, et sous réserve de votre respect de ces conditions, OpenAI vous cède par la présente tous ses droits, titres et intérêts dans et sur les extrants.

En ce qui concerne le droit d’auteur sur tout ce que vous avez créé avec un tel outil, le Bureau américain du droit d’auteur a déclaré que le droit d’auteur ne s’applique qu’à l’art créé par des êtres humains (avec d’autres exigences, comme l’originalité) :

Dans les cas où la paternité non humaine est revendiquée, les cours d’appel ont estimé que le droit d’auteur ne protégeait pas les créations alléguées.

Le droit étant en constante évolution, cette décision pourrait être contestée avec succès à l’avenir. Il convient également de noter que les éléments d’un produit final qui ne sont pas le fruit d’un générateur d’IA (comme l’intrigue ou les dialogues) peuvent toujours être protégés par le droit d’auteur, même si d’autres éléments (comme les œuvres d’art ou la musique) ne le sont pas.

A lire également :   Pourquoi est-il appelé un eReader Amazon "Kindle" ?

Les générateurs d’art par IA peuvent-ils utiliser mes œuvres d’art protégées par le droit d’auteur ?

La question n’est pas nécessairement de savoir si les générateurs d’IA peuvent utiliser vos œuvres protégées par le droit d’auteur, mais s’ils utilisent déjà vos œuvres protégées par le droit d’auteur. La réponse à cette question, comme l’ont découvert de nombreux artistes, est un oui retentissant. Nous avons évoqué plus haut quelques méthodes permettant de se retirer des ensembles de données et d’empêcher les robots d’indexation d’indexer votre contenu, mais ces techniques dépendent en fin de compte du respect de vos préférences par la personne qui est à la barre.

Vous pouvez savoir si vos œuvres sont incluses dans les plus grands ensembles de données publiques d’images en utilisant HaveIBeenTrained.com. Téléchargez l’une de vos œuvres les plus connues ou recherchez votre nom, le titre de votre œuvre, votre webcomic ou toute autre création et jetez un coup d’œil. Si votre œuvre apparaît sur le site web, c’est qu’elle est incluse dans un ensemble de données utilisé par Stable Diffusion et d’autres.

Sans parler des autres applications d’art génératif qui ne divulguent pas les ensembles de données utilisés (comme DALL-E d’OpenAI). Vous pouvez toujours essayer une invite telle que « œuvre d’art dans le style de Votre nom » pour voir si quelque chose de familier apparaît.

De nouveaux outils pourraient aider à vaincre les générateurs d’œuvres d’art par l’IA

Les artistes ont peut-être un peu d’espoir sous la forme d’outils qui peuvent empêcher une IA générative de reproduire des œuvres d’art à partir d’images contenues dans un ensemble de données. Malheureusement, ces solutions n’existent pas encore (à l’heure où nous écrivons ces lignes) et il est impossible de savoir si elles seront efficaces à long terme. Les outils d’IA évoluant rapidement, il est possible qu’ils se développent pour contourner ces mesures de protection.

Le premier est Glaze, un projet de l’université de Chicago qui « ajoute de très petites modifications » aux œuvres d’art avant de les télécharger. Les développeurs qualifient ces modifications d' »habillage stylistique » et notent que l’œuvre apparaît à l’œil humain pratiquement identique à l’original, mais que l’IA interprète le style comme étant celui d’un autre.

Glaze sera publié sous la forme d’une application pour Mac et Windows, de sorte que les œuvres d’art pourront être « masquées » sans jamais quitter l’ordinateur de l’artiste. Les développeurs affirment qu’ils ne commercialiseront pas l’outil, dont l’utilisation sera donc gratuite pour tous. Le projet Glaze considère cet outil comme « une première étape nécessaire vers des outils de protection centrés sur l’artiste pour résister au mimétisme de l’IA ».

Une autre technique décrite dans le blog Pursuit de l’université de Melbourne décrit l’utilisation subtile de bruit qui « modifie juste assez de pixels dans une image pour confondre l’IA et la transformer en une image « inapprenable » ». L’institution affirme avoir trouvé une technique qui exploite une faiblesse des modèles et va jusqu’à décrire des outils comme la diffusion stable comme des « apprenants paresseux ».

Cette technique a un large éventail d’utilisations potentielles, y compris des œuvres d’art visuelles, mais aussi des fichiers audio et des photographies qui vous identifient personnellement. Il est important de reconnaître que ces techniques n’en sont qu’à leurs débuts en termes de développement et que nous devrons donc attendre pour voir ce dont elles sont réellement capables.
L’avènement des robots

Les applications d’art génératif peuvent créer des œuvres d’art en un rien de temps, mais elles ne sont pas vraiment créatives comme le sont les humains. ChatGPT est peut-être capable de rédiger votre CV, mais vous devrez le relire attentivement car le chatbot se trompe souvent en toute confiance.

En définitive, les solutions actuelles en matière d’IA sont certes utiles, mais elles sont également faibles.

Laisser un commentaire