RSL, le nouveau protocole qui veut faire payer l'IA pour le contenu web

par Dario Ferrero

Si l'intelligence artificielle était le Pac-Man de l'ère numérique, Internet serait son labyrinthe infini rempli de points à dévorer. Sauf que cette fois, les points sont nos articles, nos photos, nos vidéos, et Pac-Man n'a jamais mis la main au portefeuille. C'est dans ce scénario de far west numérique que naît Really Simple Licensing (RSL), une nouvelle norme qui promet de mettre un peu d'ordre dans le chaos du scraping sauvage de données pour l'entraînement de l'IA.

Le retour du père de RSS

Comme dans toute bonne histoire de revanche technologique qui se respecte, celle-ci a aussi ses origines dans une légende du web. Dave Winer, co-créateur de RSS dans les années 90, revient sur le devant de la scène non par nostalgie, mais avec une mission précise : donner aux créateurs de contenu les outils pour décider de la manière dont leur propriété intellectuelle est utilisée à l'ère de l'intelligence artificielle.

Aux côtés de Winer, le projet RSL met en vedette Eckart Walther - co-fondateur et PDG de la startup qui développe la norme - et Doug Leeds, ancien dirigeant de Yahoo et de l'IAB Tech Lab. Un triumvirat qui allie expérience technique, vision entrepreneuriale et connaissance approfondie du marché numérique.

La genèse du projet trouve ses racines dans une frustration partagée par de nombreux éditeurs : voir leur contenu utilisé pour entraîner des modèles d'IA sans aucun consentement explicite ni compensation. "RSL est une norme ouverte qui permet aux éditeurs de définir des conditions de licence lisibles par machine pour leur contenu, y compris l'attribution, le paiement par exploration et le paiement pour la compensation d'inférence", explique le site officiel du projet.

Une SACEM pour l'ère numérique

Si nous devions trouver une analogie dans le monde réel, RSL fonctionnerait comme une version high-tech de la SACEM pour les droits musicaux, mais appliquée au monde du contenu web. Le protocole permet aux éditeurs de définir de manière standardisée et lisible par machine les conditions d'utilisation de leur contenu à des fins d'entraînement de l'IA.

Techniquement, RSL est basé sur un format XML qui peut être intégré directement dans les pages web ou fourni sous forme de flux séparé. Le système prévoit différents types de licences : de la simple attribution aux modèles "pay per crawl" ou "pay per inference", où la compensation est calculée en fonction de l'utilisation réelle du contenu dans les modèles d'IA.

L'implémentation est d'une simplicité surprenante et élégante. Un éditeur peut spécifier que son contenu nécessite une licence personnalisée pour l'entraînement de l'IA, ou le rendre disponible sous Creative Commons avec une simple attribution. C'est comme avoir un panneau numérique qui dit "pour passer, payez le péage", mais écrit dans un langage que même les robots les plus sophistiqués peuvent comprendre.

Les géants du web se mobilisent

Le lancement de RSL ne s'est pas fait dans le vide. Certains des plus grands noms du web ont décidé de soutenir l'initiative dès le début : Reddit, Yahoo, Automattic (la société derrière WordPress.com), Quora et Medium ont tous rejoint en tant que premiers adoptants.

La décision de ces géants n'est pas un hasard. Reddit, en particulier, a déjà expérimenté la monétisation de ses données pour l'IA par le biais d'accords directs avec Google et OpenAI. L'adoption de RSL représente une évolution naturelle de cette stratégie, permettant d'automatiser et de standardiser le processus de licence.

Yahoo, de son côté, apporte une richesse de contenu accumulée au fil de décennies d'activité, tandis que Medium et Quora représentent deux des principales plateformes de contenu généré par les utilisateurs. Leur participation signale que RSL n'est pas seulement une affaire de grandes entreprises de médias, mais qu'elle touche l'ensemble de l'écosystème de la création de contenu numérique.

La technologie sous le capot

D'un point de vue technique, RSL se présente comme une évolution naturelle des mécanismes de protection existants. Si robots.txt était l'équivalent numérique d'un panneau "entrée interdite", RSL s'apparente davantage à un système de billetterie automatique sophistiqué.

Le protocole prend en charge différentes méthodes de paiement et de licence. Un éditeur peut choisir d'exiger un abonnement pour l'accès à son contenu à des fins d'entraînement de l'IA, ou opter pour un modèle de paiement à l'utilisation. La flexibilité du système permet également de définir différentes licences pour différents types de contenu sur la même plateforme.

L'intégration avec les systèmes existants a été conçue pour être aussi peu invasive que possible. RSL peut coexister avec robots.txt et d'autres normes, ajoutant une couche de granularité dans la gestion des droits qui n'existait tout simplement pas auparavant. C'est comme passer d'un interrupteur marche/arrêt à un variateur avec des gradations infinies.

Exemples tirés de rslstandard.org

Les défis de l'application

Bien sûr, tout n'est pas rose dans le jardin de RSL. Le principal défi reste celui de l'application : comment s'assurer que les robots d'exploration de l'IA respectent réellement les licences spécifiées ? C'est ici que le projet révèle sa nature encore expérimentale et ses faiblesses potentielles.

Contrairement à robots.txt, qui a bénéficié d'un respect quasi universel de la part des robots d'exploration "civils", RSL entre dans un territoire beaucoup plus complexe d'un point de vue juridique et économique. Si un modèle d'IA ignore les licences RSL et utilise quand même le contenu, quelles sont les conséquences pratiques ? Et surtout, comment un petit éditeur peut-il faire valoir ses droits face à des géants de la technologie dotés de légions d'avocats ?

La réponse, pour l'instant, est encore en cours d'élaboration. Le projet compte sur le fait que les principales entreprises d'IA ont intérêt à maintenir des relations transparentes et légales avec les fournisseurs de contenu, surtout à un moment où la réglementation du secteur se fait de plus en plus stricte.

Le marché des données évolue

RSL arrive à un moment particulièrement intéressant pour l'économie des données. L'accord de 60 millions de dollars entre Reddit et Google pour l'utilisation du contenu de la plateforme dans l'entraînement de l'IA a fait jurisprudence, montrant qu'il existe un marché réel et substantiel pour ce type de contenu.

La nouvelle norme pourrait démocratiser ce marché, permettant même aux plus petits éditeurs de monétiser leur contenu au lieu de le voir simplement "réquisitionné" par les robots d'exploration de l'IA. C'est un peu comme si, après des années où n'importe qui pouvait entrer dans votre magasin et prendre la marchandise gratuitement, un système arrivait enfin pour leur faire payer l'addition.

Le défi consistera à créer un écosystème où la valeur du contenu est reconnue sans créer d'obstacles excessifs à l'innovation en IA. C'est un équilibre délicat, semblable à celui que l'industrie de la musique a dû trouver avec l'avènement du streaming.

Quand les indépendants rencontrent les majors : le nouvel écosystème du contenu

Si les grands acteurs comme Reddit et Yahoo représentent les "majors" du contenu numérique, RSL pourrait enfin donner la parole aux "artistes indépendants" du web : les blogueurs indépendants, les créateurs sur des plateformes de niche, les petites publications d'actualités. C'est ici que la nouvelle norme montre son potentiel le plus révolutionnaire.

Un blogueur qui écrit sur la cuisine végétalienne depuis sa cuisine pourrait voir son contenu utilisé pour entraîner des chatbots culinaires sans jamais voir un centime. Avec RSL, ce même blogueur pourrait spécifier que son contenu nécessite une licence commerciale pour une utilisation par l'IA, transformant ainsi sa passion en une source de revenus passifs.

La situation rappelle celle des musiciens avant l'avènement de Spotify et des plateformes de streaming : seules les grandes maisons de disques avaient le pouvoir de négociation pour des accords avantageux, tandis que les artistes indépendants restaient en marge. RSL promet de changer cette dynamique dans le monde du contenu numérique.

Les plateformes intermédiaires jouent un rôle crucial dans cette transformation. WordPress.com, qui héberge des millions de blogs, pourrait implémenter RSL comme une fonctionnalité native, permettant à ses utilisateurs de monétiser automatiquement leur contenu pour une utilisation par l'IA. Substack pourrait faire de même pour ses rédacteurs de newsletters, créant ainsi un nouveau flux de revenus pour les créateurs indépendants.

Mais tout ce qui brille n'est pas or au pays des pixels. L'adoption de RSL par les petits créateurs présente des défis uniques. La complexité technique de la mise en œuvre, la nécessité de comprendre les différents modèles de licence et, surtout, la capacité à faire respecter ses droits sont autant d'obstacles importants pour ceux qui n'ont pas d'équipe juridique derrière eux.

C'est là qu'intervient l'importance des intermédiaires technologiques. Des plateformes comme Medium, qui a rejoint le projet RSL, pourraient agir comme des "agrégateurs de droits", négociant des accords collectifs pour leurs créateurs et distribuant les revenus. C'est un modèle qui rappelle celui des sociétés de gestion collective de musique, mais appliqué au monde numérique.

Le véritable test pour RSL sera de démontrer qu'il peut créer de la valeur même pour les plus petits créateurs, et pas seulement pour les géants du web. Si un blogueur culinaire peut gagner suffisamment avec RSL pour acheter des ingrédients plus précieux pour ses recettes, alors le système aura vraiment démocratisé l'économie du contenu numérique.

L'IA qui se comporte bien : conformité, législation et avenir des droits numériques

Si RSL était un personnage de Star Wars, ce serait C-3PO : obsédé par le protocole, les règles et l'interprétation correcte des lois intergalactiques. Et comme le droïde doré, RSL pourrait s'avérer plus précieux qu'il n'y paraît au premier abord, surtout dans un univers réglementaire qui se complexifie de plus en plus.

Le moment du lancement de RSL n'est pas un hasard. L'Europe a déjà approuvé la loi sur l'IA, la législation la plus complète au monde sur l'intelligence artificielle, qui entrera pleinement en vigueur en 2025. Les États-Unis travaillent sur des cadres réglementaires similaires, tandis que la Chine a déjà mis en œuvre plusieurs réglementations spécifiques à l'IA. Dans ce contexte, disposer d'une norme qui facilite la conformité devient non seulement utile, mais essentiel.

La loi européenne sur l'IA, en particulier, introduit le concept de "transparence" dans l'utilisation des données pour l'entraînement des modèles d'IA. Les entreprises devront documenter l'origine des données utilisées et démontrer qu'elles disposent des droits nécessaires à leur utilisation. RSL s'intègre parfaitement dans ce cadre, en fournissant un mécanisme standardisé pour documenter et gérer ces droits.

Le parallèle avec le RGPD est éclairant. Lorsque la réglementation européenne sur la protection de la vie privée est entrée en vigueur en 2018, beaucoup ont crié à la catastrophe, prédisant la fin du web libre. Au lieu de cela, le RGPD a créé une nouvelle norme mondiale, poussant même les entreprises non européennes à adopter des pratiques plus respectueuses de la vie privée. RSL pourrait suivre une trajectoire similaire : commencer comme une réponse à des besoins réglementaires spécifiques et devenir une norme de facto mondiale.

Les sanctions pour violation des droits sur le contenu deviennent de plus en plus sévères. En 2023, plusieurs éditeurs ont intenté des poursuites judiciaires contre des entreprises d'IA pour l'utilisation non autorisée de leur contenu. Le New York Times a poursuivi OpenAI et Microsoft, tandis que d'autres éditeurs envisagent des actions similaires. Dans ce scénario, RSL pourrait servir de "sphère de sécurité" : ceux qui s'y conforment bénéficient d'une plus grande protection juridique que ceux qui ignorent complètement les licences de contenu.

Les régulateurs accordent de plus en plus d'attention à ces développements. La Federal Trade Commission américaine a déjà ouvert plusieurs enquêtes sur les pratiques de collecte de données des entreprises d'IA, tandis que l'Autorité italienne de la concurrence et du marché a engagé des procédures similaires. Disposer d'une norme reconnue comme RSL pourrait faciliter le dialogue entre les entreprises et les régulateurs, en créant un cadre de discussion commun.

La perspective mondiale est particulièrement intéressante. Alors que l'Europe tend vers une réglementation stricte et que les États-Unis préfèrent une approche davantage axée sur le marché, l'Asie présente un paysage varié. Des pays comme Singapour et la Corée du Sud expérimentent des "bacs à sable réglementaires" pour l'IA, où des normes comme RSL pourraient être testées dans des environnements contrôlés avant une adoption plus large.

Mais l'aspect le plus intrigant est peut-être la manière dont RSL pourrait évoluer au-delà de ses objectifs initiaux. Si le système s'avère efficace pour gérer les droits sur le contenu pour l'IA, il pourrait s'étendre à d'autres domaines : de la gestion des droits pour le contenu multimédia à la définition de normes pour l'utilisation éthique des données personnelles. C'est un peu comme si nous assistions à la naissance d'un nouveau "système d'exploitation" pour les droits numériques.

Perspectives et considérations finales

RSL représente certainement un pas en avant vers un web plus équitable du point de vue de la distribution de la valeur créée par le contenu numérique. Cependant, son succès dépendra de la capacité à créer un écosystème où tous les acteurs principaux - éditeurs, entreprises d'IA et intermédiaires technologiques - trouveront avantageux de participer.

L'histoire de la technologie est pleine de normes prometteuses qui n'ont pas réussi à atteindre la masse critique nécessaire pour devenir vraiment omniprésentes. RSS lui-même, malgré son utilité, n'est jamais devenu aussi courant que ses créateurs l'espéraient. RSL devra éviter ce sort, et il ne pourra le faire qu'en démontrant une valeur concrète pour tous les acteurs concernés.

À une époque où l'intelligence artificielle promet de révolutionner tous les aspects de notre vie numérique, disposer d'outils permettant aux créateurs de contenu de garder le contrôle de leur propriété intellectuelle n'est pas seulement souhaitable, c'est essentiel. RSL pourrait être l'outil idéal au bon moment, mais comme toujours dans le monde de la technologie, seul le marché aura le dernier mot.

L'avenir nous dira si cette nouvelle norme parviendra à transformer le far west numérique des données en une frontière plus civilisée, où tout le monde pourra prospérer. En attendant, les éditeurs et les entreprises d'IA feraient bien de garder un œil sur cette évolution : elle pourrait définir les règles du jeu pour les décennies à venir.