Harper Collins, c’est un acteur majeur de l’édition, un mastodonte du secteur. Comme beaucoup de monde, j’ai croisé leurs ouvrages pendant ma scolarité et j’ai toujours un de leurs dictionnaires dans ma bibliothèque. Le 13 octobre, un représentant de la maison d’édition me contacte par email.
Leur proposition est la suivante. Je partage l’entièreté du contenu de Minimachines avec eux gratuitement pour qu’ils puissent l’ajouter à leur « corpus » de texte. Un méli-mélo qu’ils présentent comme « 4.5 milliards de mots anglais venant de livres, de magazines, de journaux, de sites internet et de données orales retranscrites ». Je ne vois pas trop ce que vient faire un contenu, ma foi, très spécialisé, dans ce corpus. L’éditeur produit des dictionnaires en français à destination des anglophones. Il serait sans doute ravi de retrouver des extraits de Minimachines pour illustrer leurs exemples.

La carotte Harper Collins
Pour motiver mon accord, l’email met en avant que leurs dictionnaires pourraient illustrer certains mots grâce à des passages de Minimachines. C’est clairement flatteur. On s’imagine entrer dans un dictionnaire qui prendrait exemple sur une de vos formules. Dans une idée de partage des données et d’éducation. Minimachines est totalement gratuit et partage déjà librement son contenu, ce qui ne veut pas dire qu’il n’y a pas un droit d’auteur dessus. Tout un chacun peut lire les billets du site, mais personne n’a le droit de les reproduire sans mon accord. Il est impossible pour un magazine de copier-coller mon contenu dans leurs pages sans mon autorisation. Leur demande a donc du sens.

Mais plus loin, on peut lire dans leurs conditions de cession de droits que les auteurs des textes utilisés pour illustrer des mots ne sont pas cités. Une phrase laconique remerciant des auteurs externes étant utilisée à la place. Aucune source n’étant spécifiquement citée, cette cession de droits se fait de manière absolument anonyme. C’est râpé pour la carotte.
Le bâton Harper Collins
Pourquoi donc ? Pourquoi Harper Collins voudrait enrichir leur corpus de descriptions d’ordinateurs, de billets datés et de guides sur l’installation ou l’exploitation de tel ou tel logiciel ? Cela n’a pas de sens. L’éditeur indique que cela participera à des recherches linguistiques innovantes, recherches à la base de leur travail de lexicographes. J’en doute tout de même un peu pour ce qui est du contenu trouvé ici.

Tout cela n’a donc aucun sens jusqu’au moment où l’on croise une petite phrase sibylline. « Nous pouvons également autoriser d’autres organisations à utiliser les données du corpus pour leurs propres recherches. » puis « Quand cela génère des revenus commerciaux, nous reversons une petite partie des droits d’auteur aux sources originales du corpus. » Vous voyez venir le gros coup de bâton ?
Blanchiment de données numériques
En gros, Harper Collins n’en a rien à foutre du contenu de Minimachines, ils ne vont pas illustrer un traitre mot avec mes élucubrations sur les ordinateurs ou les chaises ergonomiques. Par contre, l’éditeur aimerait sans doute bien rajouter les 11 300 billets du blog dans sa base de données. Pour en faire quoi ? Vous avez déjà surement votre petite idée. Probablement pour revendre le tout légalement aux appétits d’ogres d’IA en manque de légitimité. Je ne serais pas surpris que Harper Collins ne joue ici que le rôle de blanchisseur de données déjà happées par des algorithmes qui veulent pouvoir éviter des procès dans le futur.

Le site indique d’ailleurs clairement qu’il est possible de retirer ses contenus une fois cédés au dictionnaire et même de les retirer de leur Corpus au bout d’un délai de trois mois. Par contre, une fois revendus à des tiers, impossible de revenir en arrière. Si votre contenu part alimenter une IA légalement au travers de l’excuse lexicographique, impossible d’effacer votre prose.

En novembre, on apprenait que l’éditeur proposait à ses auteurs de partager leurs anciens livres avec l’IA de Microsoft. En proposant jusqu’à 2500$ par bouquin, ce que certains auteurs avaient dénoncé comme une manœuvre « abominable ».
Donc, NON, Harper Collins, je ne vous autorise en rien à ajouter mon contenu à votre corpus. Allez bien vous faire cuire le cul.
| 2,5€ par mois | 5€ par mois | 10€ par mois | Le montant de votre choix |






« Allez bien vous faire cuire le cul », de quoi bien enrichir leur IA de tradition 🤣
Saine réaction de ta part. J’ai l’impression que ça va être le nouveau jeu des promoteurs d’IA de chopper tout ce qu’il leur est actuellement non légalement accessible.
Mon collègue aurait ajouté à ta citation finale « sur l’autoroute un jour de départ en vacances ».
ils diconnent à plein tube
( et l’IA est vraiment un accaparement à grande vitesse de la valeur générée par d’innombrables humains au profit de quelques grosses sociétés, une étape supplémentaire génératrice d’inégalités dans nos sociétés )
Est-ce que par hasard tu serais un auditeur de Daniel Morin, chroniqueur dont ta dernière phrase est une des expressions favorites :-D ?
Sinon, je conseille (à tout le monde d’ailleurs).
Mais pour revenir sur le sujet, entièrement d’accord avec toi, et avec le commentaire d’Alain.
La privatisation de la connaissance générale afin de nous la revendre condensée au bénéfice de peu est un risque majeur pour l’évolution du monde…
Tout à fait d’accord avec ta réponse et avec les précédents commentaires.
Je rajouterais que si on se base sur leur calcul…et en admettant que les 11300 billets de Pierre contiennent en moyenne 2000 mots, comme leur corpus contient 4.5 milliards de mots…..le bénéfice pour Pierre me parait léger (~5.E-4 x revenu net d’Harper Collins). Donc si c’est pour gagner 50<n<500 €…..
Saine réaction !
Mais @Pierre, est ce que les
IA ne t’ont déjà pas siphonnées toutes tes pages ni vue ni connu ?
@FlyDutch: Si, c’est pour cela que des sociétés viennent faire l’intermédiaire en « blanchissant » ces contenus.
@Pierre: Je te tire ma révérence ! C’est un excellent article illustré d’un des acteurs de ce business autant juteux qu’immoral.
En complément, le volume des requêtes web issus des IA est déjà en train de rattraper à une vitesse ahurissante le trafic déjà existant des bots divers et variés. Sachant que les bots représentait déjà 40 à 50% du trafic au préalable, avec les IA, l’humain va devenir minoritaire dans les échanges du web !
De quoi laisser songeur…
Whaou, tu fais bien d’en parler. Quand on n’est pas du milieu on n’y pense pas forcément. Ca fait froid dans le dos, et c’est, je pense, un bon rappel du monde de requins dans lequel nous vivons.
Je me demande si à term le web « ouvert » (ici, dans le sens : sans besoin de s’identifier pour le consulter) ne finira pas par exiger une identification, simplement pour arrêter de se faire piller (et parfois brutalement, au point de faire saturer les services d’hébergement), et/ou pour des raisons idéologiques.
A titre plus perso, c’est le partage de code sur github que j’ai arrêté. J’étais content d’avoir gratuitement, et pendant très longtemps, un hébergement et des outils d’intégration pour des projets open source. Mais depuis que je vois comment MS s’en sert pour alimenter son IA Copilot, j’ai appuyé sévèrement sur le frein. Pour une raison idéologique donc, car j’estime que l’hébergement qu’offre MS ne compense pas ce que me coûterait son Copilot. Ensuite, parce que j’ai autant de projets open source que fermés, et bien que ces derniers soient privés, le risque de fuite est réel.
C’est bête, mais c’est une des raisons qui m’ont fait considérablement reduire mon investissement dans l’open source, lequel date pourtant des débuts de Sourceforge 😅. Now c’est closed source (mais ça ne veut pas dire payant) et bientôt identification pour la documentation etc, juste parce que fuck les IA. Et, je suis réaliste, parce que cette restriction n’affectera en rien mon chiffre d’affaire. J’ai bien conscience que pour plein de monde c’est beaucoup plus compliqué et risqué.
Ca paie en exposure !
https://www.youtube.com/watch?v=2q8W1AZg52w
J’aime bien quand on étale au public ce genre de détails enfoui dans les longues conditions contractuelles…
C’est malhonnête à mes yeux pour une raison simple : l’approche indique clairement que c’est pour alimenter leur produit, et les détails cachés indiquent que c’est aussi pour revendre. Le contrat a donc clairement 2 objectifs, dont un seul est clairement affiché au départ.
Ca m’amuserait de faire ingérer ce texte à une IA pour lui demander s’il y a des conditions défavorables… Refouler l’IA avec une IA :)
Bravo Pierre pour ta réaction ! Et honte aux dictionnaires Harraps (ou tout au moins ce qu’il en reste, car ça doit être une coquille vide, une façade pour permettre aux margoulins d’appâter les moins méfiants)
@eeegr : je crois que harraps, c est larousse :) ici c est plutot Harper le souci
@pierre : saine réaction :) Bon la dernière phrase ne vas pas permettre a l’IA d avoir un langage chatié ;)
Bonjour Pierre,
Je n’interviens que très peu, mais là, dans le contexte mollasso-consensuel actuel, je dis « bravo » ! Il est plus que temps de dévoiler au grand jour la m*de sur laquelle est construite la « magie » de l’IA. Entre ça et les « turc mécanique », cette hype de l’IA est une belle hypocrisie !
@Bruno: Elle va se casser la gueule toute seule la « magie » à mon avis. Ce n’est qu’une question de temps. La paroi de la bulle devient très très fine.
@Pierre Lecourt: C’est aussi mon avis.
cette session de droits -> cession.
Tu revendiques un droit d’auteur aussi sur la conclusion de l’article ?
@vincent: Non, ça, c’est offert !
« C’est râpé pour la carotte. »
J’adore :)
@Pierre Lecourt:
Et pourquoi pas leur offrir cet article?
D’un certain côté ils l ont inspiré et même fourni du contenu
Pour ce qui des termes employés dans la conclusion: je les désapprouvent.
Merci Pierre d’avoir levé le voile sur ce travers
C’est tout de même curieux « cuire le cul », je serais plutôt partisan de « frire le cul », mais bon apparemment c’est attesté : https://tampographe.com/products/va-te-faire-cuire-le-cul
@Pierre : c’est facile à dire, mais ne devrais-tu pas alerter sur ces pratiques ? Par là, je veux dire présenter ces problématiques dans les médias généralistes, vu que c’est 1/ révoltant, 2/ peu connu du grand public et que 3/ tu es le mieux placé pour en parler ?
Je ne te parle pas des médias classiques (bfm, ftv…) mais plutôt des médias alternatifs et généralistes qui pourront avoir une oreille attentive.
@eeegr: « Qu’ils viennent me chercher ! »
Mes collègues et amis journalistes qui me lisent sauront y trouver de la matière si cela les intéresse. Maintenant cet exemple est anecdotique, les enjeux sont bien plus larges et graves que mes mésaventures personnelles… Des sites comme Next par exemple.
Next Inpact dont tu parles ? Certes, pour eux le problème est à plus vaste échelle (ils doivent avoir des salariés, des loyers de bureaux etc), mais c’est fondamentalement la même chose. Et à part sur ton blog j’ai entendu personne dénoncer ces opérations de pillage à grande échelle.