Quand les dictionnaires Harper Collins me prennent pour un jambon

Harper Collins, vous connaissez ? Ce sont des dictionnaires anglophones qui font partie des plus grands éditeurs de langue anglaise au monde.

Par Pierre Lecourt Le 28 octobre 2025 24 commentaires

Harper Collins, c’est un acteur majeur de l’édition, un mastodonte du secteur. Comme beaucoup de monde, j’ai croisé leurs ouvrages pendant ma scolarité et j’ai toujours un de leurs dictionnaires dans ma bibliothèque. Le 13 octobre, un représentant de la maison d’édition me contacte par email.

Leur proposition est la suivante. Je partage l’entièreté du contenu de Minimachines avec eux gratuitement pour qu’ils puissent l’ajouter à leur « corpus » de texte. Un méli-mélo qu’ils présentent comme « 4.5 milliards de mots anglais venant de livres, de magazines, de journaux, de sites internet et de données orales retranscrites ». Je ne vois pas trop ce que vient faire un contenu, ma foi, très spécialisé, dans ce corpus. L’éditeur produit des dictionnaires en français à destination des anglophones. Il serait sans doute ravi de retrouver des extraits de Minimachines pour illustrer leurs exemples.

La carotte Harper Collins

Pour motiver mon accord, l’email met en avant que leurs dictionnaires pourraient illustrer certains mots grâce à des passages de Minimachines. C’est clairement flatteur. On s’imagine entrer dans un dictionnaire qui prendrait exemple sur une de vos formules. Dans une idée de partage des données et d’éducation. Minimachines est totalement gratuit et partage déjà librement son contenu, ce qui ne veut pas dire qu’il n’y a pas un droit d’auteur dessus. Tout un chacun peut lire les billets du site, mais personne n’a le droit de les reproduire sans mon accord. Il est impossible pour un magazine de copier-coller mon contenu dans leurs pages sans mon autorisation. Leur demande a donc du sens.

Mais plus loin, on peut lire dans leurs conditions de cession de droits que les auteurs des textes utilisés pour illustrer des mots ne sont pas cités. Une phrase laconique remerciant des auteurs externes étant utilisée à la place. Aucune source n’étant spécifiquement citée, cette cession de droits se fait de manière absolument anonyme. C’est râpé pour la carotte.

Le bâton Harper Collins

Pourquoi donc ? Pourquoi Harper Collins voudrait enrichir leur corpus de descriptions d’ordinateurs, de billets datés et de guides sur l’installation ou l’exploitation de tel ou tel logiciel ? Cela n’a pas de sens. L’éditeur indique que cela participera à des recherches linguistiques innovantes, recherches à la base de leur travail de lexicographes. J’en doute tout de même un peu pour ce qui est du contenu trouvé ici.

Tout cela n’a donc aucun sens jusqu’au moment où l’on croise une petite phrase sibylline. « Nous pouvons également autoriser d’autres organisations à utiliser les données du corpus pour leurs propres recherches. » puis « Quand cela génère des revenus commerciaux, nous reversons une petite partie des droits d’auteur aux sources originales du corpus. » Vous voyez venir le gros coup de bâton ?

Blanchiment de données numériques

En gros, Harper Collins n’en a rien à foutre du contenu de Minimachines, ils ne vont pas illustrer un traitre mot avec mes élucubrations sur les ordinateurs ou les chaises ergonomiques. Par contre, l’éditeur aimerait sans doute bien rajouter les 11 300 billets du blog dans sa base de données. Pour en faire quoi ? Vous avez déjà surement votre petite idée. Probablement pour revendre le tout légalement aux appétits d’ogres d’IA en manque de légitimité. Je ne serais pas surpris que Harper Collins ne joue ici que le rôle de blanchisseur de données déjà happées par des algorithmes qui veulent pouvoir éviter des procès dans le futur.

Le site indique d’ailleurs clairement qu’il est possible de retirer ses contenus une fois cédés au dictionnaire et même de les retirer de leur Corpus au bout d’un délai de trois mois. Par contre, une fois revendus à des tiers, impossible de revenir en arrière. Si votre contenu part alimenter une IA légalement au travers de l’excuse lexicographique, impossible d’effacer votre prose.

En novembre, on apprenait que l’éditeur proposait à ses auteurs de partager leurs anciens livres avec l’IA de Microsoft. En proposant jusqu’à 2500$ par bouquin, ce que certains auteurs avaient dénoncé comme une manœuvre « abominable ».

Donc, NON, Harper Collins, je ne vous autorise en rien à ajouter mon contenu à votre corpus. Allez bien vous faire cuire le cul.

Bon Plan : jusqu’à -33% sur les imprimantes 3D Bambu Lab

BILLET SUIVANT

Sound Blaster choppe des boutons sur Kickstarter

Soutenez Minimachines avec un don mensuel : C'est la solution la plus souple et la plus intéressante pour moi. Vous pouvez participer via un abonnement mensuel en cliquant sur un lien ci dessous.

2,5€ par mois

5€ par mois

10€ par mois

Le montant de votre choix

Gérez votre abonnement

24 commentaires sur ce sujet.

Madwill

28 octobre 2025 - 15 h 39 min

« Allez bien vous faire cuire le cul », de quoi bien enrichir leur IA de tradition 🤣

Tibac

28 octobre 2025 - 15 h 51 min

Saine réaction de ta part. J’ai l’impression que ça va être le nouveau jeu des promoteurs d’IA de chopper tout ce qu’il leur est actuellement non légalement accessible.
Mon collègue aurait ajouté à ta citation finale « sur l’autoroute un jour de départ en vacances ».

Alain

28 octobre 2025 - 15 h 51 min

ils diconnent à plein tube

( et l’IA est vraiment un accaparement à grande vitesse de la valeur générée par d’innombrables humains au profit de quelques grosses sociétés, une étape supplémentaire génératrice d’inégalités dans nos sociétés )

McBerd

28 octobre 2025 - 16 h 19 min

Est-ce que par hasard tu serais un auditeur de Daniel Morin, chroniqueur dont ta dernière phrase est une des expressions favorites :-D ?
Sinon, je conseille (à tout le monde d’ailleurs).

Mais pour revenir sur le sujet, entièrement d’accord avec toi, et avec le commentaire d’Alain.
La privatisation de la connaissance générale afin de nous la revendre condensée au bénéfice de peu est un risque majeur pour l’évolution du monde…

Matthias

28 octobre 2025 - 18 h 22 min

Tout à fait d’accord avec ta réponse et avec les précédents commentaires.
Je rajouterais que si on se base sur leur calcul…et en admettant que les 11300 billets de Pierre contiennent en moyenne 2000 mots, comme leur corpus contient 4.5 milliards de mots…..le bénéfice pour Pierre me parait léger (~5.E-4 x revenu net d’Harper Collins). Donc si c’est pour gagner 50<n<500 €…..

FlyDutch

28 octobre 2025 - 18 h 45 min

Saine réaction !
Mais @Pierre, est ce que les
IA ne t’ont déjà pas siphonnées toutes tes pages ni vue ni connu ?

Pierre Lecourt

28 octobre 2025 - 19 h 10 min

@FlyDutch: Si, c’est pour cela que des sociétés viennent faire l’intermédiaire en « blanchissant » ces contenus.

zentoo

28 octobre 2025 - 20 h 49 min

@Pierre: Je te tire ma révérence ! C’est un excellent article illustré d’un des acteurs de ce business autant juteux qu’immoral.

En complément, le volume des requêtes web issus des IA est déjà en train de rattraper à une vitesse ahurissante le trafic déjà existant des bots divers et variés. Sachant que les bots représentait déjà 40 à 50% du trafic au préalable, avec les IA, l’humain va devenir minoritaire dans les échanges du web !
De quoi laisser songeur…

Jle

28 octobre 2025 - 21 h 40 min

Whaou, tu fais bien d’en parler. Quand on n’est pas du milieu on n’y pense pas forcément. Ca fait froid dans le dos, et c’est, je pense, un bon rappel du monde de requins dans lequel nous vivons.

Je me demande si à term le web « ouvert » (ici, dans le sens : sans besoin de s’identifier pour le consulter) ne finira pas par exiger une identification, simplement pour arrêter de se faire piller (et parfois brutalement, au point de faire saturer les services d’hébergement), et/ou pour des raisons idéologiques.

A titre plus perso, c’est le partage de code sur github que j’ai arrêté. J’étais content d’avoir gratuitement, et pendant très longtemps, un hébergement et des outils d’intégration pour des projets open source. Mais depuis que je vois comment MS s’en sert pour alimenter son IA Copilot, j’ai appuyé sévèrement sur le frein. Pour une raison idéologique donc, car j’estime que l’hébergement qu’offre MS ne compense pas ce que me coûterait son Copilot. Ensuite, parce que j’ai autant de projets open source que fermés, et bien que ces derniers soient privés, le risque de fuite est réel.
C’est bête, mais c’est une des raisons qui m’ont fait considérablement reduire mon investissement dans l’open source, lequel date pourtant des débuts de Sourceforge 😅. Now c’est closed source (mais ça ne veut pas dire payant) et bientôt identification pour la documentation etc, juste parce que fuck les IA. Et, je suis réaliste, parce que cette restriction n’affectera en rien mon chiffre d’affaire. J’ai bien conscience que pour plein de monde c’est beaucoup plus compliqué et risqué.

Olivier Barthelemy

29 octobre 2025 - 6 h 47 min

Ca paie en exposure !

https://www.youtube.com/watch?v=2q8W1AZg52w

orfait

29 octobre 2025 - 8 h 10 min

J’aime bien quand on étale au public ce genre de détails enfoui dans les longues conditions contractuelles…

C’est malhonnête à mes yeux pour une raison simple : l’approche indique clairement que c’est pour alimenter leur produit, et les détails cachés indiquent que c’est aussi pour revendre. Le contrat a donc clairement 2 objectifs, dont un seul est clairement affiché au départ.

Ca m’amuserait de faire ingérer ce texte à une IA pour lui demander s’il y a des conditions défavorables… Refouler l’IA avec une IA :)

eeegr

29 octobre 2025 - 8 h 55 min

Bravo Pierre pour ta réaction ! Et honte aux dictionnaires Harraps (ou tout au moins ce qu’il en reste, car ça doit être une coquille vide, une façade pour permettre aux margoulins d’appâter les moins méfiants)

borf

29 octobre 2025 - 10 h 16 min

@eeegr : je crois que harraps, c est larousse :) ici c est plutot Harper le souci

@pierre : saine réaction :) Bon la dernière phrase ne vas pas permettre a l’IA d avoir un langage chatié ;)

Bruno

29 octobre 2025 - 12 h 40 min

Bonjour Pierre,
Je n’interviens que très peu, mais là, dans le contexte mollasso-consensuel actuel, je dis « bravo » ! Il est plus que temps de dévoiler au grand jour la m*de sur laquelle est construite la « magie » de l’IA. Entre ça et les « turc mécanique », cette hype de l’IA est une belle hypocrisie !

Pierre Lecourt

29 octobre 2025 - 12 h 59 min

@Bruno: Elle va se casser la gueule toute seule la « magie » à mon avis. Ce n’est qu’une question de temps. La paroi de la bulle devient très très fine.

Bruno

29 octobre 2025 - 14 h 51 min

@Pierre Lecourt: C’est aussi mon avis.

vincent

29 octobre 2025 - 16 h 25 min

cette session de droits -> cession.

Tu revendiques un droit d’auteur aussi sur la conclusion de l’article ?

Pierre Lecourt

29 octobre 2025 - 16 h 37 min

@vincent: Non, ça, c’est offert !

Duck76

29 octobre 2025 - 21 h 00 min

« C’est râpé pour la carotte. »
J’adore :)

Etienne

29 octobre 2025 - 21 h 09 min

@Pierre Lecourt:

Et pourquoi pas leur offrir cet article?

D’un certain côté ils l ont inspiré et même fourni du contenu

Pour ce qui des termes employés dans la conclusion: je les désapprouvent.
Merci Pierre d’avoir levé le voile sur ce travers

Mathias

30 octobre 2025 - 11 h 28 min

C’est tout de même curieux « cuire le cul », je serais plutôt partisan de « frire le cul », mais bon apparemment c’est attesté : https://tampographe.com/products/va-te-faire-cuire-le-cul

eeegr

30 octobre 2025 - 15 h 05 min

@Pierre : c’est facile à dire, mais ne devrais-tu pas alerter sur ces pratiques ? Par là, je veux dire présenter ces problématiques dans les médias généralistes, vu que c’est 1/ révoltant, 2/ peu connu du grand public et que 3/ tu es le mieux placé pour en parler ?
Je ne te parle pas des médias classiques (bfm, ftv…) mais plutôt des médias alternatifs et généralistes qui pourront avoir une oreille attentive.

Pierre Lecourt

30 octobre 2025 - 15 h 09 min

@eeegr: « Qu’ils viennent me chercher ! »

Mes collègues et amis journalistes qui me lisent sauront y trouver de la matière si cela les intéresse. Maintenant cet exemple est anecdotique, les enjeux sont bien plus larges et graves que mes mésaventures personnelles… Des sites comme Next par exemple.

eeegr

30 octobre 2025 - 16 h 46 min

Next Inpact dont tu parles ? Certes, pour eux le problème est à plus vaste échelle (ils doivent avoir des salariés, des loyers de bureaux etc), mais c’est fondamentalement la même chose. Et à part sur ton blog j’ai entendu personne dénoncer ces opérations de pillage à grande échelle.

LAISSER UN COMMENTAIRE

ACTU

Le vidéoprojecteur ETOE E3 Pro FullHD certifié à 129€ (🍮)

Le vidéoprojecteur ETOE E3 Pro est une solution simple d'usage qui propose du FullHD sans casser sa tirelire....
ACTU

Portable Dell 14 Plus 14″ Core Ultra 7 256V 16/512 Go à 599€

Le Dell 14 Plus est un ultraportable 14" en 2.5K équipé très correctement pour tout type d'usages mobiles et sédentaires....
ACTU

Youyeetoo K1 : une carte développement Intel N100 évolutive

La Youyeetoo K1 embarque un Intel N100 installé sur une solution évolutive et monté sur une carte mère offrant une très large connectique....
ACTU

Geekbuying souffle sa 14e bougie et fait des promos

Le vendeur Geekbuying fête ses 14 ans de présence en ligne et, comme chaque année, organise un évènement promotionnel pour fêter cela....

Project Firefly : Intel détaille les secrets de son intégration

Test de l’aspirateur de piscine Wybot C2 Vision 🍮

Arc G3 Extreme, Intel va t-il ouvrir sa puce à…

RTX Spark Superchip : la vision de Nvidia au défi…

Bambu Lab se prend les pieds dans le tapis des…

Test de l’aspirateur de piscine Wybot C2 Vision 🍮

Test : la minimachine de découpe Cricut Maker 4

Ugreen Nexode 130W : 20 000 mAh de bonheur mobile

Minimachines lance le mini-score !

TopAchat Vortex : un PC Mini-ITX puissant et évolutif

Manette Stadia Bluetooth : Comment la débloquer en 2026

Guide : protéger son serveur personnel Linux avec Fail2ban

Guide : Installer un serveur sur MiniPC personnel

Tuto : Réinstaller Windows à la réception de votre PC

Comment basculer votre PC vers Windows 11 avec Flyby11

Quand les dictionnaires Harper Collins me prennent pour un jambon

La carotte Harper Collins

Le bâton Harper Collins

Blanchiment de données numériques

Partagez Minimachines autour de vous !

Bon Plan : jusqu’à -33% sur les imprimantes 3D Bambu Lab

Sound Blaster choppe des boutons sur Kickstarter

LAISSER UN COMMENTAIRE

Recevez les articles par email

Project Firefly : Intel détaille les secrets de son intégration

Le vidéoprojecteur ETOE E3 Pro FullHD certifié à 129€ (🍮)

Portable Dell 14 Plus 14″ Core Ultra 7 256V 16/512 Go à 599€

Youyeetoo K1 : une carte développement Intel N100 évolutive

Geekbuying souffle sa 14e bougie et fait des promos