À la une · Dernières nouvelles · Archives
Retour à l'accueil
RTS

Des entreprises d'IA rachètent d'anciens livres, les numérisent puis les détruisent

Des entreprises d'IA rachètent d'anciens livres, les numérisent puis les détruisent

Depuis début mai, une librairie allemande de livres anciens recevait sur son site en ligne chaque nuit, entre 3h00 et 5h00 du matin, un nombre considérable de commandes automatisées d'ouvrages. Le libraire, s'en apercevant, a consulté ses confrères. Et là, surprise: des témoignages similaires ont commencé à fleurir, par exemple sur la plateforme Reddit.

D'après le journal espagnol elDiario et le quotidien berlinois taz, le phénomène n'est pas qu'allemand. On retrouve ces commandes en Espagne, aux Etats-Unis, en Nouvelle-Zélande, en Australie, en Bulgarie, en Grande-Bretagne… Dans tous ces cas, la même entreprise canadienne passe les commandes: Zoom Books.

Selon les déclarations de Zoom Books au journal taz, l'entreprise achète des livres, en revend et recycle ceux qui sont invendables. Son marché de distribution est essentiellement constitué des Etats-Unis et du Canada.

Zoom Books achète par palettes entières de vieux ouvrages: livres de cuisine, biographies, romans. Pas des raretés, bien au contraire, précise le revendeur canadien: "Nous ciblons des ouvrages de non-fiction publiés à partir de 1970 et dotés d'un numéro ISBN – des invendus poussiéreux dont personne ne voulait depuis des années."

Le caractère systématique de ces achats, avec des livres en allemand, en bulgare ou en espagnol pour un marché anglophone, a suscité de sérieux doutes chez certains détaillants. Face aux interrogations du quotidien taz, Reed Pannell, responsable du développement chez Zoom Books, n'a fourni aucune information concernant les destinataires finaux de ces ouvrages.

Cependant, des photos prises dans un centre de Zoom Books montrent les livres jetés négligemment dans de grands cartons; aucun détaillant de livres ne traite sa marchandise de cette façon.

Ce phénomène de captation massive de livres anciens pourrait s'expliquer par les besoins des entreprises d'IA. L'entraînement de leurs modèles de langage nécessitent de vastes ensembles de données. Or, si de tels ensembles existent sur Internet, ils sont souvent non triés et de qualité inégale – et pas toujours en libre accès.

Surtout, explique Xavier Vinaixa, un expert en intelligence artificielle interrogé par elDiario, "quand les connaissances en libre accès sur internet se sont raréfiées, les entreprises se sont précipitées sur les plateformes de téléchargement illégal de livres numériques pour alimenter leurs modèles. L’utilisation de ces ressources a engendré des poursuites judiciaires pour violation de droits d’auteur se chiffrant en millions de dollars".

Les entreprises technologiques se sont alors retrouvées confrontées à une impasse, à un "mur des données", selon l'expert. Sans textes nouveaux, inédits et longs pour entraîner l'algorithme, l'IA risquait de souffrir d'une stagnation cognitive. La solution trouvée par ces entreprises a alors été d'acheter des livres anciens.

Quiconque numérise des textes et les diffuse sur Internet s'expose à des poursuites pour violation du droit d'auteur. Mais, aux Etats-Unis, la législation autorise l'entraînement de modèles d'IA à l'aide de livres acquis légalement. Si une entreprise achète de grandes quantités de livres d'occasion à bas prix, les désassemble et les numérise, les textes peuvent ensuite servir à entraîner des modèles d'IA.

C'est le principe étatsunien du "fair use", ou principe d'utilisation équitable. Il autorise l'utilisation d'œuvres protégées par le droit d'auteur sans l'autorisation expresse du titulaire des droits, à condition que cette utilisation serve l'éducation du public et stimule la production intellectuelle.

En janvier 2026, le Washington Post a révélé qu'un projet de numérisation de masse mené par la société d'IA Anthropic, nommé Projet Panama, a utilisé des centaines de milliers, voire des millions de livres physiques en les scannant à l'aide d'un procédé industriel. Après avoir retiré les reliures des exemplaires, les pages ont été numérisées puis recyclées, explique le journal mexicain El Imparcial.

"Le principe est le suivant: il faut posséder physiquement les livres et les détruire après les avoir "lus" – afin de pouvoir affirmer qu'aucune copie non autorisée ne reste en circulation et que cela relève du fair use", explique un libraire à SRF.

Zoom Books réfute catégoriquement les allégations de numérisation ou de destruction de livres. L'entreprise met en avant son modèle de recyclage et de revente. Les entreprises d'IA, elles, gardent ces informations secrètes.

À court terme, les libraires se réjouissent d'écouler leurs invendus. À long terme, cependant, un tout autre scénario se dessine. Si ces anciens livres sont détruits à grande échelle, ce patrimoine sera irrémédiablement concentré sous la forme d'une masse de données numériques possédée par quelques entreprises. Un accaparement discret, systématique et soumis à aucune délibération publique.