ChatGPT invente des liens vers des articles de presse… qui n’existent pas

FAIke news

ChatGPT invente des liens vers des articles de presse… qui n’existent pas

photo de profil

Par Pierre Bazin

Publié le

Cela concerne particulièrement des médias qui ont signé un partenariat avec OpenAI comme Le Monde, El País ou encore The Times.

Depuis quelque temps, il ne passe pas un jour sans qu’on ait des nouvelles d’un énième agent conversationnel qui utilise l’intelligence artificielle générative.

À voir aussi sur Konbini

Cette fois, c’est le plus connu de tous ChatGPT, la création phare d’OpenAI qui est dans le collimateur d’une enquête journalistique menée par NiemanLab, le magazine en ligne de la Nieman Foundation for Journalism créé à Harvard.

Le journaliste Andrew Deck a voulu tester la capacité de ChatGPT à fournir des articles de presse sourcés pour appuyer ses propos lorsqu’on lui demande de nous raconter un fait d’actualité précis.

Après avoir d’abord observé des problèmes sur les articles de Business Insider, le journaliste a réitéré et multiplié ces mêmes tests avec 10 autres publications : The Associated Press, The Wall Street Journal, The Financial Times, The Times (UK), Le Monde, El País, The Atlantic, The Verge, Vox, et Politico.

Ces dernières n’ont pas été choisies au hasard. En effet durant l’année qui s’est écoulée, tous ces médias ont passé un accord avec OpenAI afin que ChatGPT soit autorisé à puiser dans leurs publications et leurs archives pour améliorer son algorithme et répondre plus justement aux requêtes des utilisateur·rice·s.

En ce qui concerne le géant News Corp (Wall Street Journal, The Times), l’accord passé pourrait atteindre la somme de 250 millions de dollars sur cinq ans. Chez nous, Le Monde assure être le premier média français à passer un tel accord avec un “acteur majeur de l’IA” en échange d’une “source significative de revenus supplémentaires”. Le média explique que le partenariat bilatéral permettra à ses équipes de “s’appuyer sur des technologies d’OpenAI” et que l’entraînement de ChatGPT sur les contenus du Monde “bénéficiera aux utilisateurs de cet outil en améliorant sa pertinence”.

Des faux articles à la pelle

Toutefois ce n’est pas ce qu’a remarqué le journaliste Andrew Deck pour le moment. En cherchant à obtenir les liens vers des articles reconnus des médias partenaires, le journaliste a eu à la place de fausses URL. Ces dernières redirigent systématiquement vers des pages vierges, inexistantes et bien souvent conclues par la classique “Erreur 404 : page non trouvée”.

Chez Konbini, nous avons voulu réitérer ses tests en utilisant ChatGPT+ 4.0, la version “payante” de l’agent conversationnel, supposément plus performante. Nous avons d’abord demandé à ChatGPT de nous parler de trois événements judiciaires qui se sont déroulés dans les pays d’origine des médias en question :

  • L’affaire Penelope Fillon pour Le Monde
  • Le “Partygate” de Boris Johnson pour The Times UK
  • L’accusation d’agression sexuelle envers Luis Rubiales pour El Pais.

Pour les trois affaires, le constat est le même que le journaliste du NiemanLab : si ChatGPT ne raconte pas n’importe quoi lorsqu’il résume un événement, il génère des faux liens vers articles de presse inexistants des médias en question.

Voici les liens en question donnés par ChatGPT qui aboutissent tous à des pages d’erreurs 404 :

  • https://www.lemonde.fr/politique/article/2017/01/25/penelope-fillon-des-taches-floues-et-500-000-euros-d-emoluments_5068561_823448.html
  • https://www.thetimes.co.uk/article/first-report-partygate-november-2021
  • https://elpais.com/deportes/2023-09-12/la-fiscalia-pide-dos-anos-y-medio-de-carcel-a-luis-rubiales-por-el-beso-no-consentido-y-por-coacciones-a-jenni-hermoso.html

Comme l’a remarqué Andrew Deck, si ChatGPT tente d’abord de chercher un article au sein du site du média demandé (comme on le ferait avec la fonction de recherche Google “site :”), l’agent conversationnel se heurte vite à des difficultés et décide donc de générer son propre lien en imaginant ce à quoi l’adresse d’un tel article pourrait ressembler.

Parfois, lorsqu’on demande des informations sourcées, ChatGPT renvoie vers des vrais liens d’articles de presse de médias, mais qu’ils soient “partenaires” ou non. Ces articles peuvent parfois s’avérer pertinents mais, par exemple, en ce qui concerne l’affaire Penelope Fillon, ChatGPT nous a aussi redirigés vers l’ancien blog du dessinateur Plantu et non vers des articles précis du Monde résumant l’affaire.

Même lorsqu’on recherche des articles bien précis, comme le premier article exclusif du Daily Mirror qui a mis la lumière sur l’affaire du Partygate (celui-ci), ChatGPT préfère tenter de générer son propre lien… évidemment faux. Enfin, on a aussi essayé de retrouver quelques articles précis de Konbini en en citant parfaitement le contenu :

Est-ce que nourrir l’IA mènera les médias à leur perte ?

Dans un communiqué fourni au journaliste Andrew Deck, une porte-parole d’OpenAI explique que l’équipe derrière ChatGPT n’a “pas encore” lancé les “fonctionnalités de citation promises dans ses contrats de licence”. Toutefois, l’entreprise n’a pas voulu s’exprimer quant aux faux liens générés par OpenAI ni même sur la méthodologie utilisée par ChatGPT pour générer des liens hypertextes.

Comme le rapporte NiemanLab, les accords signés entre OpenAI et les différents médias partenaires ne sont pas exempts de critiques. Un journaliste de The Atlantic, un média justement partenaire, n’a pas hésité à qualifier de “pacte avec le Diable” l’accord passé entre son journal et OpenAI. En France, la chercheuse de l’EHESS Asma Mhalla pointe du doigt, dans un article de Libération, “l’asymétrie” de ce genre d’accord conclu entre un média français aux revenus “modestes” en comparaison aux géants de la tech.

Fin 2023, de l’autre côté de l’Atlantique, The New York Times a choisi la voie de la contestation. Le média américain a notamment annoncé porter plainte contre OpenAI pour violation du droit d’auteur, estimant que ChatGPT s’était “nourri” de millions d’articles du NYT sans autorisation.

Pour plus d’informations, vous pouvez lire l’article complet de Andrew Deck sur NiemanLab.