Bonjour !

· • · • ·

Nous sommes le 6 décembre 2025, et aujourd’hui, j’aimerais vous présenter une actualité récente dans le monde de l’IA et du juridique.

· • · • · • · • ·

C’est d’abord l’histoire d’un procès, qui mène finalement à un sacrifice de la confidentialité.

Tout commence en 2023. Un consortium de médias, incluant le NYT (abréviation du New York Times), engage une action en justice contre OpenAI, les accusant d’avoir violé les droits d’auteur en utilisant leurs publications. Les médias supposent principalement que des utilisateurs auraient pu se servir de ChatGPT pour contourner leur paywall (système bloquant la lecture d’un contenu numérique, afin d’amener le lecteur à souscrire un abonnement).

Aux États-Unis, le principe de discovery s’applique. C’est une phase dans les procès civils où chaque partie demande des preuves à l’autre. Et ce qui rend cette étape particulièrement spéciale, c’est le fait que tous les types de documents peuvent être demandés. Les parties ne se gênent généralement pas de demander des documents très poussés…

C’est ainsi que dans notre cas, le NYT demande la remise par OpenAI de 1,4 milliard de conversations ChatGPT pour permettre de prouver que des contenus protégés par copyright aient été utilisés par le chatbot. Cette demande extravagante, tactique typique de la stratégie de la discovery, a été combattue par la firme américaine. Le NYT baissa alors sa demande à 120 millions de conversations. Finalement, OpenAI a proposé de remettre un échantillon de 20 millions de conversations.

Depuis, c’est cet échantillon qui a été au cœur des plaidoyers. Jusqu’au 7 novembre 2025. Ce jour-là, la juge a demandé à OpenAI de satisfaire la requête de présenter l’échantillon. OpenAI a demandé un réexamen, avant de voir ce dernier refusé définitivement le 2 décembre 2025, par l’ordonnance de la juge Ona T. Wang.

Avec cette ordonnance, OpenAI se voit contraint de présenter 20 millions de conversations d’utilisateurs privés de ChatGPT (excluant les comptes professionnels, d’éducation ou d’entreprise, ainsi que l’API, mais incluant les plans privés payants, comme Plus), datées entre décembre 2022 et novembre 2024, choisies aléatoirement. Ces données seront présentées dans un cadre protégé cependant. Elles ne seront accessibles qu’à des avocats et des experts, pas publiées. Les données subiront une certaine anonymisation au moyen de la désidentification, et d’autres méthodes (qui ne sont pas claires, c’est pourquoi je ne les donne pas ici), effectuées par OpenAI. L’entreprise a donc perdu.

Je vous mets ci-dessous les sources (incluant l’ordonnance finale de la juge).

· • · • · • · • ·

Conclusion :

Ce qui interpelle, c’est la réalité derrière cette décision. La confidentialité des utilisateurs est menacée. On peut aisément imaginer que les méthodes d’anonymisation utilisées ne permettent pas de rendre les conversations non identifiables. En effet, de nombreux éléments identifiants peuvent se retrouver dans les conversations (que ce soient des demandes géographiques, ou concernant des langues, des horaires, etc.), et il n’existe pas de garantie que ces éléments soient supprimés après l’anonymisation.

N’importe quelle conversation a pu se retrouver dans l’échantillon. Imaginez, peut-être qu’une de vos conversations s’y retrouve.

Cette décision crée un précédent juridique important dans le secteur, et démontre aussi : vos messages avec les chatbots ne sont pas considérés équivalents à des mails par exemple. Ils sont traités comme des données avec une confidentialité moindre, et sont par conséquent potentiellement dangereusement accessibles. Il vaut mieux garder ça à l’esprit.

L’apparition relativement récente de ces chatbots (en comparaison à la loi, qui évolue beaucoup plus lentement), soulève de nombreuses questions sur leur régulation, mais aussi notre façon de les considérer. J’essaierai d’en reparler prochainement d’ailleurs…

· • · • · • · • ·

Astuce :

Cela me permet de vous rappeler de désactiver l’entraînement des modèles avec vos données, pour éviter que des LLM ne soient entraînés avec vos conversations et pour prévenir dans un usage normal que des humains les lisent (il faut savoir que des humains peuvent toujours accéder aux messages à des fins de vérification de conformité, notamment).

Voici la procédure à suivre pour désactiver l’entraînement avec ChatGPT :

Dans les paramètres, sous « Gestion des données », voir l’onglet « Améliorer le modèle pour tous ». Décochez l’option si elle est activée. Désormais, vos conversations ne seront pas utilisées pour l’entraînement de leurs modèles.

Bon à savoir : je sais que ces options existent aussi pour Mistral et Perplexity (pas pour Gemini cependant, Google ne le permet pas, même avec un plan payant).

Attention ! Si vous notez un message du chatbot, ChatGPT ou Mistral notamment, avec un pouce en haut ou en bas, vous acceptez que le message ainsi que toute la conversation soient envoyés (des évaluateurs humains y auront accès, à des fins d’amélioration de la sécurité et de la performance).

· • · • · • · • ·

J’espère que ce sujet d’actualité vous a plu, j’aime m’intéresser à ce type d’implications liées à l’IA. C’est ce qui me fascine dans tout cela : l’IA est une nouveauté exclusive pour l’Humanité ; sans doute une véritable révolution même.

Merci pour votre lecture, je vous souhaite un bon week-end, et je vous dis à bientôt !

· • · GeekEnHerbe · • ·

Visuel généré avec ChatGPT – modèle d’images OpenAI

· • · • ·

Sources :

Un article de Reuters sur l’issue du procès (le lien vers l’ordonnance finale de la juge se trouve au début de l’article) :

L’ordonnance finale de la juge Ona T. Wang, obligeant OpenAI à mettre à disposition l’échantillon :

Un communiqué d’OpenAI défendant son point de vue du procès :

Keep Reading