China’s Censors Could Shape the Future of AI-Generated Content

Les censeurs chinois pourraient façonner l’avenir du contenu généré par l’IA

Quelques mois après son lancement, ChatGPT – un chatbot alimenté par l’intelligence artificielle (IA) créé par la société américaine OpenAI – a attiré des dizaines de millions d’utilisateurs. Une version de la technologie a depuis été intégrée dans une version préliminaire limitée de Microsoft Bing. Les rédacteurs technologiques spéculent maintenant sur l’impact que les moteurs de recherche assistés par l’IA auront sur la concurrence entre les géants américains de la technologie Google et Microsoft. La rapidité avec laquelle ChatGPT a été adopté représente une tendance plus large : alors que les outils d’IA ont gagné en popularité ces dernières années, 2023 a été déclarée l’année où l’IA devient une partie plus visible de la vie quotidienne.

Tout examen de la conception, de l’utilisation et des effets de l’intelligence artificielle doit tenir largement compte des tendances en Chine. Les outils basés sur l’IA sont largement utilisés à l’intérieur du pays pour la surveillance politisée du contenu, la censure et la surveillance publique. Et alors que le monde entre dans une nouvelle phase d’intégration de l’IA, les pratiques mises au point par les entreprises technologiques à la demande du Parti communiste chinois (PCC) pourraient avoir des ramifications pour les internautes, les décideurs et les entreprises bien au-delà des frontières chinoises.

Les dynamiques suivantes liées à l’IA et à la Chine méritent une attention particulière dans l’année à venir.

1. Censure dans le contenu généré par l’IA en Chine

Les outils algorithmiques reflètent les données sur lesquelles ils sont entraînés. Ainsi, la censure sur des sujets politiques, sociaux et religieux est presque certaine d’affecter le contenu généré par l’IA en Chine, et il existe des preuves que c’est déjà le cas.

Si un outil d’apprentissage automatique tire principalement des informations de l’intérieur de la soi-disant grande muraille pare-feu de la Chine, ses résultats refléteront les omissions et les préjugés du paysage de l’information fortement censuré et imprégné de propagande du pays. Une étude réalisée en 2021 par les chercheurs Margaret Roberts et Eddie Yang, par exemple, a trouvé des différences de perspective entre un algorithme de traitement du langage naturel basé sur la Wikipédia mondiale en langue chinoise non censurée et une alternative qui a été formée sur les entrées de l’encyclopédie en ligne Baike de Baidu. L’algorithme formé à l’échelle mondiale a analysé positivement des termes tels que « élection » et « démocratie », ou les a associés à des noms tels que « stabilité ». En revanche, les personnes formées sur Baidu Baike ont évalué positivement la « surveillance » et le « PCC » et ont associé des termes comme « démocratie » à des mots négatifs comme « chaos ».

D’autres systèmes d’IA peuvent intégrer la censure en raison d’une intervention humaine imposée en plus du contenu généré par la machine. Lorsque le géant chinois de la technologie Baidu a lancé son générateur de texte en image ERNIE-ViLG en 2022, des utilisateurs comme l’artiste dissident Badiucao ont rapidement remarqué des lacunes et des manipulations. Une étude publiée en septembre par le MIT Technology Review a expliqué les contours d’une partie de cette censure : pas d’images de la place Tiananmen, pas de dirigeants chinois, et pas de termes comme « révolution » ou « escalader les murs » – une métaphore pour utiliser des outils d’anticensure pour accéder sites Web bloqués.

Baidu rapporte qu’ERNIE-ViLG a été formé sur un ensemble mondial de contenus, pas seulement sur des informations basées en Chine. Cela signifie que la censure et les omissions observées dans le générateur de texte en image doivent avoir été activement induites par les développeurs du programme alors qu’ils tentaient de se conformer aux réglementations gouvernementales et aux politiques de l’entreprise. En effet, alors que le gouvernement et le PCC fournissent des règles et des directives détaillées sur la censure, les entreprises chinoises de technologie et de médias sociaux ont chacune leurs propres listes noires et approches de la censure dans la pratique. Les variations entre les outils d’IA de ces entreprises peuvent devenir plus apparentes avec le temps.

2. Gestion des chatbots en Chine

Alors que les utilisateurs du monde entier expérimentent ChatGPT, les utilisateurs en Chine n’ont eu qu’un accès limité à l’outil. Il n’est pas encore bloqué par le Grand Pare-feu, mais la connexion nécessite un numéro de téléphone d’un sous-ensemble de pays qui n’inclut pas la Chine. Une variété de solutions de contournement et d’imitateurs – certains légitimes, d’autres plus douteux – ont émergé sur l’Internet chinois, et beaucoup exigent des frais. Vers le 10 février, cependant, les liens vers ces solutions de contournement auraient cessé d’apparaître dans les résultats de recherche sur la plateforme WeChat de Tencent et sur le marché Taobao d’Alibaba.

Pendant ce temps, plusieurs projets locaux de chatbot basés sur l’IA sont en cours et devraient être dévoilés au public cette année. ERNIE-Bot de Baidu, par exemple, devrait être lancé le mois prochain. Compte tenu du moteur de recherche fortement censuré de l’entreprise et des conclusions concernant son générateur de texte en image AI, la censure et d’autres manipulations sont susceptibles d’être également évidentes dans la sortie du chatbot. Un autre chatbot IA, ChatYuan, fonctionne comme un mini-programme au sein de l’écosystème WeChat de Tencent, et son fondateur a reconnu aux journalistes qu’il « filtrerait certains mots-clés » avec plus de niveaux de révision que ce à quoi on pourrait s’attendre à l’étranger. Certaines des imitations de ChatGPT mentionnées ci-dessus ont également été trouvées pour éviter les sujets considérés comme politiquement sensibles en Chine.

Néanmoins, même un chatbot nominalement censuré pourrait produire des résultats imprévisibles. Étant donné qu’ERNIE-Bot serait formé sur des données mondiales, les utilisateurs doivent surveiller toute erreur involontaire qui va à l’encontre des préférences du PCC. Tout comme les chercheurs en désinformation ont généré des résultats troublants en demandant à ChatGPT des essais du point de vue du PCC ou de théoriciens du complot bien connus, les utilisateurs pourraient tenter de renverser la situation sur les chatbots chinois. Quelles réponses ERNIE-Bot pourrait-il offrir s’il était invité à discuter de la démocratie, de la constitution chinoise ou de Xi Jinping du point de vue des dissidents et des avocats des droits comme Liu Xiaobo ou Gao Zhisheng, ou des rivaux intra-PCC de Xi comme Bo Xilai ? Et si la réponse viole les directives de censure du gouvernement chinois, quelles sanctions pourraient attendre l’entreprise et ses utilisateurs, qui sont tenus de s’enregistrer avec leur vrai nom ?

3. Influence de la censure chinoise sur le contenu mondial généré par l’IA

La Chine est le pays qui compte le plus grand contingent d’internautes au monde et sa plus grande population de locuteurs chinois, ce qui soulève des questions importantes sur la manière dont sa production massive et fortement censurée pourrait influencer le contenu généré par l’IA au niveau mondial, en particulier en langue chinoise. Les outils d’IA entraînés sur la constellation complète de contenus disponibles en chinois afficheront-ils implicitement un biais en faveur du PCC ?

Bing de Microsoft est devenu le premier moteur de recherche mondial à intégrer ChatGPT et l’IA conversationnelle dans son service. Il a également des antécédents de censure depuis sa version basée en Chine qui s’est glissée dans les fonctions de recherche mondiales. En décembre 2021, le groupe de recherche canadien Citizen Lab a mené des tests sur les autosuggestions dans Bing et a trouvé une censure statistiquement significative dans les recherches en chinois pour les utilisateurs nord-américains, et même dans certains résultats en anglais aux États-Unis. Les facteurs précis contribuant à ce phénomène n’étaient pas tout à fait clairs et Microsoft a affirmé avoir corrigé une mauvaise configuration, mais Citizen Lab a signalé qu’en mai 2022, certaines anomalies persistaient. Les chercheurs ont conclu leur rapport en avertissant que « l’idée que Microsoft ou toute autre entreprise puisse exploiter une plate-forme Internet qui facilite la liberté d’expression pour un groupe démographique d’utilisateurs tout en appliquant de manière intrusive la censure politique à un autre groupe démographique de ses utilisateurs peut être fondamentalement intenable ».

Bien que la situation de Microsoft soit unique étant donné qu’il continue d’exploiter une version censurée de Bing en Chine, Google et d’autres moteurs de recherche mondiaux peuvent rencontrer différentes formes de retombées de la censure de Pékin ou de la manipulation délibérée par des acteurs pro-PCC. L’année dernière, des chercheurs ont fait part de leurs inquiétudes quant à la capacité de Pékin à amplifier le contenu produit par l’État chinois dans Google News et les résultats de recherche YouTube pour des termes tels que « Xinjiang » ou des théories du complot liées aux origines de COVID-19. Il n’est pas clair si la complexité supplémentaire d’un chatbot IA rendra la fonctionnalité de recherche plus ou moins vulnérable à la manipulation.

4. L’utilisation de l’IA par Pékin pour produire de la désinformation mondiale

Le PCC et ses agents sont relativement nouveaux dans l’espace de la désinformation par rapport à leurs homologues russes, mais depuis 2018, de multiples campagnes impliquant des réseaux de faux comptes qui propagent des mensonges ou amplifient artificiellement le contenu de l’État chinois ont été documentées. Bien que l’impact de ces efforts ait été plutôt limité à ce jour, les chercheurs ont trouvé des preuves cohérentes d’expérimentation, d’adaptation et de sophistication croissante. On peut s’attendre à ce que les acteurs pro-Pékin intègrent activement la technologie de l’IA dans leurs opérations mondiales de désinformation à l’avenir.

Les chercheurs en désinformation de la société NewsGuard ont récemment exploré à quoi cela pourrait ressembler. Ils ont demandé à ChatGPT de générer des réponses du point de vue du gouvernement chinois ou d’un responsable du PCC sur des sujets tels que la détention massive d’Ouïghours au Xinjiang ou les théories du complot selon lesquelles COVID-19 est originaire des États-Unis. Les résultats imitaient de près la propagande du PCC tout en utilisant un ton autoritaire, mais ne citaient aucune source. Les chercheurs ont noté qu’un utilisateur ordinaire demandant des informations sur ces sujets obtiendrait probablement une réponse plus équilibrée, mais l’expérience a démontré la capacité des mauvais acteurs à utiliser la technologie comme un « multiplicateur de force pour promouvoir de faux récits nuisibles dans le monde entier ».

La menace n’est pas seulement hypothétique. Un rapport publié ce mois-ci par la société de cybersécurité Graphika a révélé l’emploi réel d’avatars générés par l’IA dans une campagne de désinformation liée au régime chinois. L’entreprise a déclaré qu’il s’agissait du premier cas connu d’une telle utilisation de la technologie par un acteur étatique. La campagne comportait des clips vidéo du média fictif Wolf News, avec des présentateurs masculins et féminins présentant des reportages conformes aux récits de propagande du PCC sur la violence armée aux États-Unis et les relations sino-américaines. Les vidéos ont été diffusées par un réseau de faux comptes liés à la Chine, connu sous le nom de Spamouflage, que Graphika suit depuis des années et expose comme une source persistante de désinformation pro-PCC. La société a déclaré que ses chercheurs pensaient au départ que les ancres étaient des acteurs rémunérés, mais les ont ensuite retracés vers un site Web britannique proposant des avatars commerciaux générés par l’IA, généralement destinés à être utilisés dans des publicités.

Les vidéos n’ont pas reçu beaucoup de vues et comportaient d’importantes erreurs de langue anglaise. Mais comme le note Graphika, combiner l’utilisation d’avatars vidéo avec un meilleur script généré par des systèmes de langage naturel comme ChatGPT pourrait produire un contenu plus convaincant et efficace.

Un besoin critique de transparence

Une caractéristique déterminante du système de censure chinois est son opacité. Une grande partie de ce que l’on sait du fonctionnement quotidien de l’appareil provient de fuites de directives de censure, de témoignages d’anciens employés, de commentaires anonymes aux médias par le personnel actuel et des types de recherches et d’enquêtes extérieures mentionnées ci-dessus. En particulier, alors que de nombreuses entreprises technologiques internationales manquent de transparence, leurs homologues chinois sont généralement encore moins ouverts en ce qui concerne les fonctionnalités et les systèmes de modération de contenu de leurs produits et services, y compris leurs applications génératrices d’IA. Par exemple, le générateur de texte en image ERNIE-ViLG de Baidu ne publie pas d’explication de ses politiques de modération, contrairement aux alternatives internationales DALL-E et Stable Diffusion.

Compte tenu du potentiel évident d’abus, toute pression exercée sur les entreprises technologiques chinoises pour une plus grande transparence profiterait aux utilisateurs. Les concurrents internationaux devraient intégrer des principes solides en matière de droits de l’homme dans le développement et la mise en œuvre de nouveaux outils générés par l’IA et établir une norme mondiale élevée en matière de transparence et de responsabilité publique. Pendant ce temps, des enquêtes indépendantes et des tests rigoureux pour détecter et comprendre la manipulation de contenu pro-PCC resteront essentiels pour informer les utilisateurs et créer de meilleures garanties pour la liberté d’expression et l’accès à diverses informations.

C’est peut-être un signe des temps que ces efforts constructifs seront également probablement aidés par la technologie de l’IA.

A lire également