L'offre du Kazakhstan pour la souveraineté de l'IA
Le 13 mars, le président du Kazakhstan Kassym-Jomart Tokayev rencontré avec Thomas Pramotedham, Le PDG de Presight AI, une société d'intelligence artificielle, pour discuter des plans d'un cluster de supercalculateur dans le pays. Le projet fait partie d'une série d'initiatives du gouvernement pour se positionner en tant que leader régional de l'intelligence artificielle.
Astana place l'espoir dans la technologie non seulement pour la croissance économique. Il y a aussi un aspect culturel à la poussée, avec une forte industrie d'IA intérieure considérée comme vitale pour la préservation linguistique.
Cependant, en tant que récent retard Au projet du supercalculateur, même si les plans les plus émis peuvent être victimes de forces géopolitiques. Alors que le Kazakhstan pourrait parler d'un gros match sur l'IA, peut-il livrer?
Contrôler le récit
Les modèles de grandes langues, ou LLMS, sont la base de programmes d'IA tels que ChatGpt, qui traitent, comprennent et génèrent un langage humain. Ces modèles sont extrêmement formés sur une poignée de langues dominantes, comme l'anglais, le mandarin et l'espagnol, tandis que les petites langues comme Kazakh sont souvent négligées.
« Alors que les LLM plus grands ajoutent des langues supplémentaires, ces langues ne sont pas nécessairement soutenues dans une mesure égale », a déclaré Preslav Nakov, président du département et professeur de traitement du langage naturel à l'Université d'intelligence artificielle de Mohamed bin Zayed (Mbzuai) à Abu Dhabi. «Les LLM utilisent les réseaux de neurones et ont une capacité limitée; leurs développeurs se demandent inévitablement s'ils souhaitent investir dans l'utilisation de cette capacité pour soutenir plus de langues ou pour s'améliorer dans d'autres domaines, tels que les capacités de raisonnement.»
L'importance secondaire accordée aux petites langues conduit à des modèles d'IA qui favorisent une vision du monde occidentale, explique Dion Wiggins, CTO Of Omniscience, une entreprise spécialisée dans les solutions de traitement des langues axées sur l'IA. « Si vous allez à Grok ou Llama ou Chatgpt, ils sont plus ou moins tout de même parce qu'ils apprennent tous des mêmes données », a-t-il déclaré.
Cependant, si des pays comme le Kazakhstan pouvaient produire leur propre LLMS, cela signifierait plus de contrôle sur le récit.
« Si vous avez un LLM souverain, il a une morale kazakh, une histoire kazakh, des objectifs kazakh et un point de vue de cette partie du monde », a déclaré Wiggins. Il cite la profondeur de la Chine, qui limite l'accès aux informations sur le massacre de la place Tiananmen, et les Gémeaux de Google, qui refuse de répondre à une question simple comme «qui est le président des États-Unis?» comme exemples de la façon dont nous voyons déjà l'IA utilisée pour la censure.
Faites attention à votre langue
Les LLM nécessitent d'énormes quantités de données pour les former à être efficaces.
« Et il y a le problème », a déclaré Wiggins. «Il n'y a tout simplement pas beaucoup de données kazakh.»
L'une des plus grandes sources de données pour la formation IA est Rampeun organisme sans but lucratif qui arme en ligne les informations en ligne et la met librement à la disposition du public. Ses statistiques montrent un énorme biais linguistique: 43,4% des pages Web de Crawl communes sont en anglais. En fait, plus de 70% de toutes les données sur le Web proviennent de sept langues principales: l'anglais, le russe, l'allemand, le japonais, le chinois, l'espagnol et le français.
Kazakh explique 0,0298%. En d'autres termes, si vous parcourez au hasard 10 000 pages Web, trois seraient en Kazakh; 605 en russe et 4 337 en anglais.
Cela a des conséquences réelles: les moteurs de recherche hiérarchisent le contenu anglais, les assistants alimentés par l'IA luttent avec les requêtes non anglophones et les services de traduction automatisés restent peu fiables dans de nombreuses langues.
« Au Kazakhstan, cette question est encore aggravée par le problème historiquement intrinsèque résultant de la dépendance à l'égard du russe », a déclaré Aisana Kassenova, un candidat doctorant né au Kazakh en IA à la Esade Business School à Barcelone. « De nombreux outils de traduction, comme Google Translate, utilisent toujours le russe comme intermédiaire lors de la traduction du kazakh, ce qui le rend souvent inexact. »
Astana a une politique de longue date pour essayer de promouvoir la langue kazakh sur le russe, qui pendant de nombreuses années a été considérée comme la langue de l'élite urbaine dans le pays. Beaucoup diraient que c'est toujours le cas: le Russe a une énorme longueur d'avance sur Kazakh dans l'espace numérique, ce qui signifie que la majorité des interactions avec l'IA sont menées en russe.
«Cela conduit à un manque de jeux de données de langue kazakh, renforçant la perception que le russe reste le langage plus« pratique »pour la technologie et le développement de l'IA au Kazakhstan», a déclaré Kassenova.
LLMS cultivés
En tant que tel, la recherche a commencé pour le premier modèle de langue grande du Kazakhstan. En décembre 2024, le pays a frappé l'or lorsque l'Institut des systèmes intelligents et de l'intelligence artificielle de l'Université Nazarbayev (ISSAI) a dévoilé Kazllm. Conçu pour traiter et générer du texte en kazakh, russe, anglais et turc, Kazllm a été développé à l'aide d'un vaste ensemble de données collecté à partir de sources telles que les médias, les sites Web du gouvernement et les documents à accès libre. Les performances du modèle même a fait l'éloge De Yan LeCun, chef de l'IA et de la recherche au géant de la technologie américaine Meta.
Cela a été suivi en février 2025 par Sherkala, un autre modèle de linguisie kazakh, développé en collaboration chez Mbzuai à Abu Dhabi.
Le professeur Nakov, le chef du projet, a déclaré au diplomate que Sherkala suivait les traces de Jais (2023) et Nanda (2024), qui se concentrent respectivement sur l'arabe et l'hindi.
«Sherkala est construit sur le lama, le modèle d'IA open source largement adopté de Meta, qui comprend déjà un soutien multilingue, mais pas assez pour fournir le niveau de précision et de conscience culturelle des langues telles que Kazakh», a-t-il déclaré. Pour développer le modèle, son équipe s'est assurée de les affiner avec des informations supplémentaires sur la culture et l'histoire du Kazakhstan.
Kassenova soutient que Kazllm et Sherkala n'ont pas été conçus pour rivaliser avec les modèles d'IA traditionnels, mais plutôt pour fournir plus d'inclusivité. «Des modèles comme Chatgpt, Gemini et Qwen sont construits avec des ressources massives, des ensembles de données multilingues sans fin et une puissance de calcul de pointe, visant l'intelligence générale», a-t-elle déclaré. «En revanche, les LLM kazakh ont été créées dans des équipes relativement petites (et avec un budget relativement petit) pour s'assurer que les haut-parleurs kazakh ont des outils d'IA adaptés à notre langage et à notre contexte culturel.»
Construire une infrastructure d'IA
Les ambitions d'IA du Kazakhstan s'étendent au-delà des modèles de langue. Une autre planche de la stratégie implique la création d'un supercalculateur national.
« (Ceci) serait la clé du développement de l'IA », a déclaré Kassenova. « Le pays dépend depuis longtemps des systèmes informatiques russes, mais avec la Russie face à ses propres pénuries d'IA, le retourner n'est pas une option. »
Le gouvernement s'est associé à Presight.ai, une autre entreprise des EAU, pour construire le supercalculateur. Cependant, les retards dans l'acquisition de puces NVIDIA à haute performance dues aux restrictions d'exportation américaines ont ralenti les progrès du projet, qui devait être achevé l'année dernière. Cet embargo Nvidia a créé des goulots d'étranglement importants, la société contrôlant 80% du marché mondial des puces d'IA.
Wiggins suggère que le Kazakhstan pourrait tourner vers l'est pour obtenir de l'aide. « Huawei en Chine a créé des GPU qui ne sont pas encore aussi bons, mais ils sont assez bons », a-t-il dit en faisant référence au récent performance positive de la puce Huawei Ascend 910 C, qui a commencé à combler l'écart sur Nvidia.
La construction d'un écosystème d'IA nécessite un capital humain ainsi que des infrastructures. En 2024, le Kazakhstan a commencé à introduire Cours d'alphabétisation de l'IA dans toutes les universités du pays. Le Technopark Astana Hub a également commencé un projet annuel à former 700 enseignants d'IA de 47 universités nationales.
Astana envisage également de devenir un centre d'IA régional. Des plans sont en cours pour établir un Centre international d'IA En 2025, une décision conçue pour attirer des collaborations et des investissements de recherche mondiaux.
La charrette avant le cheval
Cependant, annoncer que 1 million de personnes seront formées à l'IA est différente de les persuader à entreprendre la formation, tout comme les gens convaincants d'utiliser Sherkala sur des équivalents de langue russe n'est pas une donnée. Le Kazakhstan a déjà été ici, proclamant prématurément un centre mondial pour tout de logistique à religion.
Un autre problème est l'ouverture. Les modèles de grandes langues prospèrent sur d'énormes quantités d'informations précises et complètes.
Alors que les gouvernements qui tendent vers l'opacité, comme la Chine, ont montré qu'une approche hautement contrôlée et descendante avec le soutien de l'État, les données massives et l'alignement des entreprises peuvent également générer des progrès, le Kazakhstan peut ne pas avoir les ressources pour imiter ce modèle.
Une approche moins chère serait un environnement qui favorise un accès ouvert et facile aux données, en particulier compte tenu de la pénurie relative des sources de langage kazakh. Cependant, avec des journalistes sans frontières classant le pays 142e sur 180 sur son 2024 World Press Freedom Indexcela ne semble pas être une priorité.
Malgré tous ses grands conceptions, l'adhérence en fer d'Astana sur les informations peut finir par retenir le pays.
Issai, les créateurs de Kazllm, n'a pas répondu aux demandes de commentaires.
Presight.ai a refusé de commenter, suggérant que des questions soient dirigées vers le gouvernement.
Le ministère du Développement numérique du gouvernement n'était pas disponible pour commenter.