La myopie culturelle d'une IA.
Bien qu’ils soient multilingues, les outils d’IA générative maîtrisent moins bien les langues autres que l’anglais. Ils s’alimentent principalement des données du Web où les publications de l’anglosphère dominent, ce qui implique un biais culturel qui défavorise la culture québécoise et plus généralement les produits culturels de langue française.
Les outils d’IA générative comme ChatGPT (Microsoft) ou Gemini (Google) sont fondés sur un grand modèle de langue (un LLM) qui produit une représentation « compressée » afin que l’IA puisse générer ses réponses. Les textes originaux complets sont perdus, et l’IA produit une réponse, sans avoir la capacité de distinguer le vrai du faux.
Plusieurs ont noté l’invention d’histoires fictives relativement aux réalités québécoises. Dans un dialogue récent avec ChatGPT (note 1), cette IA affirme que « L’une des reprises les plus célèbres du groupe Beau Dommage est La complainte du phoque en Alaska par Mario Pelchat ». Mais est-ce bien là la plus célèbre ? Il affirme ensuite qu’elle a été reprise par Michel Louvain (ce qui est faux) et que Félix Leclerc n’a pas repris cette chanson (ce qui est également faux).
Le logiciel se trompe parce dans son modèle de langue il existe un lien entre Beau Dommage et Michel Louvain, obtenus par apprentissage à travers un corpus de textes glanés sur la Toile, forcément plus réduit que celui sur la musique américaine. Mais son modèle ne possédant pas de lien entre Beau Dommage et Félix Leclerc, il affirme avec assurance une fausseté.
Des projets mobilisateurs pour le Québec
Un premier projet mobilisateur d’une stratégie québécoise en IA devrait être est la création d’un LLM, prenant en compte la spécificité culturelle du Québec. Ce grand modèle de langue pour l’IA générative serait entraîné à l’aide de textes spécifiques à la culture et à la langue québécoises. À cet égard, nous pourrions nous inspirer d’une initiative récente de la Suède (note 2) qui a entrepris de se doter d’un modèle de langue entraîné à partir de textes dans les langues scandinaves disponibles sur les réseaux.
Entraîner un grand modèle de langue comme ChatGPT demande de vaste entrepôts de données et des capacité de calcul hors de la portée financière des entreprises émergentes et des chercheurs, ce qui favorise la domination des grandes entreprises du numérique qui disposent de larges entrepots de données. Un autre projet mobilisateur consisterait à mettre en place une infrastructure nationale de calcul dédiée à l’IA.
Les grandes entreprises du numérique engagées dans la course à l'IA tendent à homogénéiser culturellement notre planète. De plus, la dépendance politique du Québec envers le Canada anglophone nous prive d'un forte partie de nos moyens d'action. Il nous faudra les récupérer pour assurer l’avenir d’un Québec technologiquement avancé capable de protéger et de développer sa culture nationale.
- Claude Coulombe, L’intelligence artificielle au Québec, magazine OUI Je le veux!, janvier 2024.
- GPT-SW3 dans le rôle de Klara, l’amie artificielle. https://medium.com/ai-sweden/gpt-sw3-as-klara-the-artificial-friend-e0cdb50aab75
- Tortoise Global AI Index. https://www.lapresse.ca/affaires/techno/2022-03-09/intelligence-artificielle/le-quebec-se-classe-7e-au-monde.php
- Alain McKenna, « La stratégie québécoise en IA est un échec », Le Devoir, 25 février 2022. https://www.ledevoir.com/economie/678933/la-strategie-quebecoise-en-intelligence-artificielle-est-un-echec