Le texte ci-contre sur les licornes n’a pas été écrit par un humain ! Il a été généré entièrement par une intelligence artificielle; seule instruction donnée: écrire un article sur la découverte d’une nouvelle espèce de licornes. Comment une telle intelligence artificielle fonctionne-t-elle ?
Il faut, tout d'abord, l'entraîner avant de l'utiliser pour la génération de textes.
L’entraînement
Pour entraîner un réseau neuronal, c’est-à-dire pour lui apprendre quelque chose, il faut deux ingrédients principaux: une tâche et une base de données.
La tâche choisie dans notre cas est la prédiction du prochain mot: on présente un début de phrase au réseau neuronal et on lui demande de prédire le prochain mot. Prenons par exemple la phrase «le chat est sur le tapis» et cachons le dernier mot de manière à avoir le début de phrase suivant «le chat est sur le»: la tâche du réseau neuronal est maintenant de prédire le mot «tapis». Si le réseau se trompe et prédit le mot «fleur» par exemple, il apprend de manière à faire une meilleure prédiction la fois prochaine.
Notre autre ingrédient, la base de données, permet de fournir une quantité d’exemples différents à notre réseau neuronal. Dans notre cas, on sélectionnera de nombreuses phrases prises sur des milliards de pages internet. Une fois que le réseau neuronal aura essayé de prédire suffisamment de mots pour ne presque plus se tromper, son entraînement sera considéré terminé. C'est devenu un modèle de langage.
La génération de texte
Une fois entraîné, le réseau neuronal — ou modèle de langage — peut être utilisé pour générer du texte. Par exemple, en choisissant toujours le prochain mot prédit par notre réseau. En fait, c’est un peu comme si l’on lorsqu’on tape un message, on choisissait toujours le prochain mot suggéré par le téléphone. On commence par un mot au hasard, par exemple «Le», puis on sélectionne toujours le prochain mot prédit par notre modèle; on écrit ainsi une phrase entière, puis une deuxième, jusqu’à avoir un texte entier. Avec différentes petites astuces additionnelles, cette technique permet de générer notre article sur les licornes. Mais on peut aussi obtenir des histoires, des poèmes ou même des textes en langage informatique qui permettent d’afficher des pages internet. Un modèle de langage est même capable de répondre à des questions, de «converser» avec un humain. De nombreuses applications différentes existent !
et ses limites
Malgré tout, les modèles de langage ont plusieurs défauts. Déjà, ils n’arrivent pas à générer de longs textes qui restent cohérents. C’est-à-dire qu’après plusieurs phrases, voire plusieurs paragraphes, ils ne sont plus capables de considérer ce qu’ils ont écrit au début. Ils peuvent alors perdre le fil ou même se contredire. Impossible pour l’instant d’écrire des romans entiers; ce n’est donc pas tout de suite que tu liras un livre généré entièrement par une intelligence artificielle ! Ensuite, puisqu’ils sont entraînés sur des millions de pages internet, les modèles de langage finissent parfois par apprendre puis répéter des informations fausses ou même dangereuses. Sur twitter ou d’autres réseaux sociaux, par exemple, il existe des gens qui diffusent de la désinformation ou même des messages de haine (comme du racisme) et les modèles de langage n’ont aucune manière de distinguer ces phrases dangereuses de phrases normales et finissent par apprendre puis générer des contenus problématiques. Être chercheur en intelligence artificielle c’est donc aussi se poser des questions d’éthique !
Des modèles de plus en plus grands
Le modèle de langage le plus récent, de 2020, s’appelle GPT-3. Il est beaucoup plus grand que tous ses prédécesseurs puisqu’il possède 175 milliards de paramètres, contre seulement 1,5 milliard pour GPT-2 ! Il faut compter à peu près 700 gigabytes pour le stocker sur un ordinateur. Pour l’entraîner, il a eu accès à plusieurs milliards de pages internet, dont, par exemple, l’entièreté des articles anglais de Wikipedia ! Le coût de l’opération avoisinerait les 4,6 millions de dollars pour l’entreprise OpenAI. Malheureusement cet entraînement demande aussi beaucoup d’électricité et engendre donc de la pollution: une étude de l’université de Copenhague estime l’empreinte carbone de l’entraînement de GPT-3 à plus de 80 000 kg de CO2, soit autant que pollue une voiture pour faire 17 fois le tour de la Terre !
Peut-on dire que le réseau neuronal «comprend» ce qu’il écrit ?
Si l’on demande à un modèle de langage de compléter la phrase suivante «le coucher du soleil est…» il prédira sûrement «rouge». Néanmoins, ce savoir vient seulement du fait qu’il ait accédé à différents textes: il sait prédire «rouge» dans ce cas à force d’avoir lu des articles scientifiques ou même des histoires d’amour où il est question d’un coucher de soleil rouge. Quand je dis que «le coucher du soleil est rouge» mon savoir vient de mes expériences vécues, de tous ces soirs d’été où j’ai vu le soleil lentement descendre du ciel pour ensuite disparaître à l’horizon. Et lorsque je dis «rouge», je peux penser à beaucoup d’objets de la même couleur et m’imaginer ce que c’est que de voir du rouge de mes propres yeux, de l’impression que le rouge me procure. Le modèle de langage n’a pas accès à de telles expériences vécues par le corps à la manière de l’humain. Il peut seulement apprendre ce genre de choses à partir de textes écrits par des humains qui vivent les choses, pour pouvoir ensuite le répéter. Si l’on est d’accord avec ce raisonnement, on peut donc affirmer qu’un réseau neuronal entraîné à prédire des mots ne «comprend» pas ce qu’il écrit, à l’inverse de l’humain. Mais peut-être que tout cela changera lorsque des intelligences artificielles dans des corps de robot couplées à des senseurs pour «sentir» pourront apprendre en interagissant directement avec le monde ?
Texte : Rédaction SimplyScience.ch
Sources:
Li Chuan. (2020). OpenAI's GPT-3 Language Model: A Technical Overview. https://lambdalabs.com/blog/demystifying-gpt-3/.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.
Anthony, L. F. W., Kanding, B., & Selvan, R. (2020). Carbontracker: Tracking and predicting the carbon footprint of training deep learning models. arXiv preprint arXiv:2007.03051.
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021, March). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).