Bloom, un nouvel outil de traduction automatique .

En tout, plus de mille chercheurs ont travaillé sur “Bloom”. Anglais, français, basques, espagnol… Ce système de traduction et de prédiction des langues automatique prend en charge 46 langages .

Tout a commencé avec la naissance du projet BigScience, fruit d’une start-up américaine, Hugging Face. Cette dernière vient de boucler une levée de fonds de 100 millions de dollars qu’elle compte investir dans le système Bloom. Ce dernier a pour mission de fournir une connaissance sans précédent de la langue et de notre façon de parler. Et ce, en rendant les grands modèles de langage largement disponibles pour la recherche pour mieux les observer et comprendre leur fonctionnement. Les modèles de langages sont des modèles statistiques qui modélisent la distribution de séquences de mots dans une langue naturelle.

Les biais des modèles de langages existants

Les générateurs d’écriture sont capables de traduire, de résumer et de rédiger des textes, mais aussi d’alimenter des bots de chat, de modérer du contenu, de résumer des articles de presse et de traduire du texte en ligne.

Pour accomplir ces tâches, les modèles de langages ont besoin de quantités massives de données d’entraînement pour trouver les associations statistiques. Seul problème, en cas de base de données trop pauvre, trop approximative ou trop problématique d’un point de vue éthique, les générateurs d’écriture ont tendance à dire des faussetés et à faire preuve de préjugés à l’égard des religions, des sexes, des races et des personnes handicapées. Par exemple, un article publié en 2021 a révélé que le modèle linguistique le plus récent publié par OpenAI, un laboratoire d’intelligence artificielle basé à San Francisco, associait systématiquement les musulmans à la violence, rappelle le Washington Post.

Pour pallier ces biais, la start-up BigScience et Bloom, son système, adoptent une nouvelle approche. Dans le cadre de ce projet, ce sont les individus eux-mêmes, donc, pas la technologie, qui génère 60 % des données d’apprentissage. À noter tout de même que près de 40% de l’ensemble des données de BigScience proviennent toujours d’une exploration classique de l’internet.

Les applications chinoises Alipay, CamScanner interdites aux États-Unis par l’administration Trump

Bloom s’entraîne sur le supercalculateur français Jean Zay. “Pendant son apprentissage, le modèle a acquis la capacité de gérer 176 milliards de paramètres sur des textes”, indique l’Usine Digitale. Grâce à ce système, les scientifiques peuvent travailler sur 46 langues en même temps, le logiciel étant capable de prédire le mot qui sera écrit en ne connaissant que le début d’un texte.

Ce système devrait être très utile pour les systèmes de traduction automatique, mais aussi pour améliorer la fiabilité des générateurs d’écriture. “Bien qu’il n’ait jamais été entraîné à l’une de ces tâches spécifiques, on peut demander à Bloom de produire des résumés ou des traductions de texte, de produire du code à partir d’instructions, et de suivre des invites pour effectuer des tâches originales telles que l’écriture de recettes, l’extraction d’informations d’un article de presse, ou la composition de phrases utilisant un mot inventé nouvellement défini… Les performances de Bloom continueront à s’améliorer à mesure que l’atelier continuera à expérimenter et à progresser sur Bloom”, peut-on lire dans un billet de blog partagé avec TechCrunch avant le lancement.

Susciter de nouvelles recherches

Un des autres principaux objectifs de Bloom est de fournir aux chercheurs du monde entier une base de travail commune. Il existe déjà d’autres modèles de langage similaires, mais ces programmes sont le projet d’entreprises privées. Conséquence : ils ne sont pas totalement transparents. Contrairement à Bloom qui est 100% open source et accessible à tous, à condition d’avoir la puissance de calcul nécessaire. La startup Hugging Face a d’ailleurs lancé une application Web gratuite qui permet à tout le monde d’essayer Bloom sans avoir à le télécharger. Le projet devrait être rendu public dans les prochaines semaines.

Partagez l’info autour de vous.