PaLM plus fort que GPT3 en nombre de paramètres !

Consultant SEO Marseille

PaLM plus fort que GPT3 en nombre de paramètres !

Pathways Language Model (PaLM):Modèle de langage Pathways (PaLM) : 540 milliards de paramètres pour une performance révolutionnaire.

Je vous ai parlé de GLaM l’outil de training de google pour MuM, et vous connaissez les possibilité de GPT-3.

Google continue de parler de ses autres outils qu’il a dans les cartons, et aujourd’hui il s’agit de PaLM, un modèle de langue. Cette documentation est plutôt technique pour expliquer comment ils optimisent l’apprentissage. Il s’agit probablement d’une réponse a github copilot dont j’ai fait une vidéo récemment.

Pathway Langage Model

Ceci est une traduction de leur article sur le sujet.

https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html?m=1

Ces dernières années, les grands réseaux neuronaux entraînés pour la compréhension et la génération de langage ont obtenu des résultats impressionnants dans un large éventail de tâches. GPT-3 a d’abord montré que les grands modèles de langage (LLM) peuvent être utilisés pour l’apprentissage en quelques coups et peuvent obtenir des résultats impressionnants sans collecte de données à grande échelle spécifiques à la tâche ou sans mise à jour des paramètres du modèle. Des modèles de langage plus récents, tels que GLaM, LaMDA, Gopher et Megatron-Turing NLG, ont obtenu des résultats de pointe sur de nombreuses tâches en mettant à l’échelle la taille du modèle, en utilisant des modules peu activés et en s’entraînant sur des ensembles de données plus importants provenant de sources plus diverses. Cependant, il reste encore beaucoup à faire pour comprendre les capacités qui émergent de l’apprentissage en mode  » few-shot  » lorsque nous repoussons les limites de l’échelle du modèle.

L’année dernière, Google Research a annoncé sa vision de Pathways, un modèle unique capable de se généraliser à tous les domaines et à toutes les tâches tout en étant très efficace. Une étape importante dans la réalisation de cette vision a été le développement du nouveau système Pathways pour orchestrer le calcul distribué pour les accélérateurs. Dans « PaLM : Scaling Language Modeling with Pathways », nous présentons le Pathways Language Model (PaLM), un modèle Transformer de 540 milliards de paramètres, à décodeur dense uniquement, entraîné avec le système Pathways, qui nous a permis d’entraîner efficacement un seul modèle sur plusieurs TPU v4 Pods. Nous avons évalué PaLM sur des centaines de tâches de compréhension et de génération de langage, et nous avons constaté qu’il atteint les performances de pointe en quelques coups dans la plupart des tâches, avec des marges importantes dans de nombreux cas.

Formation d’un modèle linguistique de 540 milliards de paramètres avec Pathways
PaLM démontre la première utilisation à grande échelle du système Pathways pour faire évoluer la formation sur 6144 puces, la plus grande configuration de système basée sur TPU utilisée pour la formation à ce jour. La formation est mise à l’échelle en utilisant le parallélisme des données au niveau du Pod sur deux Cloud TPU v4 Pods, tout en utilisant le parallélisme standard des données et du modèle dans chaque Pod. Il s’agit d’une augmentation significative de l’échelle par rapport à la plupart des LLM précédents, qui ont été formés sur un seul TPU v3 Pod (par exemple, GLaM, LaMDA), ont utilisé le parallélisme du pipeline pour s’adapter à 2240 GPU A100 à travers des clusters GPU (Megatron-Turing NLG) ou ont utilisé plusieurs TPU v3 Pods (Gopher) avec une échelle maximale de 4096 puces TPU v3.

PaLM atteint une efficacité de formation de 57,8 % d’utilisation des FLOPs matériels, la plus élevée jamais atteinte pour des LLMs à cette échelle. Ce résultat est dû à une combinaison de la stratégie de parallélisme et d’une reformulation du bloc Transformer qui permet de calculer les couches d’attention et d’anticipation en parallèle, ce qui permet des accélérations grâce aux optimisations du compilateur TPU.

PaLM a été entraîné en utilisant une combinaison d’ensembles de données anglaises et multilingues comprenant des documents Web de haute qualité, des livres, Wikipedia, des conversations et du code GitHub.

Nous avons également créé un vocabulaire « sans perte » qui préserve tous les espaces blancs (particulièrement important pour le code), divise les caractères Unicode hors vocabulaire en octets et divise les nombres en jetons individuels, un pour chaque chiffre.

Des capacités révolutionnaires pour les tâches de langage, de raisonnement et de code


PaLM montre des capacités révolutionnaires sur de nombreuses tâches très difficiles. Nous présentons ci-dessous quelques exemples de compréhension et de génération de langage, de raisonnement et de tâches liées au code.

Compréhension et génération de langage
Nous avons évalué le PaLM sur 29 tâches de traitement du langage naturel (NLP) largement utilisées en anglais. Le PaLM 540B a surpassé les performances des grands modèles précédents, tels que GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla et LaMDA, sur 28 des 29 tâches qui couvrent des tâches de questions-réponses (variante à livre fermé et à domaine ouvert), des tâches de closure et de complétion de phrases, des tâches de style Winograd, des tâches de compréhension de lecture en contexte, des tâches de raisonnement de sens commun, des tâches SuperGLUE et des tâches d’inférence en langage naturel.

En plus des tâches NLP en anglais, PaLM montre également une forte performance sur des benchmarks NLP multilingues, y compris la traduction, même si seulement 22% du corpus d’entraînement n’est pas en anglais.

Nous examinons également les capacités émergentes et futures de PaLM sur le banc d’essai Beyond the Imitation Game (BIG-bench), une suite récemment publiée de plus de 150 nouvelles tâches de modélisation du langage, et nous constatons que PaLM atteint une performance révolutionnaire. Nous comparons la performance de PaLM à celle de Gopher et Chinchilla, avec une moyenne sur un sous-ensemble commun de 58 de ces tâches. Il est intéressant de noter que la performance de PaLM en fonction de l’échelle suit un comportement log-linéaire similaire à celui des modèles précédents, ce qui suggère que les améliorations de performance dues à l’échelle n’ont pas encore atteint un plateau. PaLM 540B 5-shot fait également mieux que la performance moyenne des personnes à qui l’on demande de résoudre les mêmes tâches.

PaLM démontre des capacités impressionnantes de compréhension et de génération de langage naturel sur plusieurs tâches BIG-bench. Par exemple, le modèle peut distinguer la cause et l’effet, comprendre des combinaisons conceptuelles dans des contextes appropriés, et même deviner le film à partir d’un emoji.

Exemples illustrant les performances de PaLM 540B 1-shot sur des tâches BIG-bench : étiquetage de la cause et de l’effet, compréhension conceptuelle, deviner des films à partir d’emoji, et trouver des synonymes et des contrefactuels.

Raisonnement


En combinant l’échelle du modèle avec l’incitation à la chaîne de pensée, PaLM montre des capacités révolutionnaires dans les tâches de raisonnement qui nécessitent une arithmétique à plusieurs étapes ou un raisonnement de bon sens. Les LLM précédents, comme Gopher, ont moins bénéficié de l’échelle de modèle pour améliorer leurs performances.

Guide standard et guide de la chaîne de pensée pour un exemple de problème de mathématiques en primaire. L’incitation à la chaîne de pensée décompose l’incitation pour un problème de raisonnement à plusieurs étapes en étapes intermédiaires (surlignées en jaune), de la même manière qu’une personne l’aborderait.

Nous avons observé d’excellentes performances de la PaLM 540B combinée au guidage par chaîne de pensée sur trois ensembles de données arithmétiques et deux ensembles de données de raisonnement sensé. Par exemple, avec le guidage à 8 coups, PaLM résout 58% des problèmes dans GSM8K, un benchmark de milliers de questions mathématiques difficiles de niveau scolaire, surpassant le meilleur score précédent de 55% obtenu en affinant le modèle GPT-3 175B avec un ensemble d’entraînement de 7500 problèmes et en le combinant avec une calculatrice et un vérificateur externes.

Ce nouveau score est particulièrement intéressant, car il se rapproche de la moyenne de 60 % des problèmes résolus par les enfants de 9 à 12 ans, qui constituent le public cible de cet ensemble de questions. Nous soupçonnons que l’encodage séparé des chiffres dans le vocabulaire de PaLM permet ces améliorations de performance.

De manière remarquable, PaLM peut même générer des explications explicites pour des scénarios qui nécessitent une combinaison complexe d’inférences logiques à plusieurs étapes, de connaissances du monde et de compréhension profonde du langage. Par exemple, il peut fournir des explications de haute qualité pour de nouvelles blagues introuvables sur le Web.

Le PaLM explique une blague originale à l’aide d’invites en deux temps.

Génération de code avec PaLM


Il a également été démontré que les LLMs [1, 2, 3, 4] se généralisent bien aux tâches de codage, telles que l’écriture de code à partir d’une description en langage naturel (text-to-code), la traduction de code d’un langage à un autre, et la correction d’erreurs de compilation (code-to-code).

Le PaLM 540B présente de bonnes performances pour les tâches de codage et les tâches en langage naturel dans un seul modèle, même si l’ensemble de données de pré-entraînement ne contient que 5% de code. Ses performances sont d’autant plus remarquables qu’elles sont équivalentes à celles du modèle Codex 12B finement ajusté, tout en utilisant 50 fois moins de code Python pour l’apprentissage. Ce résultat renforce les conclusions précédentes selon lesquelles les modèles plus grands peuvent être plus efficaces en termes d’échantillonnage que les modèles plus petits, car ils transfèrent mieux l’apprentissage à partir d’autres langages de programmation et de données en langage naturel.

Exemples d’un modèle PaLM 540B finement ajusté sur des tâches texte-code, telles que GSM8K-Python et HumanEval, et des tâches code-à-code, telles que Transcoder.

Nous constatons également une augmentation supplémentaire de la performance en ajustant PaLM sur un ensemble de données de code Python uniquement, que nous appelons PaLM-Coder. Pour un exemple de tâche de réparation de code appelé DeepFix, où l’objectif est de modifier des programmes C initialement cassés jusqu’à ce qu’ils compilent avec succès, PaLM-Coder 540B démontre une performance impressionnante, atteignant un taux de compilation de 82,1%, ce qui dépasse l’état de l’art antérieur de 71,7%. Cela ouvre des perspectives pour la correction d’erreurs plus complexes qui surviennent lors du développement de logiciels.

Un exemple de la tâche de réparation de code DeepFix. Le PaLM-Coder 540B, réglé avec précision, répare les erreurs de compilation (à gauche, en rouge) pour obtenir une version du code qui se compile (à droite).

Considérations éthiques


Des recherches récentes ont mis en évidence divers risques potentiels associés aux MLD formés sur du texte web. Il est crucial d’analyser et de documenter ces risques potentiels indésirables par le biais d’artefacts transparents tels que des cartes modèles et des fiches techniques, qui comprennent également des informations sur l’utilisation prévue et les tests. À cette fin, notre article fournit une fiche de données, une carte de modèle et les résultats du benchmark Responsible AI, et il rapporte des analyses approfondies de l’ensemble de données et des sorties de modèle pour les biais et les risques. Si l’analyse permet de mettre en évidence certains risques potentiels du modèle, une analyse spécifique au domaine et à la tâche est essentielle pour véritablement calibrer, contextualiser et atténuer les préjudices éventuels. Une meilleure compréhension des risques et des avantages de ces modèles est un sujet de recherche en cours, ainsi que le développement de solutions évolutives qui peuvent mettre des garde-fous contre les utilisations malveillantes des modèles de langage.

Conclusion et travaux futurs
PaLM démontre la capacité de mise à l’échelle du système Pathways à des milliers de puces d’accélérateur sur deux TPU v4 Pods en entraînant efficacement un modèle de 540 milliards de paramètres avec une recette bien étudiée et bien établie d’un modèle Transformer dense à décodeur seul. Le fait de repousser les limites de l’échelle du modèle permet à PaLM d’atteindre des performances révolutionnaires en quelques coups dans une variété de tâches de traitement du langage naturel, de raisonnement et de codage.

PaLM ouvre la voie à des modèles encore plus performants en combinant les capacités de mise à l’échelle avec des choix architecturaux et des schémas de formation novateurs, et nous rapproche de la vision Pathways :

« Permettre à un seul système d’IA de généraliser des milliers ou des millions de tâches, de comprendre différents types de données, et de le faire avec une efficacité remarquable. »