Knowledge-Enhanced Language Model Pre-training (KELM) c’est quoi ? L’IA et le fact-checking

Consultant SEO Marseille

Knowledge-Enhanced Language Model Pre-training (KELM) c’est quoi ? L’IA et le fact-checking

Google KLEM

Dans les dernières annonces sur l’intelligence artificielle, google a parlé de MUM l’intelligence artificielle qui est capable de lancer plusieurs requêtes en parallèle dans des réseaux de neurones spécialisé. De l’autre côté on peut rester sceptique sur les résultats qui sont restitués, si ces mêmes base de données des réseaux de neurones ont des données qui ne sont pas fiable. Les BERT, GPT-3 etc, sont des NLP (natural Language processing) qui sont pré-entrainé. Il fallait donc un outil qui puisse gérer les Knowledge Graph pou qu’ils soient structuré mais donc le contenu peut être fact checké. J’avais loupé un article sur REALM, j’en parlerais dans un autre article.

Comment google va fiabiliser ses NLP grâce à KLEM

Les grands modèles pré-entraînés de traitement du langage naturel (NLP), tels que BERT, RoBERTa, GPT-3, T5 et REALM, s’appuient sur des corpus de langage naturel dérivés du Web et affinés sur des données spécifiques à la tâche, et ont permis des avancées significatives dans diverses tâches NLP. Cependant, les textes en langage naturel représentent à eux seuls une couverture limitée des connaissances, et les faits peuvent être contenus dans des phrases verbeuses de différentes manières. De plus, l’existence d’informations non factuelles et de contenus toxiques dans le texte peut éventuellement provoquer des biais dans les modèles résultants.

Les graphes de connaissances (KG), qui consistent en des données structurées, constituent une autre source d’information. Les KG sont factuels par nature, car les informations sont généralement extraites de sources plus fiables, et des filtres de post-traitement et des éditeurs humains garantissent la suppression des contenus inappropriés et incorrects. Par conséquent, les modèles qui peuvent les intégrer présentent les avantages d’une meilleure exactitude factuelle et d’une toxicité réduite. Cependant, leur format structurel différent rend difficile leur intégration aux corpus de pré-formation existants dans les modèles de langage.

Dans « Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training » (KELM), accepté à NAACL 2021, nous explorons la conversion des KG en phrases synthétiques en langage naturel pour augmenter les corpus de pré-entraînement existants, permettant leur intégration dans le pré-entraînement des modèles de langage sans changement d’architecture. À cette fin, nous exploitons le KG Wikidata anglais disponible publiquement et le convertissons en texte en langage naturel afin de créer un corpus synthétique. Nous augmentons ensuite REALM, un modèle de langage basé sur la recherche, avec le corpus synthétique comme méthode d’intégration des corpus de langage naturel et des KG dans le pré-entraînement. Nous avons rendu ce corpus public pour la communauté de recherche au sens large.

Conversion des Knowledge graph texte en langage naturel


Les KG consistent en des informations factuelles représentées explicitement dans un format structuré, généralement sous la forme de triplets [entité sujet, relation, entité objet], par exemple [livres de photos 10×10, début, 2012]. Un groupe de triplets liés est appelé un sous-graphe d’entités. Un exemple de sous-graphe d’entités qui s’appuie sur l’exemple précédent de triplet est {[10×10 photobooks, instance de, Organisation à but non lucratif], [10×10 photobooks, création, 2012] }, illustré dans la figure ci-dessous. Un KG peut être vu comme des sous-graphes d’entités interconnectées.

La conversion des sous-graphes en texte en langage naturel est une tâche standard du traitement automatique des langues, connue sous le nom de génération de données en texte. Bien que des progrès significatifs aient été réalisés en matière de génération de données en texte sur des ensembles de données de référence tels que WebNLG, la conversion d’un KG entier en texte naturel présente des défis supplémentaires. Les entités et les relations dans les grands KG sont plus vastes et plus diverses que dans les petits ensembles de données de référence. De plus, les ensembles de données de référence sont constitués de sous-graphes prédéfinis qui peuvent former des phrases fluides et significatives. Avec un KG entier, une telle segmentation en sous-graphes d’entités doit également être créée.

Un exemple de la façon dont le pipeline convertit un sous-graphe d’entités (dans les bulles) en phrases naturelles synthétiques (à l’extrême droite).
Afin de convertir les KG de Wikidata en phrases naturelles synthétiques, nous avons développé un pipeline de verbalisation nommé « Text from KG Generator » (TEKGEN), qui est composé des éléments suivants : un grand corpus d’entraînement de texte Wikipedia aligné heuristiquement et de triplets KG de Wikidata, un générateur de texte à texte (T5) pour convertir les triplets KG en texte, un créateur de sous-graphes d’entités pour générer des groupes de triplets à verbaliser ensemble, et enfin, un filtre de post-traitement pour éliminer les sorties de mauvaise qualité. Le résultat est un corpus contenant l’intégralité du KG de Wikidata sous forme de texte naturel, que nous appelons le corpus Knowledge-Enhanced Language Model (KELM). Il se compose de ~18M de phrases couvrant ~45M de triplets et ~1500 relations.

Conversion d’un KG en langage naturel, qui est ensuite utilisé pour l’augmentation du modèle de langage.
Intégration du graphe de connaissances et du texte naturel pour le pré-entraînement du modèle de langage
Notre évaluation montre que la verbalisation du KG est une méthode efficace pour intégrer les KG au texte en langage naturel. Nous le démontrons en augmentant le corpus de recherche du REALM, qui ne comprend que du texte Wikipedia.

Pour évaluer l’efficacité de la verbalisation, nous augmentons le corpus de récupération REALM avec le corpus KELM (c’est-à-dire les « triples verbalisés ») et nous comparons ses performances à celles de l’augmentation avec des triples concaténés sans verbalisation. Nous mesurons la précision de chaque technique d’augmentation des données sur deux ensembles de données populaires de réponse à des questions dans un domaine ouvert : Natural Questions et Web Questions.

L’augmentation du REALM, même avec les triplets concaténés, améliore la précision, en ajoutant potentiellement des informations qui ne sont pas exprimées explicitement ou pas du tout dans le texte. Cependant, l’augmentation avec des triplets verbalisés permet une intégration plus douce du KG avec le corpus de texte en langage naturel, comme le démontre la plus grande précision. Nous avons également observé la même tendance sur une sonde de connaissance appelée LAMA qui interroge le KG.