Visual Question Answering

Consultant SEO Marseille

Visual Question Answering

Visual question answering

Vous connaissez déjà les People Also Asked, mais connaissez vous le Visual Question Answering ?

Je vous ai parlé de google MuM et de LaMDA l’agent conversationnel de google lors du seocamp Aix-en-provence. Dans la démo de MuM, google nous dit qu’il sera possible de poser des question à propos d’une image. Mais ils n’expliquaient pas comment ils allaient le faire.

Aujourd’hui, nous avons google Lens d’installé sur nos smartphones, voilà l’autre étape, le Visual Question Answering ! Comment à partir d’une image google va pouvoir donner des réponses contenus dans l’image.

Voilà ce que j’en ai compris, l’avenir nous le dira mieux, mais cela va pouvoir générer automatiquement des meta description de meilleur qualité. Google va pouvoir répondre à des questions au delà d’un oui ou un non et argumenter.

Leur approche est capable de générer automatiquement des données VQA de haute qualité, qui peuvent ensuite être utilisées pour entraîner des modèles VQA. Les données générées sont compétitives par rapport aux données VQA cibles annotées manuellement.

Qu’est-ce que le Visual Question Answering VQA ?

VQA est une tâche dans laquelle on donne à un modèle une image et une question en langage naturel sur l’image, et on lui demande de générer une réponse correcte à la question.

Comment utiliser VQA ?

VQA peut être utilisé pour une variété de tâches, telles que la classification d’images, la détection d’objets et le sous-titrage d’images.

Quels sont les avantages de l’utilisation de VQA ?

Les avantages de l’utilisation de VQA incluent la capacité de générer automatiquement des données de haute qualité à l’échelle et le fait que les données générées sont compétitives par rapport aux données cibles annotées manuellement.

Quelle est mon analyse par rapport à l’impact que cela pourrait avoir dans les SERP ?

Google pourrait à partir d’une image donner une réponse à une question et renvoyer les utilisateurs vers des ressources documentaires qualifiées, avant de mettre en avant d’autres contenus plus textuels, site, etc…

Google pourra lui même générer des questions et donner les images comme réponse, ce qui pourra impacter les recherches naturelles qui pourraient se retrouver encore plus bas en nombre de scroll d’écran.

Voici la traduction technique de VQA via Deepl…

La réponse à des questions visuelles (VQA) est une tâche utile d’apprentissage machine (ML) qui exige qu’un modèle réponde à une question visuelle sur une image. Ce qui rend cette tâche difficile, c’est sa nature multitâche et ouverte ; elle implique la résolution simultanée de plusieurs questions de recherche technique en vision par ordinateur et en compréhension du langage naturel. Pourtant, des progrès dans cette tâche permettraient un large éventail d’applications, allant de l’assistance aux aveugles et aux malvoyants ou de la communication avec les robots à l’amélioration de l’expérience visuelle de l’utilisateur avec des connaissances externes.

Les systèmes d’AQV efficaces et robustes ne peuvent exister sans des données d’entraînement à grande échelle de haute qualité, sémantiquement et stylistiquement diversifiées, constituées de triplets image/question/réponse. Mais la création de telles données est longue et coûteuse. Il n’est donc pas surprenant que la communauté VQA se soit concentrée sur le développement de modèles sophistiqués plutôt que sur la création de données à grande échelle.

Dans « All You May Need for VQA are Image Captions », publié à NAACL 2022, nous explorons la génération de données VQA en proposant « Visual Question Generation with Question Answering Validation » (VQ2A), un pipeline qui fonctionne en réécrivant une légende déclarative en plusieurs paires question-réponse. Plus précisément, nous nous appuyons sur deux atouts existants – (i) des données image-texte à grande échelle et (ii) des modèles neuronaux texte-texte à grande capacité – pour réaliser la génération automatique de données VQA. Au fur et à mesure que le domaine a progressé, la communauté des chercheurs a élargi et renforcé ces atouts de manière isolée (à des fins générales telles que l’apprentissage de représentations de texte seul ou d’image-texte) ; ensemble, ils peuvent accomplir davantage et nous les adaptons à des fins de création de données VQA. Nous constatons que notre approche peut générer des paires question-réponse avec une grande précision et que ces données peuvent être utilisées avec succès pour l’entraînement de modèles VQA afin d’améliorer les performances.

La technique VQ2A permet de générer des données VQA à l’échelle à partir de légendes d’images en réécrivant chaque légende en plusieurs paires question-réponse.

Caption : 2 two bears are laying down on the ice.

VQ2 A : Visual Question génération avec Question Answering Validation

Questions générées et réponses par VQA :

How many bears are laying on the ice ? « Two »

What are the two animals laying on the ice ? « bears »

What are the bears doing ? « Laying down »

Two bears are laying down on what ? « ice »

Where are the bears laying ? « on the ice »

Are the bears on the ice ? « yes »

Aperçu de VQ2A

La première étape de l’approche VQ2A consiste à appliquer une heuristique basée sur la reconnaissance des entités nommées, le marquage des parties du discours et des règles définies manuellement pour générer des réponses candidates à partir de la légende de l’image. Ces candidats générés sont de petits éléments d’information qui peuvent être des sujets pertinents sur lesquels poser des questions. Nous ajoutons également à cette liste deux réponses par défaut, « oui » et « non », qui nous permettent de générer des questions booléennes.

Ensuite, nous utilisons un modèle T5 qui a été affiné pour générer des questions pour le candidat, ce qui donne des paires [question, réponse du candidat]. Nous filtrons ensuite les paires de meilleure qualité à l’aide d’un autre modèle T5 (ajusté pour répondre aux questions) en lui demandant de répondre à la question sur la base de la légende. En d’autres termes, nous comparons la réponse du candidat à la sortie de ce modèle et si les deux réponses sont suffisamment similaires, nous définissons cette question comme étant de haute qualité et la conservons. Sinon, nous la filtrons.

L’idée d’utiliser les modèles de réponse aux questions et de génération de questions pour vérifier mutuellement leur cohérence aller-retour a déjà été explorée dans d’autres contextes. Par exemple, Q2 utilise cette idée pour évaluer la cohérence factuelle dans les dialogues fondés sur la connaissance. En fin de compte, l’approche VQ2A, comme illustré ci-dessous, peut générer un grand nombre de triplets [image, question, réponse] de qualité suffisante pour être utilisés comme données d’entraînement VQA.

VQ2A se compose de trois étapes principales : (i) l’extraction de réponses candidates, (ii) la génération de questions, (iii) la réponse aux questions et la validation des réponses.

Résultats

Deux exemples de nos données VQA générées sont présentés ci-dessous, l’un basé sur des légendes COCO écrites par des humains (COCO) et l’autre sur des légendes conceptuelles collectées automatiquement (CC3M), que nous appelons respectivement VQ2A-COCO et VQ2A-CC3M. Nous soulignons la variété des types et des styles de questions, qui sont essentiels pour VQA. Dans l’ensemble, plus les légendes sont propres (c’est-à-dire plus elles sont proches de l’image à laquelle elles sont associées), plus les triplets générés sont précis. Sur la base de 800 échantillons chacun, 87,3 % des VQ2A-COCO et 66,0 % des VQ2A-CC3M sont jugés valides par les évaluateurs humains, ce qui suggère que notre approche peut générer des paires question-réponse avec une grande précision.

Enfin, nous évaluons nos données générées en les utilisant pour entraîner des modèles d’AQV (voir ci-dessous). Nous observons que nos données VQA générées automatiquement sont compétitives par rapport aux données VQA cibles annotées manuellement. Tout d’abord, nos modèles VQA atteignent des performances élevées sur les repères cibles « prêts à l’emploi », lorsqu’ils sont entraînés uniquement sur nos données générées (bleu clair et rouge clair contre jaune). Une fois affinés sur les données cibles, nos modèles d’analyse de la qualité de la vie surpassent légèrement la formation sur les données cibles uniquement pour les tests à grande échelle tels que VQAv2 et GQA, mais de manière significative pour le petit test OK-VQA (bleu foncé/rouge contre bleu clair/rouge).

Conclusion
Tout ce dont nous avons peut-être besoin pour VQA, ce sont des légendes d’images ! Ce travail démontre qu’il est possible de générer automatiquement des données VQA de haute qualité à l’échelle, servant d’élément de base essentiel pour VQA et les modèles de vision et de langage en général (par exemple, ALIGN, CoCa). Nous espérons que notre travail inspirera d’autres travaux sur l’AQV centrée sur les données.

Source : Google AI

Laisser un commentaire