Blog Vaniila

PODWORDS

2024-04-24T00:00:00+00:00

Introduction

Dans une note de blog précédente, nous présentions les fondements théoriques de l’embedding de mots. Ici, nous présenterons comment un modeste modèle de ce type peut suffire à construire un outil capable de jouer à une variante du célèbre jeu de société Code Names : Podwords.

Motivation

Le but n’est pas un concours de la plus grosse IA. Au contraire, on cherche ici à voir jusqu'où on peut aller dans la complexité de tâche adressée, avec l'outil le plus minimaliste possible. En somme, faire le maximum avec le minimum. Jouer à une sorte de Code Names, sans jeu de données de parties jouées, sans réseau de neurones complexe, mais avec un simple jeu d’embedding de mots courants.

Modèle d’embedding

Définition

Pour les intéressés, les fondamentaux mathématiques sont consultables dans notre note de blog précédente. Ici, le parti-pris est de présenter très simplement les choses, en se contentant de donner l’intuition. Prenons l’analogie suivante : « L’embedding est aux LLM, ce qu’est la roue à une charrette ». Ceci est loin de donner une définition satisfaisante de l’embedding. Cependant, elle permet de se représenter les choses. Il y a une relation entre l’embedding et les LLM. Il y a une relation entre une roue et une charrette. Ces relations sont similaires. Schématiquement, ces relations sont des vecteurs et ces deux vecteurs sont égaux. Mais comment décrire cette relation ? On peut identifier des composants au vecteur de la relation :
- « est un composant de »
- « a été inventé avant »
- « est plus simple que »
- « a moins de capacité que »

Concevoir que le sens des mots peut être décrit dans un espace sémantique, c’est concevoir qu’il puisse y avoir une représentation vectorielle d’un mot. Définir un modèle d’embedding, c’est choisir les axes qui structurent l’espace sémantique. NB : Le mot décrivant les relations A et B (qui sont égales) n’existe peut-être pas, mais le vecteur en décrivant le sens existe.

Eh bien, choisir un modèle d’embedding, c'est-à-dire un outil qui donne la représentation vectorielle d’un mot, c’est choisir un certain nombre de composants structurant l’espace des mots pour rendre compte de relations entre eux. Évidement, comme on veut aussi pouvoir se représenter des tas d’autres mots, typiquement de l’ordre de 90 000 pour le français, il va falloir plus de dimensions à notre espace. Cependant, l’idée est là, ne pas avoir une dimension par mot (comme c’est le cas pour un encodage one-hot, mais trouver les bonnes composantes pour réduire le nombre de dimensions, tout en rendant compte de manière satisfaisante de l’ensemble des relations existantes entre les mots. La valeur de l’embedding réside dans les relations linéaires entre vecteurs que sous-tend la structuration de l’espace choisi. Passer à cet espace vectoriel structuré permet le calcul de distance, la projection, voire une arithmétique d’addition, de soustraction, voire de moyennation des vecteurs d’embedding, et donc des mots. Ici, on restera simple et on se contentera de calculer la similitude entre deux mots, par le calcul du cosinus de leurs vecteurs d’embedding.

Modèle d’embedding utilisé

Il est naturel que différentes structurations de l’espace des mots soient possibles et donc que différents modèles d’embedding puissent coexister. Ces derniers ont des caractéristiques et des performances variables suivant la tâche adressée. Dans la perspective minimaliste de ce démonstrateur, nous optons pour Word2Vec. Notons que ce n’est pas le modèle qui est utilisé mais le résultat de la modélisation, i.e. une liste de paires : mot et sa représentation vectorielle. Les embeddings utilisés sont fournis par Jean-Philippe Fauconnier, sous la référence frWac_non_lem_no_postag_no_phrase_200_cbow_cut100 (sous licence CC-BY 3.0). Ils sont obtenus par l’approche cbow (cf. la note de blog ou le papier académique pour plus de détails), sur le corpus FrWac corpus. Construit en 2008, il est bâti sur un corpus de 1,6 milliard de mots, à partir du Web en limitant l'exploration au domaine .fr. Les vecteurs sont de dimension 200. Il est important de noter que ces dimensions ne sont pas des concepts explicites comme l’exemple précédent, mais des notions « machines » basées sur des fréquences d’apparitions. Par ailleurs, pour améliorer l’expérience de jeu, certains mots ont été écartés du corpus. Il s’agit de mots trop fréquents, de mots trop méconnus ou encore injurieux (ex: « de », « agélaste », …).

💡 Faites des Schtroumpfs !
On pourrait envisager de permettre aux joueurs d’utiliser différents modèles d’embedding et ainsi explorer lesquels leur semblent les plus adaptés pour formuler des propositions lors d’une partie de Podwords. Est-ce que des modèles plus sophistiqués, qui travaillent à l’échelle d’une phrase pour rendre compte du contexte d’un mot, sont plus efficaces que ce bon vieux Word2Vec ? Pourquoi ne pas essayer des modèles comme le dernier modèle d’embedding d’Open AI utilisé pour ChatGPT ? Et ne pourrait-on voir émerger une ébauche de « persona » en comparant des modèles entrainés sur des corpus différents ? Par exemple, un corpus de texte issu de Wikipedia donnerait-il des indices « de schtroumpf à lunettes » ? En comparaison, que donnerait un modèle d’embedding bâti sur un corpus de tweets, une « schtroumpf grognon » ?

Générer des indices

C’est entendu, l’idée ici sera de créer un programme capable de proposer des mots indices dans une partie de Podwords, en partant uniquement d’un set de vecteurs d’embedding pour les mots les plus fréquents de la langue française. Voyons comment faire cela simplement. On passera sur certaines fonctionnalités simples du moteur de jeu, comme déterminer lorsqu'une partie est gagnée ou perdue par exemple, pour se concentrer sur la tâche qui nous intéresse ici : comment, à partir de l’information sur l’état du jeu, formuler une proposition d’indice ? Une proposition d’indice se compose de deux éléments :
- un mot indice - qui ne doit pas être de la même famille qu’un des mots encore non désigné sur la grille
- un nombre de mots ciblés - qui est une indication au joueur sur le nombre de mots ciblés qu’il devrait pouvoir pointer avec ce mot indice
On peut décomposer le processus de génération en deux étapes.

Interface du démonstrateur Podwords. Ici le programme donne comme mot indice Foot, et comme nombre de mots ciblés 2.

On dispose à ce stade de l’état de la grille. On peut alors écarter les mots déjà pointés par l’utilisateur, qui ne sont plus « actifs ». A noter, pour les autres mots, le programme « sait » s’ils sont à faire deviner, neutres ou tabous. En résumé, les étapes sont les suivantes (on va détailler cela ci-dessous) :
1) créer la liste de tous les groupes de mots cibles possibles
2) pour chaque groupe
2.1) obtenir une liste de n mots indices candidats
2.2) affiner le calcul du score des mots indices candidats, pour selectionner le meilleur
3) pour chaque taille de groupe, déterminer la meilleure proposition (paire indice:groupe_mots_cibles)
4) sélectionner parmis les propositions ayant une score de facilité suffisant, la proposition du plus grand groupe de mots cibles.

Étape 1 : elle consiste à lister l’ensemble des combinaisons possibles de groupes de mots à faire deviner (sans répétition, ni ordre). On considère ainsi tous les groupes possibles de 1 mot parmi les n, de 2 mots, etc. jusqu’au seul groupe possible de n mots.

Établissement de la liste de tous les groupes possibles de mots cibles (nombre de groupes de 1 mot C 4:1 = 4 en jaune, nombre de groupes de 2 mots C 4:2 = 6 en rose, …)

Étape 2.1 : elle fournit, pour chaque groupe, une liste de n mots indices candidats. Ces mots sont ceux qui sont à la fois le plus proche possible des mots cible et le plus loin des mots tabous (oui, à ce stade, on ignore les mots neutres). Pour ce faire, le barycentre de l’ensemble des vecteurs d’embedding des mots est calculé, avec une pondération positive pour les mots cibles et une pondération négative pour les mots tabous. Les n mots indices candidats les plus proches de ce barycentre sont alors retournés. Cette approximation peut potentiellement dégrader la qualité des indices générés. Mais elle vise à restreindre le nombre de mots indices candidats qui seront passés à l’étape suivante. Sans considération pour le coup de calcul, on pourrait ignorer cette étape et passer l’ensemble des mots du corpus à l’étape suivante.
En outre, à cette étape, on détermine pour chacun des n mots indices candidats s’il est valide. Il est invalide s’il est de la même famille lexicale qu’un des mots de la grille non encore découverts. Pour cacher la poussière sous le tapis, on prétendra ici qu’il s’agit d’une trivialité. Même si en réalité, la solution déployée a des ratés, elle laisse passer des indices invalides.

Étape 2.2 : elle consiste à affiner le calcul pour chacun des n mots retournés par la précédente étape, pour déterminer le mot indice le plus adapté pour chaque groupe de mots cibles. Ainsi, pour chaque groupe de mots cibles, et pour chacun de ses mots indices candidat, on :
- mesure la proximité maximale entre le mot indice et chacun des mots tabous d’une part ainsi que chacun des mots neutres d’autre part. On cherche ici à mesurer « le pire cas », c’est pourquoi on retient la similarité la plus forte (i.e. la distance la plus faible) pour chacune des deux catégories.
- fait la somme pondérée des deux proximités obtenues, avec un poids pour les mots tabous cinq fois supérieur à celui des mots neutres. En effet, il est plus gênant d’être proche d’un mot tabou, qui entraîne instantanément la fin de partie, que d’un mot neutre qui ne fait que terminer le tour.
- mesure la proximité la plus faible entre le mot indice et chacun des mots cibles. Là encore, on recherche le cas le plus défavorable.
- calcule le ratio entre deux quantités, la proximité minimale vis-à-vis d’un mot cible, sur la proximité maximale d’un mot non ciblé (cf. la somme précédente).
- normalise le ratio pour passer d’une valeur définie entre [-1, 1], vers un score défini sur l’intervalle [0, 1].
Ce score représente la « facilité », plus ce score est élevé, plus le mot indice permet à l’utilisateur de trouver facilement les mots cibles du groupe.

Pour chaque groupe de mot, les mots indices candidats sont inspectés pour sélectionner le meilleur en considérant le “pire scénario”. C'est-à-dire celui qui est à la fois (i) la plus petite distance maximale à un mot cible, et (ii) la plus grande distance minimale aux mots neutres et tabous (pondérés plus fortement).

Étape 3 : pour chaque taille de groupe (1 mot, 2 mots…), on ne garde alors que la proposition ayant le score de facilité le plus élevé. Soit deux groupes A et B de même taille n. Si le score de facilité de A est supérieur au score de B, alors pour la taille de groupe n, c’est la proposition A (et son mot indice correspondant) qui sera retenue.

Étape 4 : à l’issue de l’étape précédente, on dispose donc d’une liste de groupes de mots cibles, un par taille, et pour chacun le meilleur mot indice, avec son score de facilité. Toujours dans une approche minimaliste, deux conditions complémentaires sont utilisées. La proposition retenue sera celle ayant le plus grand score de facilité, sauf si des propositions ont un score supérieur à un certain seuil, auquel cas c’est la proposition correspondant au plus grand groupe de mots cibles qui sera sélectionnée. En effet, parvenir à faire deviner en un tour 3 mots cibles a plus de valeur que de faire deviner 1 mot cible.
Avec cette mécanique simple, le programme parvient globalement à formuler des propositions cohérentes pour un utilisateur humain. Les performances n’ont pas été mesurées en conditions rigoureuses. Nos expérimentations informelles semblent toutefois indiquer que la machine permet un taux de victoire de l’utilisateur analogue à celui obtenu lorsque c’est un humain relativement débutant à ce jeu qui génère des indices.

💡 Ajoutez une boite de vitesse !
On pourrait envisager d’ajouter un peu de complexité dans le programme, en échange d’un gain notable de qualité des propositions. Pour ce faire, pourquoi ne pas affiner le mécanisme de sélection finale des propositions ? On pourrait ainsi sophistiquer la fonction de scoring en ajoutant quelques paramètres. Premièrement, il conviendrait de rendre comparables les propositions correspondant à des tailles de groupe différentes. Il s’agit ici de considérer le gain (espéré) associé à la proposition candidate pour chaque taille de groupe. La composition du score de facilité et du gain permet de déterminer un score global qui soit comparable entre toutes les propositions candidates, quelle que soit la taille du groupe de mots cibles. On sélectionnerait alors simplement la proposition ayant le score global le plus élevé. Une seconde amélioration serait de prendre en compte l’avancement de la partie, et plus uniquement l’état de la grille. En effet, s’il ne reste plus qu’un tour mais trois mots cibles, il faudra idéalement accepter de prendre un peu plus de risques pour pouvoir gagner. De même, le gain devrait prendre en compte le nombre de mots restant, pour devenir un gain relatif. Faire deviner 2 mots lorsqu’il en reste 5 n’a pas la même valeur relative que lorsqu'il n’en reste plus que 2.

Comprendre les propositions de l’algorithme

Que ce soit avec un humain ou une machine, lorsqu'on joue à Code Names, une question revient régulièrement « mais pourquoi ce choix d’indice ? ». Dans le cas présent, le mécanisme de génération des indices en lui-même est simple. Ce qui est difficile est l’appréhension de la représentation des mots que se fait la machine. Ici les notions d’explicabilité et d’interprétabilité se chevauchent. Pour rendre plus compréhensible une proposition, il faudrait donc pouvoir représenter l’espace des vecteurs d’embedding qu’utilise la machine, soit un espace à 200 dimensions. Quand on voit la tête d’un carré lorsqu'il passe en dimension 4, on pressent que cela ne peut pas se faire directement. Du moins si l’on vise à rendre les choses plus explicites pour un esprit humain. Il faut trouver un moyen de synthétiser l’information pour qu’elle soit accessible à un esprit qui se contente de caboter en 3 voire 4 dimensions. Deux fonctionnalités ont été développées pour ce faire. Notons que ces outils sont cohérents avec la démarche d’exploration de l’embedding. Mais ces fonctionnalités sont orthogonales à l’aspect ludique de Podwords. En cherchant « à comprendre la machine » quand elle joue à nous faire deviner, on accède à des informations qui doivent être ignorées pour qu’il y ait jeu, comme la catégorie cachée de chaque mot sur la grille.

Matrice de distance

La vue « Matrice » affiche la distance pour chacune des paires de mots que l'on peut constituer (avec les mots non révélés de la grille plus l'indice). Chaque ligne et chaque colonne représentent un mot. L'intersection des deux lignes donne la distance entre les deux mots. La coloration bleue à noire indique une distance faible, tandis que l'orange indique une distance élevée. En somme, cette représentation compresse l’information issue de l’espace d’embedding pour ne garder qu’une valeur, un score (tiré du calcul de similarité entre les vecteurs par le calcul du cosinus), sans dimension, facilement assimilable par l’esprit humain.

La matrice des distances permet de figurer pour chaque mot (en ligne ou en colonne) la distance perçue par la machine pour chaque autre mot de la grille (ainsi qu’avec l’indice en cours en violet). Ici la ligne « Menu » donne les distances de ce mot avec tous les autres, idem pour la colonne « Carte ». Les carrés noirs indiquent que dans l’espace d’embedding utilisé, « Foot » est très proche de « Club », et « Table » de « Ronde » (si ces derniers étaient des mots cibles « Graal » pourrait être un bon indice, mais pas si l’un des deux mots est neutre ou pire, tabou).

De plus, l'ordre des mots sur chaque axe est arrangé de manière à mieux faire ressortir les zones de paires ayant une forte ou une faible distance. Pour ce faire, on détermine l’ordre des mots par un algorithme d’optimisation de l'ordonnancement linéaire des feuilles des arbres générés par le regroupement hiérarchique (en somme, on cherche à optimiser la manière de représenter un dendrogramme).

Les distances entre les mots servent de support à la construction d’un dendrogramme. Les nœuds peuvent être permutés pour améliorer l’ordre d’affichage, de manière à mieux faire ressortir des zones thématiques dans l’axe. Ici en rouge, l’exemple d’un nœud permuté, modifiant l’ordre d’affichage des feuilles (1, 2, 3, 4, 5 ⇒ 1, 2, 4, 5, 3). Source Bar-Joseph et al.

Graphe du réseau de mots

Là encore, l’idée centrale est de proposer une représentation simplifiée des mots de la grille dans l’espace d’embedding. La vue « Réseau » affiche l'indice et l'ensemble des mots non révélés de la grille par une représentation en 2D des relations entre eux. A noter, il ne s’agit pas à proprement parler d’une projection de l’espace 200D de l'embedding vers un espace 2D. Ici un plus grand degré de liberté est pris pour réaliser le dessin. L’assignation des positions des nœuds et arrêtes sont est rapport avec la position dans l’espace d’embedding, comme pour la matrice. Seule l’information de « similitude » entre paires de mots est exploitée. Un seuil de distance est choisi, de manière à garantir la connexité du graphe (c'est-à-dire qu'il n'y ait pas de groupes de mots détachés du reste). Toutes les paires de mots plus proches entre elles que ce seuil, sont reliées par des arêtes. Cette représentation est réalisée avec Sigma JS et plus précisément l’algorithme ForceAtlas2. Lorsque deux mots sont considérés comme proches (seuillage), ils sont reliés par un trait (mais ne sont pas forcément affichés à côté l'un de l'autre). Ainsi, certains mots peuvent n'être reliés qu'à peu d'autres mots, tandis que certains autres mots sont liés à beaucoup d'autres mots. La valeur numérique affichée est la distance entre les mots. Afin de permettre à l’utilisateur d’explorer cette représentation de l’espace, la vue est interactive : on peut zoomer, se déplacer sur les côtés et même cliquer sur un mot pour ne voir que lui ainsi que ses voisins directs. L’utilisateur peut par ailleurs compléter l’affichage par l’ajout d’informations sur la catégorie des mots du graphe.

La projection en 2D de l’espace d’embedding pour les mots de la grille et le mot indice généré. Le graphe représente les distances entre les mots (nœuds) par un trait (arête) lorsque les mots sont suffisamment proches. On peut ainsi voir se dessiner le graphe des relations entre les mots du point de vue de la similarité.

💡 Expliquez nous ça !
On pourrait envisager d’ajouter d’autres outils pour approfondir la compréhension des propositions. On pourrait ainsi implémenter des méthodes d’explicabilité locale comme les approches LIME et SHAP. L’idée est de mesurer l’importance de chaque mot de la grille (considéré comme des features de l’entrée) sur le mot indice généré (sortie) en comparant les indices générés pour différentes variantes de l’état de la grille. Autrement dit, permettre à l’utilisateur de « voir » quels sont les mots de la grille qui « contribuent » le plus à générer ce mot indice. Ou de voir quel aurait été le mot indice si tel(s) mot(s) de la grille étai(en)t absent(s) (voire même en ajoutant des mots). Une alternative plus expérimentale encore pourrait être de demander à un LLM (type chatGPT) de justifier la proposition d’indice. NB : ceci est distinct de demander à un LLM de jouer, même s’il serait intéressant en soit de comparer les indices générés par le présent programme minimaliste et un LLM.

Conclusion

Et voila, nous obtenons ainsi Podwords. Ce démonstrateur réussit à montrer qu’avec un mécanisme relativement simple, on peut aller assez loin dans une apparence « d’intelligence ». Ici un simple jeu de vecteurs d’embedding pour des mots courants parvient à adresser une tâche considérée comme difficile par les humains, fournir des indices à Code Names. De plus, ses fonctionnalités annexes d’explicabilité permettent à l’utilisateur d’explorer, à travers une projection 2D, comment les mots de la grille sont positionnés dans l’espace d’embedding. C'est-à-dire une représentation de l'univers des mots et des relations qu'ils ont entre eux. Ceci détaille le mécanisme sous-jacent de création des indices. Et la dernière gageure est que tout ceci est obtenu au travers d'un objet ludique. Nous espérons que vous aurez autant de plaisir à jouer à Podwords que nous en avons eu à le développer. Alors pourquoi s’arrêter en si bon chemin ? Comme indiqué dans les encarts précédents, différentes améliorations pourraient prolonger ces travaux. N’hésitez pas à voter pour nous indiquer quelle suite vous voudriez voir donnée :
- 💡 Faites des Schtroumpfs ! ⇒ Permettre de jouer avec différents modèles d’embedding et voir comment ils sont plus ou moins adaptés à la tâche. Par là même, explorer ce qui pourrait émerger de l’utilisation de modèles d’embedding moins génériques. Peut-on réussir à faire emerger des profils ?
- 💡 Ajoutez une boite de vitesse ! ⇒ Affiner la méthode de sélection de la proposition d’indice retenue, notamment pour permettre de combiner le score de facilité et celui de gain relatif, en tenant compte de l’avancement de la partie. Est-ce qu’ajouter cette petite complexité augmente sensiblement les performances ?
- 💡 Expliquez nous ça ! ⇒ Enrichir l’explicitation des éléments ayant conduit à la formulation d’un indice. Peut-on rendre plus explicite l’importance de chaque mot de la grille sur l’indice généré, y compris celle des mots tabou et neutres ?
Et pourquoi pas, passer un jour à une variante plus coriace, impliquant la multimodalité : Code Names Image !

LA RECONNAISSANCE D’ENTITÉS NOMMÉES (NER)

2024-01-16T00:00:00+00:00

Qu’est-ce que la reconnaissance d’entités nommées ?

La reconnaissance d’entités nommées (souvent abrégée en NER d’après l’anglais Named Entity Recognition) est une tâche de NLP consistant à étiqueter les séquences de mots d’un texte qui sont des noms de choses (personnes, sociétés, lieux, maladies, etc.).
D’un point de vue technique, la tâche de NER peut être considérée comme de la classification où au lieu de classifier au niveau de la phrase entière (pour de l’analyse de sentiment par exemple), l’on classifie au niveau du mot en indiquant à quelle classe appartient le mot traité.

Jeux de données de NER

Le jeu de données le plus connu et faisant référence en NER, est le jeu de données CoNLL-2003 (Conference on Computational Natural Language Learning) de Erik F. Tjong Kim Sang et Fien De Meulderet (2003). Créé pour l’anglais et l’allemand, les autres langues ont généralement adopté son formatage.
Ci-dessous un exemple de lignes de ce jeu de données :

Exemple d’une ligne du jeu de données CoNLL-2003

En ce qui concerne le français, des jeux de données ont été créés suivant la méthodologie de CoNLL-2003. On peut citer :
- WikiNER de Nothman et al. (2013) qui est un jeu de données (pour la partie en français) de 120 682 données d’entraînement et 13 410 de test. Les entités annoncées sont LOC (Localisations), ORG (Organisations), PER (Personnalités) et MISC (Divers) et sont réparties de la façon suivante :

Split	O	PER	LOC	ORG	MISC
train	2 781 968	116 633	140 345	41 547	73 411
test	305 131	13 345	15 220	3 896	8 183

- Wikiann de Rahimi et al. (2019) based on Pan, Xiaoman, et al. (2019) qui est un jeu de données (pour la partie en français) avec 20 000 données d’entraînement, 10 000 de validation et 10 000 de test. Les entités annoncées sont LOC, ORG, PER et MISC et sont réparties de la façon suivante :

Split	O	PER	LOC	ORG
train	65 292	21 992	21 273	28 231
validation	32 167	10 826	10 826	14 401
test	32 612	11 027	10 844	14 271

- MultiNERD de Tedeschi et Navigli (2022) qui est un jeu de données (pour la partie en français) de 140 880 données d’entraînement, de 17 610 de validation et de 17 695 de test. Les entités annoncées sont PER, LOC, ORG, ANIM, BIO, CEL, DIS, EVE, FOOD, INST, MEDIA, PLANT, MYTH, TIME, VEHI et sont réparties de la façon suivante :

Split	O	PER	LOC	ORG	ANIM	BIO	CEL	DIS	EVE	FOOD	INST	MEDIA	MYTH	PLANT	TIME	VEHI
train	2 979 567	151 201	218 858	109 429	12 800	21	3 031	4 107	20 523	3 282	992	19 943	1 591	4 543	23 555	1 129
validation	402 643	17 599	14 151	3 498	766	0	392	698	2 009	795	157	1 444	541	832	6 456	156
test	406 146	18 591	14 124	3 685	844	6	390	709	2 137	776	174	1 615	453	654	4 872	96

- MultiCoNER v2 de Fetahu et al. (2023) qui est un jeu de données (pour la partie en français) de 120 682 données d’entraînement et 13 410 de test. Les entités annoncées sont Location (incluant Facility, OtherLOC, HumanSettlement, Station), Creative Work (incluant VisualWork, MusicalWork, WrittenWork, ArtWork, Software), Group (incluant MusicalGRP, PublicCORP, PrivateCORP, AerospaceManufacturer, SportsGRP, CarManufacturer, ORG), Person (incluant Scientist, Artist, Athlete, Politician, Cleric, SportsManager, OtherPER), Product (incluant Clothing, Vehicle, Food, Drink, OtherPROD), Medical (incluant Medication/Vaccine, MedicalProcedure, AnatomicalStructure, Symptom, Disease) et sont réparties de la façon suivante :

Split	O	OtherPER	Artist	WrittenWork	VisualWork	Politician	HumanSettlement	ArtWork	Athlete	Facility	MusicalWork	MusicalGRP	ORG	Scientist	Cleric	PrivateCorp	SportsManager	OtherPROD	Software	PublicCorp	Disease	OtherLOC	Vehicle	AnatomicalStructure	Station	SportsGRP	Drink	Food	CarManufacturer	Symptom	Medication / Vaccine	Clothing	AerospaceManufacturer	MedicalProcedure
train	196 008	3 748	7 268	4 536	3 588	2 456	5 864	408	2 908	2 240	1 304	1 242	2 670	630	930	390	650	1 504	1 040	800	564	588	824	556	754	1 482	466	672	488	410	506	426	418	424
validation	10 430	202	378	234	176	134	310	26	144	108	54	60	146	38	40	22	30	90	46	44	32	26	40	30	40	70	22	26	26	20	24	22	22	22

- Pii-masking-200k de la société ai4Privacy (2023) qui est un jeu de données (pour la partie en français) de 61 958 données d’entraînement. Les entités annoncées sont Prefix, Firstname, Lastname, Date, Time, Phoneimei, Username, Email, State, Jobarea, Url, City, Currency, Accountname, Creditcardnumber, Creditcardcvv, Phonenumber, Creditcardissuer, Currencysymbol, Amount, Sex, Useragent, Jobtitle, Ipv4, Ipv6, Jobtype, Companyname, Gender, Street, Secondaryaddress, County, Age, Accountnumber, IP, Ethereumaddress, Bitcoinaddress, Middlename, IBAN, Vehiclevrm, Dob, Pin, Password, Currencyname, Litecoinaddress, Currencycode, Buildingnumber, Ordinaldirection, Maskednumber, Zipcode, BIC, Nearbygpscoordinate, MAC, Vehiclevin, Eyecolor, Height et SSN, et sont réparties de la façon suivante :

Split	Prefix	Firstname	Lastname	Date	Time	Phoneimei	Username	Email	State	Jobarea	Url	City	Currency	Accountname	Creditcardnumber	Creditcardcvv	Phonenumber	Creditcardissuer	Currencysymbol	Amount	Sex	Useragent	Jobtitle	Ipv4	Ipv6	Jobtype	Companyname	Gender	Street	Secondaryaddress	County	Age	Accountnumber	IP	Ethereumaddress	Bitcoinaddress	Middlename	IBAN	Vehiclevrm	Dob	Pin	Password	Currencyname	Litecoinaddress	Currencycode	Buildingnumber	Ordinaldirection	Maskednumber	Zipcode	BIC	Nearbygpscoordinate	MAC	Vehiclevin	Eyecolor	Height	SSN
train	3 980	20 081	6 114	5 832	3 587	2 924	3 502	5 201	3 659	3 550	3 462	3 406	2 318	3 566	3 882	1 219	3 366	2 017	3 874	3 684	4 042	3 207	3 534	3 489	3 426	3 971	3 571	3 876	3 753	3 696	3 740	3 924	3 491	2 971	2 151	3 412	3 718	3 006	1 145	4 098	999	3 807	1 078	1 113	1 093	3 887	1 920	3 304	3 728	1 040	2 908	1 597	1 013	1 528	1 472	3 334

Il s’agit ici des principaux jeux de données « propres », au sens qu’ils sont utilisables facilement car disponibles sur le Hub de Hugging Face. Nous verrons cependant dans la section suivante que la qualité des données de certains jeux de données cités à l’instant est questionnable et a donc nécessité un nettoyage avant de pouvoir les utiliser pour entraîner un modèle.

Il convient de noter qu’il existe d’autres jeux de données de NER en français. Cependant, ceux-ci sont soit de moindre qualité, nécessitent alors un prétraitement très lourd pour être exploitables, soit trop spécialisés. On peut par exemple citer les jeux de données suivants :
- Annotation référentielle du Corpus Arboré de Paris 7 en entités nommées (Referential named entity annotation of the Paris 7 French TreeBank) [in French] de Sagot et al. (2012) qui est utilisé dans la littérature scientifique comme benchmark du CamemBERT ou du FlauBERT par exemple mais qui n’est pas accessible librement.
- QUAERO de Névéol et al. (2014) qui est un jeu de données spécialisé dans le domaine médical.
- POLYGLOT-NER d’Al-Rfou et al. (2014) est un jeu de données issu de Wikipedia mais présentant d’importants doutes sur la qualité de l’annotation.
- Europeana Newspapers de Neudecker (2016) qui est un jeu de données obtenu par OCR de vieux journaux de la BnF.
- HIPE-2022 de Faggioli et al. (2022) qui regroupe quatre jeux de données (ajmc de Romanello et al. (2020), hipe2020 d’Ehrmann et al. (2020), letemps d’Ehrmann et al. (2016), newseye d’Hamdi et al. (2021)) obtenus par OCR de vieux journaux (fin XIX - début XXème).
- DAWT de Spasojevic et al. (2017) n’est plus disponible en ligne suite au rachat de l’entreprise ayant créé ce jeu de données.

Dans le cadre de nos expérimentations, nous avons décidé de travailler avec deux configurations.
La première consiste à prendre en compte les entités LOC (Localisations), ORG (Organisations) et PER (Personnalités) permettant ainsi de travailler sur la concaténation des jeux MultiCONER, MultiNERD, Pii-masking-200k, Wikiann et WikiNER. C’est-à-dire que dans ce cas-ci, pour les jeux de données gérant d’autres entités que les trois considérées, nous réannotons ces entités supplémentaires à O (Other).
La seconde consiste à prendre en compte les entités LOC (Localisations), ORG (Organisations), PER (Personnalités) et MISC (Divers) permettant ainsi de travailler sur la concaténation des jeux MultiCONER, MultiNERD, Pii-masking-200k et WikiNER. C’est-à-dire que dans ce cas-ci, nous excluons Wikiann qui ne possède pas d’entités MISC et pour les jeux de données possédant des entités autres que LOC, ORG et PER mais pas explicitement MISC, nous réannotons ces entités supplémentaires en MISC.

Fuites de données et duplication

En nous intéressant à la qualité des jeux de données listés, nous avons pu constater qu’individuellement ils contenaient des fuites de données entre les échantillons d’entraînement et de test, ainsi que des données dupliquées.
A noter également qu’à l’issue du nettoyage individuel, un nettoyage supplémentaire doit être effectué. En effet, une donnée présente dans l’échantillon d’entraînement d’un jeu de données A et donc non présente dans l’échantillon de test de A, peut être présente dans l’échantillon de test de B, ce qui crée une fuite lors de la création du jeu de données A+B.

A titre d’information, les statistiques concernant le nombre de fuites et de duplications pour les cinq jeux de données de NER que nous avons retenus dans le cadre de nos expérimentations sont les suivantes :
- MultiCONER :
• Fuites entre l'échantillon d'entraînement et l'échantillon de test : 13 lignes soit 0,083 %
• Fuites entre l'échantillon de validation et l'échantillon de test : 0 lignes soit 0 %
• Lignes dupliquées dans l'échantillon d'entraînement : 170 lignes soit 1,081 %
• Lignes dupliquées dans l'échantillon de validation : 1 ligne soit 0,121 %
• Lignes dupliquées dans l'échantillon de test : 2 lignes soit 0,233 %
Ainsi entre les fuites et les duplications, les performances mesurées sur l’échantillon de test sont faussées d’au moins 1,754%.
- MultiNERD :
• Fuites entre l'échantillon d'entraînement et l'échantillon de test : 69 lignes soit 0,049 %
• Fuites entre l'échantillon de validation et l'échantillon de test : 20 lignes soit 0,114 %
• Lignes dupliquées dans l'échantillon d'entraînement : 2 600 lignes soit 1,846 %
• Lignes dupliquées dans l'échantillon de validation : 201 lignes soit 1,141 %
• Lignes dupliquées dans l'échantillon de test : 58 lignes soit 0,328 %
Ainsi entre les fuites et les duplications, les performances mesurées sur l’échantillon de test sont faussées d’au moins 0,833%.
- Pii-masking-200k :
Ce jeu de données ne contient ni fuites ni duplications de données.
- WikiNER :
• Fuites entre l'échantillon d'entraînement et l'échantillon de test : 22 lignes soit 0,019 %
• Fuites entre l'échantillon de validation et l'échantillon de test : 1 lignes soit 0,017 %
• Lignes dupliquées dans l'échantillon d'entraînement : 562 lignes soit 0,49 %
• Lignes dupliquées dans l'échantillon de validation : 5 lignes soit 0,127 %
• Lignes dupliquées dans l'échantillon de test : 17 lignes soit 0,127 %
Ainsi entre les fuites et les duplications, les performances mesurées sur l’échantillon de test sont faussées d’au moins 0,440%.
- Wikiann :
• Fuites entre l'échantillon d'entraînement et l'échantillon de test : 742 lignes soit 3,710 %
• Fuites entre l'échantillon de validation et l'échantillon de test : 473 lignes soit 4,730 %
• Lignes dupliquées dans l'échantillon d'entraînement : 1889 lignes soit 9,445 %
• Lignes dupliquées dans l'échantillon de validation : 700 lignes soit 7,000 %
• Lignes dupliquées dans l'échantillon de test : 644 lignes soit 6,440 %
Ainsi entre les fuites et les duplications, les performances mesurées sur l’échantillon de test sont faussées d’au moins 18,590%.
Nous pouvons constater que plus de 80% des jeux de données considérés contenaient des fuites ou des duplications.

Les statistiques concernant le nombre de fuites et de duplications pour la concaténation des cinq jeux de données de NER que nous avons retenus dans le cadre de nos expérimentations sont les suivantes :
- Configuration à 3 entités (LOC, ORG et PER) :
• Fuites entre l'échantillon d'entraînement et l'échantillon de test : 1071 lignes soit 0,371 %
• Fuites entre l'échantillon de validation et l'échantillon de test : 613 lignes soit 1,799 %
• Lignes dupliquées dans l'échantillon d'entraînement : 1839 lignes soit 0,638 %
• Lignes dupliquées dans l'échantillon de validation : 8 lignes soit 0,023 %
• Lignes dupliquées dans l'échantillon de test : 8 lignes soit 0,019 %
Ainsi entre les fuites et les duplications, les performances mesurées sur l’échantillon de test sont faussées d’au moins 4,015%.

- Configuration à 4 entités (LOC, ORG, PER et MISC) :
• Fuites entre l'échantillon d'entraînement et l'échantillon de test : 1028 lignes soit 0,384 %
• Fuites entre l'échantillon de validation et l'échantillon de test : 134 lignes soit 0,552 %
• Lignes dupliquées dans l'échantillon d'entraînement : 1779 lignes soit 0,664 %
• Lignes dupliquées dans l'échantillon de validation : 1 lignes soit 0,004 %
• Lignes dupliquées dans l'échantillon de test : 1 lignes soit 0,003 %
Ainsi entre les fuites et les duplications, les performances mesurées sur l’échantillon de test sont faussées d’au moins 3,647%.

Les jeux de données de NER nettoyés (sans fuites de données ni duplications) sont disponibles sur Hugging Face : frenchNER_3entities et frenchNER_4entities.

Quel modèle pour résoudre une tâche de NER ?

N’importe quel modèle de transformer est capable de résoudre cette tâche, que ce soit un transformer complet (encodeur et décodeur), un transformer décodeur, ou un transformer encodeur. Seule la façon dont sont fournies les données au modèle diffère entre les différentes approches.
En pratique, les modèles de type encodeur sont les plus utilisés. Du fait qu’ils sont les plus adaptés pour résoudre des tâches de classification, et probablement par habitude. En effet, dans le cas du français, les transformers encodeur ont été disponibles avant les transformers décodeur et les transformers complets.
Soulignons également que le modèle CamemBERT de Martin et al. (2019) semble davantage utilisé que le FlauBERT de He et al. (2019) pour la tâche de NER, sans qu’il n’y ait d’explications sur la raison.

Notons aussi qu’en plus du choix du modèle, la tâche de NER peut s’effectuer au niveau du token ou bien au niveau d’un n-gram de tokens consécutifs. Cette étendue de tokens ayant le nom de span dans la littérature. Une librairie efficace et simple d’utilisation pour effectuer de la NER au niveau d’une span est SpanMarker de Tom Aarsen (2023).

Quelques modèles finetunés sur la tâche de NER sont disponibles en open-source. On peut lister :
- Le modèle Ner-french (un modèle Bi-LSTM) finetuné sur WikiNER au niveau du token par Flair et plus particulièrement Akbik et al. (2018)
- Le modèle Camembert-ner finetuné sur WikiNER au niveau du token par Jean-Baptiste Polle
- Le modèle DistillCamemBERT base finetuné sur WikiNER au niveau du token par le Crédit Mutuel et plus particulièrement par Delestre et Amar (2022)

La limite de ces modèles est qu’aucun d’entre eux n’utilise la totalité des données disponibles à disposition puisqu’ils sont tous les trois entraînés uniquement sur le jeu de données WikiNER. Cela a pour conséquence (cf. la partie évaluation) de spécialiser les modèles sur des données de type Wikipedia et bride alors leur capacité à généraliser sur de nouvelles données. De plus, comme indiqué précédemment, WikiNER possède des fuites de données et des duplications faussant les performances réelles des modèles.
De plus, aucun modèle de NER en français n’est disponible en taille large.

Compte tenu de ces limites, nous avons développé notre propre modèle au CATIE : le NERmembert. Celui-ci utilise l’ensemble des données de qualité à disposition en open-source et a été entraîné en deux configurations (sur 3 entités ou en 4 entités) et sont disponibles pour chacune d’elles en versions base et large. Le tout gratuitement et librement en open-source :
- https://huggingface.co/CATIE-AQ/NERmembert-base-3entities
- https://huggingface.co/CATIE-AQ/NERmembert-large-3entities
- https://huggingface.co/CATIE-AQ/NERmembert-base-4entities
- https://huggingface.co/CATIE-AQ/NERmembert-large-4entities

Métriques et évaluation

Quelles sont les performances des modèles ? Pour cela décrivons d’abord les métriques sur lesquelles sont évalués les modèles de NER.

Métriques

En NER, on donne généralement la précision, le rappel et le score F1 (qui est la moyenne harmonique des deux précédentes métriques) pour chaque entité ainsi qu’au global. L’accuracy peut également être renseignée.

Évaluation

D’un point de vue implémentation, pour calculer les métriques énoncées ci-dessus, le mieux est d’utiliser le package Python evaluate d’Hugging Face.

Cas à 3 entités

Ci-dessous, nous listons les tableaux des résultats des performances des différents modèles considérés dans la configuration à trois entités (PER, LOC, ORG) du jeu de données frenchNER_3entities.
Pour des raisons de place, nous ne présentons que le F1 des différents modèles. Vous pouvez consulter les résultats complets (i.e. toutes les métriques) dans les cartes de modèles disponibles sur Hugging Face.

Modèle	PER	LOC	ORG
Jean-Baptiste/camembert-ner	0,941	0,883	0,658
cmarkea/distilcamembert-base-ner	0,942	0,882	0,647
NERmembert-base-3entities	0,966	0,940	0,876
NERmembert-large-3entities	0,969	0,947	0,890
NERmembert-base-4entities	0,951	0,894	0,671
NERmembert-large-4entities	0,958	0,901	0,685

On peut observer que les modèles NERmembert (quel que soit le nombre d’entités considérés) performent mieux que les autres modèles. Cela s’explique vraisemblablement par le fait qu’ils aient vu trois fois plus de données lors de l’entraînement.
De même, on peut voir que les modèles larges ont de meilleurs résultats que les modèles bases.
Notons que la différence de performance est particulièrement marquée entre les NERmembert 3 entités et les modèles non NERmembert avec des écarts de plus de 20 points sur l’entité ORG par exemple.

Les modèles NERmembert apparaissent comme plus généralistes comparés aux non NERmembert qui ont été entraînés uniquement sur le jeu de données WikiNER et donc spécialisés sur des données de type Wikipedia. Ils obtiennent d’ailleurs de meilleurs résultats que les NERmembert sur ce jeu de données là.
Nous constatons également ceci : alors que cmarkea/distilcamembert-base-ner annonce les meilleurs résultats sur WikiNER, une fois les fuites et duplications du jeu de données supprimées, c'est en réalité Jean-Baptiste/camembert-ner qui donne les meilleurs résultats.
Sachant que WikiNER et Wikiann sont tous deux basés sur Wikipédia, nous nous attendions à ce que ces deux modèles obtiennent de bonnes performances sur Wikiann également. A notre surprise, cela ne s'observe pas dans les résultats.

Enfin, on peut remarquer un écart entre le modèle NERmembert 3 entités et le modèle NERmembert 4 entités. La différence entre les deux configurations est que les NERmembert 3 entités ont vu un peu plus de données, à savoir le jeu de données Wikiann qui fait environ 25 000 lignes supplémentaires. Dans le détail des résultats par jeu de données disponibles ci-dessous, on peut d’ailleurs voir que le modèle base à 4 entités donne des performances équivalentes ou supérieures au modèle base à 3 entités sur les jeux de données qu’ils ont en commun mais rencontre des difficultés sur Wikiann.

Pour plus de détails, vous pouvez étendre l’onglet ci-après afin d’afficher les résultats obtenus pour chacun des jeux de données.

Résultats par jeux de données

WORD EMBEDDING : QUAND LES MACHINES ARRETENT DE PRENDRE DES RECITS POUR DES TAS DE LETTRES

2023-11-14T00:00:00+00:00

Introduction

Pour les machines, comprendre le sens des mots et des phrases est une tâche complexe car elle implique de prendre en compte non seulement la définition des mots, mais également leur connotation, leur contextualisation et leurs relations avec d'autres mots. L'étude de ce problème appartient au domaine du Natural Language Processing (NLP) ou traitement du langage naturel. Un exemple d'application est l'extraction d'informations dans un texte donné, que vous pouvez tester librement grâce au modèle entraîné par les experts NLP du CATIE.

Le traitement du langage naturel remonte au début de l'informatique, dans les années 1950. À l'époque, les experts cherchent comment représenter numériquement des mots. Dans les années 2010, la puissance des ordinateurs est telle qu'elle permet la démocratisation des réseaux de neurones ce qui va pousser la représentation vectorielle à s'imposer (à un mot, on associe une séquence de plusieurs centaines de nombres). En effet, la plupart des modèles de machine learning utilisent des vecteurs comme données d'entraînement.

Les modèles de word embedding ont précisément pour fonction de capturer les relations entre les mots d'un corpus de textes et de les traduire en vecteurs. Dans cet article, nous verrons comment interpréter ces vecteurs et comment ils sont générés, en analysant le modèle Word2Vec.

L’arithmétique des mots

Une manière d'interpréter les vecteurs de mots est de les penser comme des coordonnées. En effet, les modèles de word embedding traduisent les relations entre les mots en angles, distances et directions. Par exemple, pour évaluer la proximité sémantique entre 2 mots, il suffit de calculer le cosinus de l'angle entre les 2 vecteurs correspondants : une valeur de 1 (angle de 0°) correspond à des synonymes alors qu'une valeur de -1 indique des antonymes (angle de 180°).

Il est également possible de calculer des relations plus complexes entre les mots. La figure 1 représente la projection de quelques vecteurs de mots dans un espace en 3 dimensions (avant projection, les vecteurs ont des centaines de dimensions). Il y apparaît que le vecteur qui va de reine à roi est à peu près le même que celui qui va de femelle à mâle ou encore jument à étalon i.e. ce vecteur caractérise la relation féminin-masculin. De même, Paris est à la France ce que Berlin est à l'Allemagne, soit :

\[Paris - France = Berlin - Allemagne\]

ce qui est équivalent à

\[Paris = Berlin - Allemagne + France\]

et il est donc possible de retrouver la capitale du Canada en calculant

\[Berlin - Allemagne + Canada\]

Figure 1 : relations féminin-masculin et pays-capitale

Il est possible d'essayer l'arithmétique des mots sur le site de l'école Polytechnique. Il est cependant à noter qu'aucun modèle n'est parfait et que certains résultats d'opérations arithmétiques peuvent être incorrects.

Word2Vec

Word2Vec a été développé par une équipe de chercheurs de Google (Mikolov et al.) en 2013 et est considéré comme étant le modèle qui a permis de démocratiser cette technologie, de par sa simplicité et son efficacité. Même si d'autres modèles de word embedding ont été développés depuis (GloVe et FastText pour ne citer que les plus connus), Word2Vec est encore largement utilisé et cité dans la littérature scientifique.

Quelques définitions

Contexte : étant donné un texte, le contexte d'un mot est défini comme étant tous les mots dans son voisinage, aux différents endroits du texte où il apparaît. Au voisinage est associée une fenêtre : une fenêtre de taille 3 englobe les 3 mots qui précèdent et les 3 mots qui suivent le mot visé.

Vocabulaire : (sous-)ensemble des mots qui apparaissent dans un texte. Par exemple, dans le texte "La sœur de ma sœur est ma sœur", le vocabulaire associé contiendrait au plus les mots suivants : "la", "sœur", "de", "ma", "est".

Encodage one hot : dans un vocabulaire de taille N, l'encodage one hot d'un mot de ce vocabulaire consiste à créer un vecteur de taille N avec N-1 zéros et 1 un correspondant à la position du mot dans le vocabulaire. Par exemple, avec le vocabulaire {"la", "sœur", "de", "ma", "est"}, le vecteur one-hot correspondant à "sœur" est [0, 1, 0, 0, 0].

Fonctionnement

Le concept de Word2Vec est d'utiliser un réseau de neurones pour résoudre une "fausse tâche", appelée tâche de prétexte : les poids obtenus après entraînement ne servent pas à inférer des résultats mais sont le résultat i.e. les vecteurs de mots. Le modèle se décline en 2 versions (légèrement) différentes : CBOW (pour Continuous Bag Of Words) et Skip Gram. CBOW tente de résoudre la tâche qui à un contexte donné associe un mot tandis que Skip Gram fait l'inverse. La méthode utilisée étant à peu près la même pour les 2 versions, nous détaillerons par la suite uniquement le modèle Skip Gram.

Pour un texte et une taille de fenêtre donnés, la tâche suivante est définie : soit un mot du texte (l'input), calculer pour chaque autre mot la probabilité qu'il soit dans le contexte de l'input (dans la fenêtre). Pour résoudre cette tâche, un réseau de neurones est utilisé; il est composé de :

La couche d'input; celui-ci est encodé en vecteur one-hot
Une couche cachée, de taille arbitraire, totalement connectée à l'input
La couche d'output i.e. un vecteur de probabilité, de la taille du vocabulaire, totalement connectée à la couche cachée

Une fonction softmax est appliquée à l'output afin de n'avoir que des nombres dans l'intervalle [0,1] et dont la somme fait 1.

Par exemple, avec le texte "Les vacances en Nouvelle Aquitaine c'est top, on va au Futuroscope", et une fenêtre de taille 1, la figure 2 illustre comment sont produites les données d'entraînement du modèle :

Figure 2 : exemple d'inputs et leur contexte

Toujours avec le même exemple, la figure 3 représente un réseau de neurones qui est entraîné avec les données précédemment générées.

Figure 3 : exemple de réseau de neurones

À la fin, seuls les poids des inputs sont conservés : dans notre cas une matrice de 12 lignes (une ligne par mot) et 3 colonnes (taille de la couche cachée), cf. figure 4. Chaque ligne correspond à un vecteur de mot.

Figure 4 : Création des vecteurs de mot à partir des poids du modèle

Il est à noter que dans notre exemple les outputs sont assez prévisibles, car chaque mot n'apparaît qu'une fois dans le texte. Dans la réalité, les corpus de textes utilisés comprennent au moins quelques milliers de mots. Il devrait donc y avoir une probabilité élevée que nouvelle soit dans le voisinage d'aquitaine, ces mots étant souvent associés.

Les vecteurs de mots ainsi produits sont pertinents dans la mesure où 2 mots similaires se verront associer 2 vecteurs proches. En toute logique, 2 synonymes devraient effectivement avoir un contexte analogue, ce qui se traduit par 2 outputs quasi égaux pour ces 2 inputs. Le modèle va donc attribuer des poids quasi identiques aux 2 inputs, donnant ainsi 2 vecteurs proches.

Applications et limites

Comme évoqué en introduction, les modèles de word embedding peuvent servir à générer des vecteurs pour entraîner des modèles de NLP plus sophistiqués. Ils peuvent également servir à résoudre des tâches simples, tout en présentant l'avantage d'être peu gourmands en ressources, facilement entraînables et explicables. Il est par exemple possible d'utiliser la similarité entre les mots dans un moteur de recherche, pour remplacer un mot clé par un autre ou étendre la liste des mots clés en piochant dans leur contexte. Grâce aux vecteurs, il est également possible d'étudier la connotation des mots d'un texte pour mettre en évidence des biais liés aux stéréotypes; cf. Garg et al. (2018).

Il existe également des applications de ces modèles en dehors du domaine du traitement du langage. En effet, au lieu de vectoriser des mots avec pour contexte le texte dont ils sont issus, il est par exemple possible de vectoriser les produits d'une marketplace avec pour contexte l'historique des achats des utilisateurs, afin de recommander des produits similaires; cf. Grbovic et al. (2015).

La principale limitation de cette technique de vectorisation est qu'elle ne prend pas en compte la polysémie d'un mot : par exemple, dans le texte "L'avocat de la défense mange un avocat", le modèle de word embedding ne créera qu'un seul vecteur pour le mot "avocat". Un autre inconvénient est le travail de prétraitement du corpus à effectuer en amont : il faut définir un vocabulaire i.e. enlever les mots trop répétitifs (ce, de, le...) et potentiellement retirer les formes conjuguées/accordées (est-il souhaitable que "mot" et "mots" aient chacun leur vecteur ?).

Les derniers modèles de langage (GPT, Bloom, Llama...) basés sur des transformers sont capables de contourner ces limitations. Ils peuvent en effet être directement entraînés sur des textes, sans passer par la définition d'un vocabulaire. Ils utilisent également des vecteurs plus sophistiqués, qui représentent un mot et son contexte, ce qui leur permet de distinguer les différents sens d'un mot.

Conclusion

Pour résumer, les techniques de word embedding ont révolutionné les technologies de NLP, en utilisant des modèles simples, peu coûteux, mais aux résultats impressionnants. Si les transformers remplacent à présent ces modèles dans la plupart des applications, il existe certains cas où ils restent pertinents. Dans l'article de blog suivant, vous découvrirez une application concrète du word embedding, à travers un projet du CATIE que vous pourrez essayer vous-mêmes !

Références

Efficient Estimation of Word Representations in Vector Space de Mikolov et al. (2013),
Word2Vec Tutorial - The Skip-Gram Model de McCormick (2016),
Word embeddings quantify 100 years of gender and ethnic stereotypes de Garg, Schiebinger, Jurafsky et Zou (2018),
E-commerce in your inbox: Product recommendations at scale de Grbovic, Radosavljevic, Djuric, Bhamidipati, Savla, Bhagwan et Sharp (2015)

Commentaires

LE QUESTION ANSWERING

2023-06-27T00:00:00+00:00

Qu’est-ce que le question answering ?

Le question answering (souvent abrégé en QA) est une tâche de NLP consistant à apporter une réponse à une question de l’utilisateur formulée en langage naturel.
Il existe deux types de question answering. Le premier est appelé « QA closed-book», c’est-à-dire que le modèle répond à une question sans se baser sur un texte de contexte associé. On peut voir cette approche comme l’exercice « À l’aide de vos connaissances, répondez à la question suivante » que l’on a eue à traiter lorsque l’on était élève.
Les performances de ces types de modèles dépendent principalement des données qui ont servi lors de l’entraînement. Nous ne traiterons pas plus en détails ce type de QA dans cet article.
Le second type de QA qui va nous intéresser dans la suite de ce billet de blog est l’ « extractive QA », c’est-à-dire que le modèle répond à une question en se basant sur un texte de contexte associé : on extrait la réponse dans un texte donné, d’où le terme « extractive ». C’est l’approche considérée par défaut lorsque l’on parle de QA.
À noter que pour chacun des deux types, il est possible de les qualifier de « closed-domain » (modèle spécialisé sur un domaine particulier, par exemple le médical) ou d’« open-domain » (modèle entraîné sur plusieurs domaines différents pour le rendre le plus généraliste possible).
D’un point de vue technique, la tâche d’extractive QA peut être considérée comme de la classification binaire où au lieu de classifier au niveau de la phrase entière (pour de l’analyse de sentiment par exemple), l’on classifie au niveau du mot en disant si oui ou non le mot considéré fait partie de la réponse attendue.

Jeux de données de QA avec contexte

Le jeu de données le plus connu et faisant référence en QA, est le jeu de données SQuAD (Stanford Question Answering Dataset) de Rajpurkar et al. Créé pour l’anglais à partir d’articles de Wikipedia, les autres langues ont généralement adopté son formatage.
Il faut préciser qu’il existe deux versions de ce jeu de données. SQuAD 1.0 de Rajpurkar et al. (2016) contient 107 785 triplets texte de contexte, question, réponse. Ci-dessous un exemple d’une ligne de cette version du jeu de données :

Exemple d’une ligne du jeu de données SQUAD 1.0

SQuAD 2.0 de Rajpurkar et al. (2018) contient 53 775 triplets additionnels où les réponses sont vides, c’est-à-dire que le contexte ne contient pas la réponse à la question posée. Cela permet d’entraîner le modèle à ne pas ressortir systématiquement un bout du texte de contexte et que parfois, une question n’a pas de réponse et qu’il faut donc s’abstenir. Dans cette version, deux tiers des questions possèdent des réponses issues du contexte et un tiers des questions ne possède pas de réponse.
Ci-dessous un exemple d’une ligne de cette version du jeu de données :

Exemple d’une ligne du jeu de données SQUAD 2.0

En ce qui concerne le français, des jeux de données ont été créés suivant la méthodologie de SQuAD. On peut citer :
- FQuAD 1.0 (2020) de l’entreprise Illuin Technology (plus particulièrement Hoffschmidt et al.) qui se base sur la méthodologie de SQuAD v1. Elle contient 26 108 questions/réponses basées sur des articles de qualité de Wikipédia. Les données sont accessibles sur le site d’Illuin Technology après avoir rempli un formulaire (seulement les échantillons train et dev sont accessibles, pas le test). La version FQuAD 1.1 par les mêmes auteurs contient 62 003 questions/réponses mais ce jeu de données n’est pas ouvert.
- FQuAD 2.0 de Heinrich et al. (2021) utilisant la méthodologie de SQUAD 2.0 apportant 13 591 nouvelles questions sans réponse. Cependant, ce jeu de données n’est pas ouvert.
- Le projet PIAF (Pour une IA Francophone), porté par Etalab et plus particulièrement Keraron et al. (2020) comporte plus de 9 225 questions dans sa version finale (la version 1.2). Les données de PIAF sont accessibles librement ici.
- Newsquadfr (2021) de Lincoln est un jeu de données de 2 520 questions. Les contextes sont des paragraphes d'articles extraits de neuf journaux français en ligne au cours de l'année 2020/2021.

Ce sont donc 37 853 triplets contextes/questions/réponses qui sont disponibles nativement en français.

Il existe également quelques jeux de données étant des traductions de SQuAD vers le français. À savoir :
- French-SQuAD de Kabbadj (2018) qui traduit le jeu de données SQuAD v1 en utilisant l’API non officielle de Google. Cette traduction n’est pas de bonne qualité.
- Squad_fr de Cattan et al. (2021) qui traduit le jeu de données SQuAD v1 en utilisant leur propre système de traduction basé sur le transformer de Vaswani et al. Bien que de meilleure qualité que French-SQuAD, ce jeu de données contient beaucoup d’erreurs.
- Squad_v2_french_translated de Pragnakalp Techlabs (2022) qui traduit partiellement (79 069 données sur les 161 560 originales) le jeu de données SQuAD v2 en utilisant Google Translate. Ce jeu de données est celui présentant la meilleure qualité parmi les trois traductions disponibles.

Quel modèle pour résoudre une tâche de QA ?

N’importe quel modèle de transformer est capable de résoudre cette tâche, que ce soit un transformer complet (encodeur et décodeur), un transformer décodeur, ou un transformer encodeur. Seule la façon dont sont fournies les données au modèle diffère entre les différentes approches.
En pratique, les modèles de type encodeur sont les plus utilisés. Du fait qu’ils sont les plus adaptés pour résoudre des tâches de classification, et probablement par habitude. En effet, dans le cas du français, les transformers encodeur ont été disponibles avant les transformers décodeur et les transformers complet. Soulignons également que le modèle CamemBERT de Martin et al. (2019) est davantage utilisé que le FlauBERT de He et al. (2019) pour la tâche de QA du fait d’observations empiriques : plusieurs auteurs ont remarqué que le premier a tendance à donner de meilleurs résultats que le second sur cette tâche.
Quelques modèles finetunés sur la tâche de QA sont disponibles en open-source. On peut lister :
- Le modèle CamemBERT base finetuné sur FQUAD 1.0 par Illuin
- Le modèle CamemBERT base finetuné sur la combinaison de PIAF 1.1, FQuAD 1.0 et French-SQuAD par Etalab
- Le modèle DistillCamemBERT base finetuné sur FQUAD 1.0 et PIAF par le Crédit Mutuel

Ces différents modèles ont chacun des limites.
Premièrement, aucun d’entre eux n’utilise la totalité des données disponibles à disposition :
- Le modèle d’Illuin n’utilise qu’un jeu de données soient 26 108 questions/réponses (dont 2 189 de test).
- Celui d’Etalab en utilise trois, soient environ 128 090 questions/réponses (dont 3 188 de test), dont le French-SQuAD qui est de mauvaise qualité et la version 1.1 de PIAF contenant 7 570 questions/réponses au lieu de la version 1.2 contenant 9 225 questions/réponses.
- Celui du Crédit Mutuel n’utilise que deux jeux de données soit 27 754 questions/réponses (dont 3 188 de test).
Deuxièmement, toutes les données utilisées dans ces modèles se basent uniquement sur la méthodologie de SQuAD 1.0 imposant que la réponse à la question se trouve dans le texte de contexte.
Troisièmement, dans le cadre du modèle du Crédit Mutuel, celui-ci est un CamemBERT distillé. Il possède moins de paramètres que les autres mais obtient, en contrepartie, des performances plus faibles. Si votre objectif est d’avoir le modèle le plus petit possible car avez des contraintes de matériel par exemple, ce modèle est certainement le plus adapté à votre besoin. Cependant, si votre objectif est d’avoir un modèle ayant les meilleures performances possibles, il sera à éviter.

Compte tenu de ces points limitants, nous avons développé notre propre modèle au CATIE : le QAmembert. Celui-ci utilise l’ensemble des données de qualité à disposition en open-source, se base sur de nouvelles données afin d’adopter la méthodologie SQuAD 2.0 et propose deux modèles (en version base et large) gratuitement et librement en open-source : https://huggingface.co/CATIE-AQ/QAmembert et https://huggingface.co/CATIE-AQ/QAmembert-large.
Précisément, nous avons utilisé :

Jeu de données	Format	Train split	Dev split	Test split
PIAF 1.2	SQuAD 1.0	9 225 Q & A	X	X
FQuAD 1.0	SQuAD 1.0	20 731 Q & A	3 188 Q & A (non utilisé pour l'entraînement car servant de jeu de données de test)	2 189 Q & A (non utilisé dans notre travail car non disponible librement)
lincoln/newsquadfr	SQuAD 1.0	1 650 Q & A	455 Q & A (non utilisé dans notre travail)	415 Q & A (non utilisé dans notre travail)
pragnakalp/squad_v2_french_translated	SQuAD 2.0	79 069 Q & A	X	X

Pour chacun des jeux de données, nous avons créé des questions ne comportant pas de réponse dans le contexte associé. Pour cela, nous avons supprimé, pour un contexte donné, la réponse attendue et remplacé la question originale par une autre aléatoire (pouvant provenir du jeu de données original ou bien d’un des trois autres). Nous nous sommes assurés que la nouvelle question n’était pas la même que la précédente.
Nous nous retrouvons ainsi avec un jeu de données augmenté dont la réponse peut ou non être présente dans le contexte, pour un total de de 227 726 (221 350 pour l’entraînement, 6 376 pour le test) triplets questions/réponses/contextes.
Ces nouvelles questions sans réponse ont été répertoriées dans un jeu de données appelé FrenchQA que nous mettons à disposition en open-source.
L’idée de reprendre une question déjà posée en remplacement d’une question originale plutôt qu’une question complètement externe jamais vue, est d’essayer de rendre le modèle plus robuste. En effet, le fait qu’une même question ait plusieurs réponses possibles (en l’occurrence une réponse et une « non réponse ») doit, selon notre hypothèse, permettre d’avoir un modèle ne se spécialisant pas à répondre une réponse donnée à une question donnée et qu’il reste généraliste. C’est-à-dire qu'il se concentre sur la recherche d'une réponse plutôt que de répondre absolument.

Métriques et évaluation

Quelles sont les performances des modèles ? Pour cela décrivons d’abord les métriques sur lesquelles sont évalués les modèles de QA.

Métriques

Il existe quelques différences entre les métriques de et SQuAD 2.0.
Pour SQuAD 1.0, l’exact-match et le score F1 sont calculés. L’exact match est basé sur la correspondance stricte des caractères de la réponse prédite et de la bonne réponse. Pour les réponses correctement prédites, la correspondance exacte sera de 1. Et même si un seul caractère est différent, la correspondance exacte sera de 0.
Le score F1 est la moyenne harmonique entre la précision et le rappel. Il est calculé pour chaque mot de la séquence prédite par rapport à la réponse correcte.
Pour SQuAD 2.0, en plus de calculer l’exact-match et le score F1, il est possible d’obtenir le détail du F1 et de l’exact-match pour les questions possédant une réponse de même que le détail du F1 et de l’exact-match pour les questions ne possédant pas de réponse.

Évaluation

D’un point de vue implémentation, pour calculer les métriques énoncées ci-dessus, le mieux est d’utiliser le package python evaluate d’Hugging Face.
Les résultats des performances des différents modèles considérés sont disponibles dans le tableau ci-dessous.

Modèle	etalab/camembert-base-squadFR-fquad-piaf	QAmemBERT	QAmemBERT-large
Nombre de paramètres	110M	110M	335M
FQuAD 1.0 (dev)	F1 : 78.09 exact_match : 53.60	F1 : 78.00 exact_match : 53.98	F1 : 81.05 exact_match : 55.95
qwant/squad_fr (validation)	F1 : 78.27 exact_match : 60.17	F1 : 77.30 exact_match : 60.95	F1 : 81.74 exact_match : 65.58
frenchQA	N/A	F1 : 86.88 exact_match : 77.14 Answer_f1 : 75.66 NoAnswer_f1 : 98.11	F1 : 88.74 exact_match : 77.14 Answer_f1 : 78.83 NoAnswer_f1 : 98.65

À un nombre de paramètres équivalent, le modèle d’Etalab apparait comme le plus performant sur le score F1 sur les jeux de données de type SQuAD 1.0. Sur la métrique exact_match, le QAmemBERT produit de meilleurs résultats. Son atout est qu’il est capable de gérer des données de type SQuAD 2.0 contraire au modèle d’Etalab.
Le modèle QAmemBERT-large obtient les meilleurs résultats quel que soit le jeu de données test considéré.

Exemples d’utilisations

Lorsque la réponse est contenue dans le contexte :

from transformers import pipeline
qa = pipeline('question-answering', model='CATIE-AQ/QAmembert', tokenizer='CATIE-AQ/QAmembert')
result = qa({
    'question': "Combien de personnes utilisent le français tous les jours ?",
    'context': "Le français est une langue indo-européenne de la famille des langues romanes dont les locuteurs sont appelés francophones. Elle est parfois surnommée la langue de Molière.  Le français est parlé, en 2023, sur tous les continents par environ 321 millions de personnes : 235 millions l'emploient quotidiennement et 90 millions en sont des locuteurs natifs. En 2018, 80 millions d'élèves et étudiants s'instruisent en français dans le monde. Selon l'Organisation internationale de la francophonie (OIF), il pourrait y avoir 700 millions de francophones sur Terre en 2050."
})

if result['score'] < 0.01:
    print("La réponse n'est pas dans le contexte fourni.")
else :
    print(result['answer'])

235 millions

# details
result
{'score': 0.9945194721221924
 'start': 269,
 'end': 281, 
 'answer': '235 millions'}

Lorsque la réponse n’est pas contenue dans le contexte :

from transformers import pipeline
qa = pipeline('question-answering', model='CATIE-AQ/QAmembert', tokenizer='CATIE-AQ/QAmembert')
result = qa({
    'question': "Quel est le meilleur vin du monde ?",
    'context': "La tour Eiffel est une tour de fer puddlé de 330 m de hauteur (avec antennes) située à Paris, à l’extrémité nord-ouest du parc du Champ-de-Mars en bordure de la Seine dans le 7e arrondissement. Son adresse officielle est 5, avenue Anatole-France.  
Construite en deux ans par Gustave Eiffel et ses collaborateurs pour l'Exposition universelle de Paris de 1889, célébrant le centenaire de la Révolution française, et initialement nommée « tour de 300 mètres », elle est devenue le symbole de la capitale française et un site touristique de premier plan : il s’agit du quatrième site culturel français payant le plus visité en 2016, avec 5,9 millions de visiteurs. Depuis son ouverture au public, elle a accueilli plus de 300 millions de visiteurs." 
})

if result['score'] < 0.01:
    print("La réponse n'est pas dans le contexte fourni.")
else :
    print(result['answer'])

La réponse n'est pas dans le contexte fourni.

# details
result
{'score': 3.619904940035945e-13,
 'start': 734,
 'end': 744,
 'answer': 'visiteurs.'}

Si vous souhaitez tester le modèle de manière plus directe, un démonstrateur a été créé et est hébergé sous la forme d’un Space sur Hugging Face disponible ici ou bien ci-dessous :

Améliorations possibles

Terminons en listant des améliorations possibles à ce travail.
Premièrement, il serait intéressant de faire varier le nombre de questions sans réponse. En effet, dans une logique de simplification du processus, nous avons doublé le nombre de questions via notre processus de création de données sans réponse. On peut suspecter que cela a un impact sur les performances. En effet, on peut observer que le score F1 des données sans réponse est d’au moins 10 points supérieur à celui des questions avec réponses. Dans une logique d’équilibrage de ces deux scores F1, on pourrait envisager de réduire le nombre de questions sans réponse. Le jeu de données SQuAD 2.0 utilise pour sa part une répartition 66% (avec réponses)/33% (sans réponse) contre 50%/50% pour notre part.
Deuxièmement, il faudrait équilibrer les différents types de questions (qui ? quoi ? où ? pourquoi ? comment ? quand ? etc.). L’objectif étant d’avoir un modèle qui soit performant quel que soit le type de questions utilisé. Actuellement, la répartition est la suivante :

Type de question	Fréquence en pourcentage
Que (quel, quelle, que, qu’est-ce que, etc.)	55,12
Qui	16,24
Combien	7,56
Quand	6,85
Où	3,98
Comment	3,76
Quoi (à quoi, en quoi, etc.)	2,94
Pourquoi	1,41
Autre	2,14

Dans la même logique, on pourrait augmenter le nombre de question comportant une négation, par exemple « Quel est le nom du premier professeur de musique de Chopin qui n'était pas un musicien amateur ? », qui ne représente que 3,07% des questions actuellement.
Ce point nécessiterait cependant de l’investissement dans l’annotation de nouvelles données bien que le premier point cité puisse aider dans le rééquilibrage. Une alternative pourrait être de scrapper des données en ligne en open-source : on peut par exemple penser à des annales de brevet et plus généralement d’exercices demandant à des élèves de répondre à une question en citant un extrait issu d’un texte.
Troisièmement, on peut envisager d’incorporer une part de données sans réponse dans le contexte qui soit issue d’autres corpus que ceux utilisés ici. La logique que nous avons appliquée est de prendre des questions des corpus de type SQuAD 1.0 pour qu’une même question ait parfois une réponse et d’autres fois non afin que le modèle n’apprenne pas une réponse donnée à une question donnée et qu’ainsi il ne surapprenne pas.
L’idée d’ajouter des questions sans réponse (avec un contexte associé inédit) ne faisant pas partie des jeux de données de type SQuAD 1.0 est d’augmenter la variabilité des questions possibles vues par le modèle. Quelques jeux de données existent en français. On peut citer par exemple :
- Mkqa de Longpre et al. (2021) qui est un jeu de données multilingues comportant 10 000 questions en français. Une information intéressante qui est spécifiée dans ce jeu de données est le type de la question (qui ? quoi ? quand ? etc.)
- X-CSR de Lin et al. (2021) contient deux sous-ensembles. En ce qui concerne le QA, seul le sous-ensemble X-CSQA contenant 2 074 questions et réponses est pertinent.
C’est ainsi 12 074 questions en français qui sont disponibles dans la méthodologie SQuAD 2.0.
Enfin, il serait pertinent de créer un nouveau jeu de données de test pour la recherche et ne plus utiliser le jeu de données FQuAD 1.0 dev répandu actuellement. En effet, ce jeu de données est sous licence restrictive et ne permet pas de partager une augmentation de celui-ci au format SQuAD 2.0.

Conclusion

Nous introduisons le modèle QAmembert dans ses versions base et large. Ils sont tous deux librement accessibles gratuitement sur Hugging Face. Ces modèles sont les premiers en français adoptant la méthodologie SQuAD 2.0 en open-source.
Nous n’excluons pas des travaux complémentaires afin notamment d’équilibrer le type de questions.

Citations

Modèles

@misc {qamembert2023,  
    author       = { {ALBAR, Boris and BEDU, Pierre and BOURDOIS, Loïck} },  
    organization  = { {Centre Aquitain des Technologies de l'Information et Electroniques} },  
    title        = { QAmembert (Revision 9685bc3) },  
    year         = 2023,  
    url          = { https://huggingface.co/CATIE-AQ/QAmembert},  
    doi          = { 10.57967/hf/0821 },  
    publisher    = { Hugging Face }  
}

Jeux de données

@misc {frenchQA2023,  
    author       = { {ALBAR, Boris and BEDU, Pierre and BOURDOIS, Loïck} },  
    organization  = { {Centre Aquitain des Technologies de l'Information et Electroniques} },  
    title        = { frenchQA (Revision 6249cd5) },  
    year         = 2023,  
    url          = { https://huggingface.co/CATIE-AQ/frenchQA },  
    doi          = { 10.57967/hf/0862 },  
    publisher    = { Hugging Face }  
}

Références

- SQuAD: 100,000+ Questions for Machine Comprehension of Text de Rajpurkar et al. (2016)
- Know What You Don't Know: Unanswerable Questions for SQuAD de Rajpurkar et al. (2018)
- FQuAD: French Question Answering Dataset de Hoffschmidt et al. (2020)
- FQuAD2.0: French Question Answering and knowing that you know nothing de Heinrich et al. (2021)
- Project PIAF: Building a Native French Question-Answering Dataset de Keranon et al. (2020)
- Newsquadfr de Lincoln (2021)
- Something new in French Text Mining and Information Extraction (Universal Chatbot): Largest Q&A French training dataset (110 000+) de Kabbadj (2018)
- CamemBERT: a Tasty French Language Model de Martin et al. (2019)
- FlauBERT: Unsupervised Language Model Pre-training for French de He et al. (2019
- On the Usability of Transformers-based models for a French Question-Answering task de Cattan et al. (2021)
- SQuAD v2 French Translated de Pragnakalp Techlabs (2022)
- MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering de Longpre et al. (2021)
- Common Sense Beyond English: Evaluating and Improving Multilingual Language Models for Commonsense Reasoning de Lin et al. (2021)

Commentaires

APPRENTISSAGE AUTOSUPERVISÉ EN VISION PAR ORDINATEUR

2023-06-26T00:00:00+00:00

Avant-propos

Vous êtes-vous déjà demandé comment les bébés et les animaux apprennent ? Comment ChatGPT génère ses textes ? Comment DeepL traduit des textes ? Eh bien, c'est en partie grâce aux méthodes d'apprentissage autosupervisé (SSL pour self-supervised). Cet article est le premier de la série sur l'apprentissage autosupervisé appliqué à la vision. Aucune connaissance n'est requise pour comprendre le message principal que cet article tente de véhiculer. Néanmoins, étant donné que la plupart des méthodes présentées ci-dessus se basent sur des réseaux siamois, vous pouvez si vous estimez en avoir besoin, lire préalablement notre article de blog sur ce sujet. Les expériences décrites dans l'article ont été réalisées en s'appuyant sur la bibliothèque bien connue lightly de Susmelj et al. (2020).

Introduction

Au cours des dernières décennies, nous avons assisté à une augmentation spectaculaire de la disponibilité des données en raison de nouveaux formats de données autres que le texte (images, audio, vidéos, enquêtes, capteurs, etc.) et des nouvelles technologies (stockage de données, médias sociaux, internet des objets, transfert de données, etc.). Il s’est avéré difficile de faire des inférences à partir de ces données massives à l'aide de techniques traditionnelles. Cependant, les techniques d'apprentissage supervisé ont été les approches privilégiées pour construire des modèles prédictifs avec une plus grande précision et dépassant les performances humaines sur certaines tâches au cours des dernières années.
Malgré le succès de ces approches, elles s'appuient généralement sur un grand nombre de données étiquetées. L'étiquetage des données peut être un processus long, laborieux, fastidieux et coûteux par rapport à la façon dont les humains abordent l'apprentissage, ce qui rend souvent le déploiement des systèmes d'apprentissage automatique compliqué. Par conséquent, la question récurrente est de savoir comment faire des inférences dans un contexte d'apprentissage supervisé avec un minimum de données étiquetées. Les approches actuelles pour relever ce défi reposent sur des techniques d'apprentissage non supervisé et autosupervisé.
Les méthodes d'apprentissage autosupervisé et non supervisé ne nécessitent pas d'ensembles de données étiquetées, ce qui en fait des techniques complémentaires. Cet article se concentre sur les techniques d’autosupervision pour les tâches de classification dans le domaine de la vision par ordinateur. Nous allons expliquer ce qu'est l'apprentissage autosupervisé, puis nous présenterons une partie de la littérature sur ce sujet de recherche en plein essor. Nous énumérerons ensuite les méthodes utilisées dans cet article avant de décrire les expériences menées sur des données publiques et de présenter quelques résultats.

Qu’est-ce que l’apprentissage autosupervisé ?

L'apprentissage autosupervisé (SSL) est un type d'apprentissage automatique dans lequel un modèle apprend à représenter et à comprendre la structure sous-jacente des données en utilisant les modèles et les relations inhérents aux données elles-mêmes.
En SSL, le modèle est entraîné sur une tâche de prétexte, c'est-à-dire une tâche générée automatiquement à partir des données d'entrée, comme la prédiction des parties manquantes d'une image, la prédiction du mot suivant dans une phrase ou la transformation d'une image en une autre modalité telle que le texte ou le son. En résolvant ces tâches, le modèle apprend à capturer la structure sous-jacente des données et peut se généraliser à de nouvelles données inédites.
Le SSL est utilisé lors du pré-entraînement des réseaux neuronaux profonds sur de grands ensembles de données avant de procéder à leur réglage fin pour des tâches spécifiques en aval (classification, détection d'objets etc.). Il permet d'obtenir des résultats de pointe dans diverses tâches de vision par ordinateur, de traitement du langage naturel et de reconnaissance vocale (voir la section Revue de littérature ci-dessous).

Les techniques de SSL peuvent, entre autres, basées sur les éléments suivants :
1. L'apprentissage contrastif: entraînement d’un modèle à faire la distinction entre des exemples similaires et dissemblables. On utilise une fonction de perte pour rapprocher les exemples similaires dans un espace latent tout en éloignant les exemples dissemblables.
2. Les auto-encodeursentraînement d’un modèle à encoder une entrée dans une représentation latente compacte puis à la décoder dans l'entrée d'origine. En minimisant la différence entre l'entrée et la sortie reconstruite, le modèle apprend à capturer la structure sous-jacente des données.
3. Les techniques de modèle génératif : entraînement d’un modèle à générer de nouveaux exemples similaires aux données d'entrée. Les auto-encodeurs variationnels (VAE) et les réseaux antagonistes génératifs (GAN) sont des modèles génératifs couramment utilisés dans l'apprentissage autosupervisé.
4. Les techniques d'apprentissage multitâche : entraînement d’un modèle sur plusieurs tâches connexes simultanément, en tirant parti de la structure partagée entre les tâches pour améliorer la capacité du modèle à capturer la structure sous-jacente des données.
5. Codage prédictif de Millidge et al (2022) : : entraînement d’un modèle à prédire l'image suivante d'une vidéo ou le mot suivant d'une phrase, sur la base des images ou des mots précédents. Ce faisant, le modèle apprend à saisir la structure temporelle des données.
6. L'apprentissage non-contrastif : techniques qui ne s'appuient pas sur des comparaisons explicites entre les exemples pour apprendre des représentations. Ces méthodes utilisent plutôt d'autres types de signaux d'apprentissage pour entrainer le modèle.
Nous nous concentrons ici principalement sur les méthodes contrastives et non contrastives.
Nous évaluerons les performances de certaines de ces méthodes sur divers jeux de données d'images pour des tâches de classification.

Revue de littérature

La revue la plus complète et la mieux ordonnée que nous avons identifiée est celle communautaire hébergée par Jason Ren. Vous y trouverez les articles/présentations les plus pertinents sur ce sujet, classés par catégorie. Son répertoire comprend des liens vers des blogs bien détaillés, auxquels nous pouvons ajouter les articles de blog de FAIR, Neptune.ai et v7labs.

Méthodes considérées

SimCLR (Simple Contrastive Learning of Representations) de Chen et al. (2020)

SimCLR apprend les représentations en maximisant la concordance entre différentes vues augmentées de la même image tout en minimisant la concordance entre différentes images. Plus précisément, SimCLR utilise une fonction de perte contrastive qui encourage les représentations d'une même image à être proches les unes des autres dans un espace d’enchâssement à haute dimension, tout en éloignant les représentations d'images différentes. L'idée est que si 2 vues différentes de la même image produisent des représentations similaires, ces représentations doivent capturer des caractéristiques utiles et invariantes de l'image (voir Figure 1).

Figure 1 : architecture de SimCLR

SimSiam (Exploring Simple Siamese Representation Learning) de Chen et He (2020)

A l'instar de SimCLR, SimSiam apprend des représentations en maximisant la concordance entre des vues différentes de la même image. Cependant, contrairement à SimCLR, SimSiam n'utilise pas d'échantillon négatif (c'est-à-dire qu'il ne compare pas les représentations de différentes images). Au contraire, SimSiam utilise une architecture de réseau siamois avec 2 branches identiques ayant les mêmes paramètres. Une branche est utilisée pour générer une représentation prédite d'une image, tandis que l'autre génère une version augmentée aléatoirement de la même image. L'objectif est d'entraîner le réseau à prédire la représentation augmentée en utilisant uniquement l'autre branche (voir Figure 2).

Figure 2 : architecture de SimSiam

SWAV (Swapping Assignments between multiple Views of the same image) de Caron et al. (2020)

SWAV vise à apprendre des représentations qui capturent le contenu sémantique des images. La méthode consiste à entraîner un réseau à prédire un ensemble de "prototypes" appris pour une image donnée. Ces prototypes sont appris en regroupant les représentations de différentes vues augmentées de la même image. Pendant l'entraînement, le réseau est entraîné à prédire quel prototype correspond à chaque vue de l'image, tout en minimisant la distance entre les représentations des vues appartenant à la même image (voir Figure 3).

Figure 3 : architecture de SWAV

BYOL (Bootstrap Your Own Latent) de Grill et al. (2020)

BYOL consiste à entraîner 2 copies du même réseau afin qu'elles prédisent les résultats de l'autre. Une copie du réseau (le réseau "en ligne") est mise à jour pendant l'entrainement, tandis que l'autre copie (le réseau "cible") reste fixe. Le réseau en ligne est entraîné à prédire la sortie du réseau cible, tandis que le réseau cible sert de cible fixe pour le réseau en ligne. La principale innovation de BYOL est qu'il utilise une approche de "codage prédictif", dans laquelle le réseau en ligne est entraîné à prédire une représentation future du réseau cible. Cette approche permet au réseau d'apprendre des représentations qui sont plus invariantes à l'augmentation des données que celles apprises par des méthodes d'apprentissage contrastives (voir Figure 4).

Figure 4 : architecture de BYOL

Barlow Twins de Zbontar et al. (2021)

Barlow Twins repose sur l'idée de maximiser la concordance entre 2 vues augmentées de manière aléatoire de la même donnée tout en minimisant la concordance entre des donnés différentes (voir Figure 5). L'intuition est que si 2 différentes vues de la même donnée produisent des représentations similaires, alors ces représentations doivent capturer des caractéristiques significatives et invariantes de la donnée.
Barlow Twins réalise ceci en introduisant une nouvelle fonction de perte qui encourage les représentations des 2 vues à être fortement corrélées. Plus précisément, la perte de Barlow Twins est une perte de corrélation de distance qui mesure la différence entre la matrice de covariance croisée des représentations et la matrice d'identité.

Figure 5 : architecture de Balow Twins

VICReg (“Variance-Invariance-Covariance Regularization”) de Bardes et al. (2021)

VICReg vise à améliorer les performances de généralisation des modèles autosupervisés en les encourageant à capturer la structure sous-jacente des données. Il apprend essentiellement la représentation des caractéristiques en faisant correspondre les caractéristiques qui sont proches dans l'espace d'intégration (voir Figure 6). Pour ce faire, il régularise la représentation des caractéristiques du modèle à l'aide de trois types de moments statistiques : la variance, l'invariance et la covariance.
- La régularisation de la variance encourage le modèle à produire des caractéristiques présentant une faible variance entre les différentes vues d'une même instance. Cela encourage le modèle à capturer les propriétés intrinsèques de l'instance qui ne varient pas d'une vue à l'autre.
- La régularisation de l'invariance encourage le modèle à produire des caractéristiques invariantes par rapport à certaines transformations, telles que les rotations ou les translations. Cela encourage le modèle à capturer la structure sous-jacente des données qui est invariante à certains types de transformations.
- La régularisation de la covariance encourage le modèle à capturer les relations par paire entre les différentes caractéristiques. Cela encourage le modèle à capturer les dépendances et les interactions entre les différentes parties des données.

Figure 6 : architecture de VICReg

VICRegL de Bardes et al. (2022)

VICRegL est une extension du modèle VICReg décrit ci-dessus. En plus de l'apprentissage des caractéristiques globales, il apprend à extraire les caractéristiques visuelles locales en faisant correspondre les caractéristiques qui sont proches en matière d'emplacement dans leur image d'origine (voir Figure 7). Pour ce faire, il utilise la régularisation de VICReg dans la représentation des caractéristiques globales et locales, la fonction de perte étant décrite comme une somme pondérée des pertes locales et des pertes basées sur les caractéristiques. La somme pondérée est régie par un facteur d'échelle α contrôlant l'importance que l'on souhaite accorder à l'apprentissage de la représentation globale plutôt que locale. Nous renvoyons le lecteur au papier de Bardes et al. (2022) pour plus de détails sur la manière dont la fonction de perte est dérivée.

Figure 7 : architecture de VICRegL

Détails de la procédure et résultats

Nous présentons ici les détails de l’implémentation afin de reproduire les résultats obtenus. Nous nous sommes appuyés sur la bibliothèque lightly pour fournir un moyen beaucoup plus flexible d'exécuter une tâche de classification. Les pipelines d'apprentissage sont soigneusement conçus et structurés de manière à ce qu'un nouveau pipeline puisse être construit efficacement sans avoir à réécrire le code. Cela nous permet de comparer l'effet de la variation des hyperparamètres, notamment les paramètres liés à la transformation de l'image tels que l'instabilité des couleurs, l'angle de rotation, le recadrage, etc. sur les performances des modèles.
Pour nos benchmarks, nous utilisons d'abord une transformation de base similaire à celle intégrée dans lightly impliquant le cropping, le redimensionnement, la rotation, la distorsion des couleurs (la réduction des couleurs, la luminosité, le contraste, la saturation et la teinte) et le flou gaussien. Nous examinons ensuite l'effet de quatre autres transformations :
- les méthodes d'augmentation des données utilisées dans SimCLR
- les méthodes d'augmentation basées sur l'inversion horizontale et verticale (orthogonalité)
- la méthode d'augmentation de LoRot-I de de Moon et al. (2022), à savoir dessiner et faire pivoter une zone aléatoire de l'image,
- la méthode d'augmentation de DCL de Maaz et al. (2021), à savoir une déconstruction de l'image à l'aide d'un mécanisme de confusion de régions.

Nous entraînons les modèles autosupervisés à partir de zéro sur divers sous-ensembles du jeu de données ImageNette de Howard (2019). Ces sous-ensembles de données comprennent :
- ImageNette qui regroupe 10 classes faciles à classer d'Imagenet : tanche, springer anglais, lecteur de cassettes, tronçonneuse, église, cor, camion à ordures, pompe à essence, balle de golf, parachute,
- ImageNette v2-160 qui est la version 2 d’ImageNette où la répartition des échantillons d’entraînement et de validation est modifiée en 70%/30% contre 96%/4% dans la version 1. Le nombre 160 indique que les images sont de taille 160 par 160 pixels,
- ImageWoof qui regroupe 10 classes de races de chiens provenant d'Imagenet : terrier australien, border terrier, samoyède, beagle, shih-tzu, foxhound anglais, rhodesian ridgeback, dingo, golden retriever, chien de berger anglais.
Nous avons également étudié les transformations LoRot-I et DCL sur le jeu de données NABirds de Van Horn et al. (2015) (North America Birds) qui est une collection de 48 000 photographies annotées des 550 espèces d'oiseaux communément observées en Amérique du Nord. Il est important de noter que si ImageNette et ImageNette v2-160 sont faciles à classer, ImageWoof et NABirds ne le sont pas.

Comme la méthode VICRegL nécessite des transformations locales en plus des transformations globales, nous fixons les paramètres de la transformation globale comme pour les autres méthodes et ceux de la transformation locale comme indiqué dans le papier de papier de Bardes et al. (2022).
Quatre valeurs de α sont considérées, à savoir 0,25 / 0,5 / 0,75 et 0,95, qui déterminent la contribution de la perte de représentation globale à la perte d'apprentissage totale. Toutes les expériences sont mises en œuvre avec un backbone ResNet 18 de He et al. (2015), un réseau de neurones convolutifs à 18 couches utilisant des skip connections pour sauter certaines couches et chaque modèle est entraîné pendant 200 époques avec une taille de batch de 256. Il convient de noter que le choix de Resnet18 est motivé par la simplicité, cette expérimentation pouvant être facilement adaptée à n'importe quel backbone inclus dans PyTorch Image Models (timm) de Wightman (2019). Contrairement à ce qui a été fait dans la librairie lightly, nous rajoutons un classifieur linéaire au backbone au lieu d'utiliser un classificateur KNN sur l'ensemble de test. Nous adoptons le protocole d'optimisation décrit dans lightly.

Au total, 10 modèles sont évalués sur quatre jeux de données publiques différents en utilisant cinq transformations différentes. Les tableaux suivants montrent la précision sur l’échantillon test de chaque expérience réalisée sur chaque modèle considéré. Nous incluons le temps d'exécution et le pic d'utilisation du GPU pour l'ensemble de données ImageNette. Les résultats sont similaires pour les autres jeux de données.

Dans l'ensemble, VICRegL et Barlow Twins semblent relativement plus performants que les autres modèles en termes de précision. À l'exception de SimCLR et des transformations d'orthogonalité, les modèles VICRegL atteignent une précision similaire à celle de Barlow Twins avec un temps d'exécution considérablement inférieur, comme le montrent les résultats obtenus sur ImageNette. Nous observons également un pic d'utilisation du GPU plus faible pour les modèles VICRegL que pour les autres. Il est intéressant de noter que la précision semble être inférieure pour les résultats utilisant les transformations qui se concentrent sur certaines parties locales des images, telles que les transformations DCL et LoRot-I. Inversement, le temps d'exécution et le pic d'utilisation du GPU sont plus faibles pour ces dernières transformations.

ImageNette

Modèle	Taille du batch	Taille de l'entrée	Époques	Test Accuracy Baseline	Test Accuracy SimClr	Test Accuracy Orthogonality	Test Accuracy LoRot-I	Test Accuracy DCL
BarlowTwins	256	224	200	0,705 (123,8Min/11,1GB)	0,772 (127,6Min/11,1GB)	0,728 (132,3Min/11,0GB)	0,675 (80,1Min/11,0GB)	0,667 (90,1Min/11,0GB)
SimCLR	256	224	200	0,679 (119,2Min/10,9GB)	0,705 (135,8Min/11,8GB)	0,682 (142,8Min/11,8GB)	0,616 (64,8Min/11,8GB)	0,626 (69,8Min/11,8GB)
SimSiam	256	224	200	0,682 (119,1Min/11,9GB)	0,691 (142,3Min/11,0GB)	0,667 (142,3Min/12,7GB)	0,611 (66,7Min/12,7GB)	0,642 (66,3Min/12,7GB)
SwaV	256	224	200	0,698 (120,5Min/11,9GB)	0,693 (123,8Min/11,1GB)	0,548 (143,1Min/12,7GB)	0,626 (62,7Min/12,7GB)	0,637 (61,2Min/12,7GB)
BYOL	256	224	200	0,663 (122,4Min/13,3GB)	0,659 (160,9Min/11,0GB)	0,632 (164,2Min/14,2GB)	0,610 (70,1Min/14,2GB)	0,640 (70,0Min/14,2GB)
VICReg	256	224	200	0,653 (121,0Min/11,8GB)	0,718 (195,1Min/10,9GB)	0,684 (196,6Min/12,7GB)	0,613 (60,1Min/11,8GB)	0,619 (59,7Min/11,8GB)
VICRegL, α=0,95	256	224	200	0,746 (60,0Min/7,7GB)	0,744 (157,2Min/6,8GB)	0,713 (160,8Min/8,6GB)	0,702 (59,8Min/7,7GB)	0,704 (59,8Min/7,7GB)
VICRegL, α=0,75	256	224	200	0,743 (59,1Min/7,7GB)	0,744 (159,3Min/7,7GB)	0,712 (171,3Min/8,6GB)	0,700 (59,3Min/8,6GB)	0,701 (56,1Min/8,6GB)
VICRegL, α=0,50	256	224	200	0,740 (58,2Min/7,7GB)	0,742 (178,2Min/7,7GB)	0,706 (188,5Min/8,6GB)	0,697 (57,2Min/7,7GB)	0,697 (54,2Min/7,7GB)
VICRegL, α=0,25	256	224	200	0,741 (58,1Min/7,7GB)	0,742 (178,4Min/6,8GB)	0,706 (198,5Min/8,6GB)	0,695 (56,8Min/7,7GB)	0,693 (53,8Min/7,7GB)

ImageNette v2-160

Modèle	Taille du batch	Taille de l'entrée	Epoque	Test Accuracy Baseline	Test Accuracy SimClr	Test Accuracy Orthogonality	Test Accuracy LoRot	Test Accuracy DCL
BarlowTwins	256	224	200	0,763	0,677	0,653	0,649	0,618
SimCLR	256	224	200	0,685	0,665	0,594	0,588	0,621
SimSiam	256	224	200	0,678	0,663	0,592	0,590	0,652
SwaV	256	224	200	0,678	0,667	0,600	0,597	0,640
BYOL	256	224	200	0,661	0,636	0,587	0,589	0,632
VICReg	256	224	200	0,702	0,634	0,600	0,597	0,605
VICRegL, α=0,95	256	224	200	0,724	0,723	0,698	0,691	0,692
VICRegL, α=0,75	256	224	200	0,721	0,723	0,694	0,684	0,687
VICRegL, α=0,50	256	224	200	0,709	0,710	0,691	0,680	0,682
VICRegL, α=0,25	256	224	200	0,712	0,706	0,690	0,674	0,674

ImageWoof

Modèle	Taille du batch	Taille de l'entrée	Epoque	Test Accuracy Baseline	Test Accuracy SimClr	Test Accuracy Orthogonality	Test Accuracy LoRot	Test Accuracy DCL
BarlowTwins	256	224	200	0,507	0,455	0,460	0,448	0,416
SimCLR	256	224	200	0,457	0,423	0,403	0,396	0,397
SimSiam	256	224	200	0,437	0,420	0,393	0,393	0,401
SwaV	256	224	200	0,051	0,102	0,393	0,395	0,398
BYOL	256	224	200	0,436	0,401	0,392	0,399	0,413
VICReg	256	224	200	0,444	0,429	0,400	0,398	0,381
VICRegL, α=0,95	256	224	200	0,464	0,446	0,443	0,428	0,430
VICRegL, α=0,75	256	224	200	0,465	0,443	0,435	0,425	0,427
VICRegL, α=0,50	256	224	200	0,466	0,443	0,435	0,423	0,420
VICRegL, α=0,25	256	224	200	0,464	0,452	0,440	0,434	0,433

NABirds

Modèle	Taille du batch	Taille de l'entrée	Epoque	Test Accuracy top 1% LoRot	Test Accuracy top 5% LoRot	Test Accuracy top 1% DCL	Test Accuracy top 5% DCL
BarlowTwins	256	224	200	0,082	0,188554	0,093	0,214596
SimCLR	256	224	200	0,079	0,197335	0,097	0,237408
SimSiam	256	224	200	0,042	0,123549	0,061	0,161401
SwaV	256	224	200	0,073	0,193197	0,097	0,230342
BYOL	256	224	200	0,040	0,116786	0,059	0,165540
VICReg	256	224	200	0,083	0,188654	0,099	0,224589
VICRegL α=0,95	256	224	200	0,155	0,334915	0,154	0,333603
VICRegL α=0,75	256	224	200	0,155	0,332694	0,153	0,333199
VICRegL α=0,50	256	224	200	0,150	0,326739	0,150	0,327344
VICRegL α=0,25	256	224	200	0,144	0,314626	0,144	0,316443

Conclusion

- L’apprentissage autosupervisé dans le domaine de la vision par ordinateur consiste à faire en sorte qu'un ordinateur apprenne le monde visuel avec un minimum de supervision humaine.
- Le choix de l'augmentation des données est essentiel pour améliorer la classification dans les problèmes de vision par ordinateur.
- La prise en compte des caractéristiques locales et globales pendant l'apprentissage à l'aide du modèle VICRegL semble offrir le meilleur compromis entre la précision et la capacité de l'ordinateur à améliorer la précision de la classification.
- Les transformations LoRot-I et DCL réalisées uniquement en SSL pur ne sont pas plus performantes que les transformations traditionnelles.
- Les travaux futurs sur l'extension du champ d'application de ces travaux seront effectués, par exemple en utilisant différents backbones, plus d'époques, etc. en particulier sur les ensembles de données ImageWoof et NABirds.
- Dans l’article suivant sur l’apprentissage autosupervisé nous mesurerons l'efficacité de l'utilisation de la transformation en tant que tâche prétexte comme dans le modèle FGVC de Maaz et al. (2021).

Références

Predictive Coding: Towards a Future of Deep Learning beyond Backpropagation? de Millidge et al (2022),
A Simple Framework for Contrastive Learning of Visual Representations de Chen et al. (2020),
Exploring Simple Siamese Representation Learning de Chen et al. (2020),
Exploring Simple Siamese Representation Learning de Chen et He (2020),
Unsupervised Learning of Visual Features by Contrasting Cluster Assignments de Caron et al. (2020),
Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning de Grill et al. (2020),
Barlow Twins: Self-Supervised Learning via Redundancy Reduction de Zbontar et al. (2021),
VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning de Bardes et al. (2021),
VICRegL: Self-Supervised Learning of Local Visual Features de Bardes et al. (2022),
Tailoring Self-Supervision for Supervised Learning de Moon et al. (2022),
Self-Supervised Learning for Fine-Grained Visual Categorization de Maaz et al. (2021),
ImageNette de Howard (2019),
Building a Bird Recognition App and Large Scale Dataset With Citizen Scientists: The Fine Print in Fine-Grained Dataset Collection de Van Horn et al. (2015),
Deep Residual Learning for Image Recognition de He et al. (2015),
PyTorch Image Models (timm) de Wightman (2019)

Commentaires

INTRODUCTION A L’INFORMATIQUE QUANTIQUE

2023-03-16T00:00:00+00:00

Introduction

L'informatique quantique est un domaine de recherche en plein essor, avec de nombreuses applications potentielles dans des domaines tels que la cryptographie, la simulation de molécules pour la découverte de médicaments, l'optimisation de la logistique, et la modélisation de systèmes complexes.
Cette vidéo n’a pas vocation à faire de vous des experts mais vous en saurez plus sur les qubits qui permettent aux ordinateurs quantiques de traiter l'information beaucoup plus rapidement qu’avec des ordinateurs classiques.

Bon visionnage :)

La vidéo

Boris ALBAR

Commentaires

RECONNAISSANCE FACIALE A L’AIDE DE RESEAUX DE NEURONES SIAMOIS

2023-02-24T00:00:00+00:00

Introduction

La reconnaissance faciale vise à permettre l'identification automatique de personnes à partir d’informations caractéristiques extraites de photographies de leur visage. Ces techniques ont considérablement évolué au cours des trois dernières décennies (Bromley et al. se penchaient déjà sur un sujet similaire en 1994), en particulier grâce aux apports de l’intelligence artificielle et notamment de l’apprentissage profond (deep learning).

Les réseaux de neurones sont aujourd’hui au cœur de nombreux dispositifs et équipements utilisés pour l’identification d’individus. Leur conception et leur intégration dépendent naturellement de l’application envisagée et des ressources matérielles disponibles, ainsi que d’autres paramètres importants tels que la disponibilité de jeux de données pour leur entraînement.

La reconnaissance faciale est souvent abordée comme un problème de classification où il s’agit de déterminer, à l’aide d’un réseau de neurones, la classe d’appartenance la plus probable de la photographie du visage d’un individu. Cette approche peut, dans certains cas, poser problème car :
- elle nécessite de devoir disposer d’un jeu de données labellisées assez conséquent, potentiellement fastidieux à constituer et à mettre à jour
- le réseau correspondant doit être réentraîné chaque fois que de nouvelles classes (nouveaux individus à identifier) doivent être ajoutées

Dans les cas où l’on souhaite, par exemple, reconnaître à la volée de nouveaux individus dans un flux vidéo, l’approche par classification se révèle inadaptée et il est donc nécessaire de se tourner vers des solutions moins gourmandes en ressources matérielles et en temps de calcul.

Dans ces cas, on privilégiera la mise en œuvre d’architectures prenant appui sur des fonctions de calcul de similarité que l’on utilisera pour déterminer si les photographies de personnes à identifier correspondent, ou pas, aux représentations d’individus connus, enregistrées dans une base de données (et qui pourra elle-même, le cas échéant, être enrichie en temps réel, au fur et à mesure de la détection de nouveaux visages).

Nous vous proposons ici la description d’une solution de ce type basée sur une architecture siamoise que nous avons notamment testée et mise en œuvre dans le cadre de la RoboCup@Home, compétition internationale dans le domaine de la robotique de service dans laquelle les robots doivent interagir avec des opérateurs humains.

Rendu des sorties de l’algorithme

Architecture générale

La solution de reconnaissance faciale que nous avons développée repose sur l’intégration d’outils et de réseaux de neurones respectivement destinés à :
- détecter les visages d’individus dans une photographie
- produire, pour chaque visage isolé, un vecteur d’identité à 64 dimensions le représentant
- calculer la distance entre les vecteurs associés à deux clichés distincts
- et déterminer, en parcourant une base de données, si le vecteur associé à un visage est proche, ou pas, de celui d’un autre déjà identifié

La détection des visages dans une photographie ou un flux vidéo, puis leur extraction, sont effectuées à l’aide d’outils dont nous parlerons plus loin.

Le cœur du dispositif est quant à lui constitué d’un modèle dont la fonction objectif calcule une similarité permettant de déterminer si deux photographies de visage se réfèrent, ou non, à un même individu.

L’architecture mise en œuvre ici est siamoise et fait intervenir deux instances d’un même réseau de neurones convolutif prenant chacun en entrée une photographie de visage et fournissant en sortie une représentation vectorielle de celui-ci en 64 dimensions.

Aperçu général de l’architecture du dispositif

Le réseau convolutif a été entraîné de manière à fournir des représentations proches, en distance euclidienne, pour deux clichés de visage de la même personne et, inversement, éloignées ou très éloignées pour les clichés de deux personnes différentes.

Les sorties des deux instances du réseau (identiques en tous points et partageant donc la même configuration et les mêmes poids) se rejoignent ensuite et sont alors utilisées pour le calcul d’un score de similarité directement déduit de la distance séparant les représentations vectorielles des clichés fournis en entrée.

Chaque visage détecté dans une photographie ou tiré d’un flux vidéo est alors encodé par le réseau, le vecteur résultant étant comparé à une série d’empreintes connues stockées dans une base de données. Le résultat de cette comparaison, retourné sous la forme d’une valeur scalaire (le score de similarité évoqué précédemment), est alors évalué au regard d’un seuil au-delà duquel on peut considérer les empreintes comme étant identiques et, par suite, l’individu concerné comme étant identifié.

Caractéristiques et entraînement du réseau

Le défi consiste ici à concevoir et à entraîner le réseau convolutif de sorte que des entrées similaires soient projetées en des endroits relativement proches dans l’espace des représentations et, inversement, que des entrées différentes soient projetées en des points éloignés.

Jeu de données utilisé et pré-traitements

Source : https://paperswithcode.com/dataset/vggface2-1

L’entraînement du réseau a été réalisé sur la base du jeu de données VGGFace2 de Cao et al. (2018), un jeu de données accessible publiquement, comportant environ 3,3 millions d’images et se référant à plus de 9000 personnes.

Les images tirées de ce jeu présentant une grande variabilité dans les poses, âge des sujets, expositions, etc., ont été normalisées de manière à identifier les visages et à positionner les points caractéristiques de ceux-ci (yeux, nez, bouche) en des coordonnées identiques quel que soit le cliché considéré.

Cette étape de normalisation des images est critique pour les performances du réseau. La détection des visages a été effectuée à l’aide d’un réseau neuronal RetinaFace de Deng et al. (2019) permettant d’identifier une bounding box du visage ainsi que les points caractéristiques, l’image obtenue étant découpée et transformée de manière à positionner les points caractéristiques aux positions prédéfinies.

Le réseau convolutif positionné au cœur de notre dispositif de reconnaissance faciale a alors été entraîné à partir de ces clichés.

Architecture

Le réseau est construit sur la base d’une architecture EfficientNet-B0 de Tan et Le (2019), ce choix est un compromis entre les diverses contraintes du problème qui nous occupe puisque l’algorithme sera embarqué sur le robot, dans une carte graphique dont les capacités sont limitées. Le nombre de paramètres en mémoire est contraint et la vitesse d’exécution doit être suffisante (la décision doit être rapide car les personnes à identifier peuvent se déplacer, par exemple).

Des temps d’inférence relativement courts caractérisent ce réseau (comparativement à des réseaux plus profonds, certes plus performants mais induisant des temps de traitement significativement plus longs).

Architecture du réseau EfficientNet-B0 de Tan et Le (2019)

Remarques :
- le EfficientNet-B0 est le fruit d’un domaine de recherche qui tient une place importante en apprentissage profond : le NAS (Neural Architecture Search), et qui a pour objet d'automatiser et d'optimiser les architectures des réseaux utilisés. Il a donné lieu à de nombreux réseaux, dont les plus populaires sont les MobileNets de Howard et al. (2017), EfficientNet (Tan et Le (2019)) ou ConvNext de Liu et al. (2022).
- de nos jours les transformers pour la vision (ViT de Dosovitskiy, Beyer, Kolesnikov, Weissenborn, Zha et al. (2020)) sont une alternative aux réseaux de neurones convolutifs. On peut citer par exemple le Swin Transformer de Liu, Lin, Cao, Hu et al. (2021)

Choix de la fonction objectif

L’apprentissage de similarités requiert l’utilisation de fonctions objectif appropriées, parmi lesquelles la contrastive loss de Hadsell et al. (2005) et la triplet loss de Schroff et al. (2015).

La contrastive loss est définie par :

\(L(v_1, v_2)=\frac{1}{2} (1-\alpha)d(v_1, v_2)² + \frac{1}{2} \alpha(max(0,m-d(v_1, v_2)))²\)

où \(v_1\) et \(v_2\) étant deux vecteurs, α est un coefficient qui vaut 1 si les deux vecteurs sont de la même classe, 0 sinon, \(d\) est une fonction de distance quelconque, et \(m\) est un réel appelé la marge.

Intuitivement, cette fonction objectif pénalise deux vecteurs de la même classe par leur distance, tandis que deux vecteurs de classes différentes ne sont pénalisés que si leur distance est inférieure à \(m\).

La fonction triplet loss fait quant à elle intervenir un troisième vecteur, l’ancre, dans son équation:

\(L(a, v_1, v_2)=max(d(a,v_1)²-d(a,v_2)²+m, 0)\)

ici, \(a\) désigne l’ancre, \(v_1\) est un vecteur de la même classe que \(a\) et \(v_2\) est un vecteur d’une classe différente de \(a\).

Cette fonction tend simultanément à rapprocher la paire \((a, v_1)\) et à éloigner la paire \((a, v_2)\) comme présenté sur la figure suivante :

Triplet loss de Schroff et al. (2015)

De manière générale, l’entraînement des réseaux utilisant directement ces fonctions objectif est assez coûteux, la convergence de ce type de systèmes étant plus longue à obtenir que, par exemple, sur de classiques problèmes de classification.

Afin de contourner cette difficulté, nous avons adopté une approche alternative consistant en un entraînement du réseau en deux étapes.

Entraînement

Nous avons dans un premier temps entraîné le réseau sur le problème de classification consistant à reconnaître la photographie d’une personne parmi les 9000 identités disponibles. La fonction de coût étant alors une fonction d’entropie croisée (crossentropy) classique pour un tel problème.

Une fois la convergence du problème de classification obtenue, nous avons remplacé la dernière couche de classification par une nouvelle couche représentant en sortie le plongement de l’image.

Les couches précédentes conservent les poids des couches précédentes issus de l’entraînement à l’étape précédente. Cette idée est similaire à celle de l'apprentissage par transfert (transfert learning) : intuitivement, on cherche à conserver les caractéristiques apprises lors du problème de classification et à les réutiliser pour construire la métrique qui nous intéresse.

Le réseau a alors été réentraîné avec une fonction objectif de type contrastive ou triplet comme vu précédemment.

Cette méthode permet d’entraîner rapidement un réseau siamois.

Source : https://www.catie.fr/cluster-vaniila/

Implémentation et intégration

Le dispositif de reconnaissance faciale été produit par intégration d’outils et de scripts essentiellement codés en langage Python.

Le réseau de neurones est lui-même implémenté à l’aide de PyTorch de Paszke, Gross, Chintala, Chanan et al. (2016), plus précisément en Pytorch Lightning de Falcon et al. (2019), et entraîné avec les ressources de calcul de la plateforme VANIILA du CATIE.

Cela a permis de réaliser les entraînements successifs en un temps raisonnable (moins de deux heures) et les performance obtenues sont apparues tout à fait intéressantes avec un score F1 de 0,92, ce qui est meilleur que les solutions du commerce testées.

Conclusion

Nous avons vu comment une première étape d’extraction et d’alignement des visages suivie, d’une seconde d’entraînement d’un réseau siamois à l’aide d’une fonction de coût adaptée, permet d’appréhender une problématique de reconnaissance faciale.

Une des limites de ce genre de techniques, trouvables dans d’autres domaines, est la nécessité d’un très grand nombre d’images étiquetées pour entraîner le modèle. Cet étiquetage peut être très coûteux voire impossible. Pour remédier à cela, de nouvelles méthodes basées sur l’apprentissage auto-supervisé sont apparues récemment, consistant à entraîner les modèles avec de nombreuses données qui n’ont pas d’étiquette. Nous développerons les détails de ces techniques auto-supervisées dans un prochain article.

Stay tuned !

Epock, le robot du CATIE, pendant la RoboCup 2019

Thierry ARISCAUD et Pierre BÉDU

Références

- A ConvNet for the 2020s de Liu et al. (2022)
- An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale de Dosovitskiy, Beyer, Kolesnikov, Weissenborn, Zha et al. (2020)
- Dimensionality Reduction by Learning an Invariant Mapping de Hadsell et al. (2005)
- EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks de Tan et Le (2019)
- FaceNet: A Unified Embedding for Face Recognition and Clustering de Schroff et al. (2015)
- MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications de Howard et al. (2017)
- PyTorch de Paszke, Gross, Chintala, Chanan et al. (2016)
- Pytorch Lightning de Falcon et al. (2019)
- RetinaFace: Single-stage Dense Face Localisation in the Wild de Deng et al. (2019)
- Signature Verification using a "Siamese" Time Delay Neural Network de Bromley et al. (1994)
- Swin Transformer: Hierarchical Vision Transformer using Shifted Windows de Liu, Lin, Cao, Hu et al. (2021)
- VGGFace2: A dataset for recognising faces across pose and age de Cao et al. (2018)

Commentaires

MECANISMES D’ATTENTION ET APPLICATIONS

2023-01-25T00:00:00+00:00

Introduction

Les mécanismes d’attention ont permis de révolutionner le traitement des séquences en machine learning.
Dans cette vidéo, nous introduisons ces mécanismes à travers deux architectures (les RNNs et les transformers) et présentons des cas d’applications au traitement du langage naturel et à la vision.

Bon visionnage :)

La vidéo

Boris ALBAR