Une étude sur la vision par ordinateur pour la reconnaissance des émotions faciales
MaisonMaison > Nouvelles > Une étude sur la vision par ordinateur pour la reconnaissance des émotions faciales

Une étude sur la vision par ordinateur pour la reconnaissance des émotions faciales

Jul 22, 2023

Rapports scientifiques volume 13, Numéro d'article : 8425 (2023) Citer cet article

510 accès

1 Altmétrique

Détails des métriques

L'intelligence artificielle a été appliquée avec succès dans divers domaines, dont l'un est la vision par ordinateur. Dans cette étude, un réseau de neurones profonds (DNN) a été adopté pour la reconnaissance des émotions faciales (FER). L'un des objectifs de cette étude est d'identifier les traits faciaux critiques sur lesquels le modèle DNN se concentre pour le FER. En particulier, nous avons utilisé un réseau neuronal convolutif (CNN), la combinaison du réseau de compression et d'excitation et du réseau neuronal résiduel, pour la tâche de FER. Nous avons utilisé AffectNet et la base de données des visages affectifs du monde réel (RAF-DB) comme bases de données d'expressions faciales qui fournissent des échantillons d'apprentissage pour le CNN. Les cartes des caractéristiques ont été extraites des blocs résiduels pour une analyse plus approfondie. Notre analyse montre que les caractéristiques autour du nez et de la bouche sont des repères faciaux critiques pour les réseaux de neurones. Des validations croisées de bases de données ont été effectuées entre les bases de données. Le modèle de réseau formé sur AffectNet a atteint une précision de 77,37 % lorsqu'il a été validé sur la RAF-DB, tandis que le modèle de réseau préformé sur AffectNet puis transféré appris sur la RAF-DB donne une précision de validation de 83,37 %. Les résultats de cette étude amélioreraient la compréhension des réseaux de neurones et aideraient à améliorer la précision de la vision par ordinateur.

Dans les communications humaines, les expressions faciales contiennent des informations non verbales essentielles qui peuvent fournir des indices et des significations supplémentaires aux communications verbales1. Certaines études ont suggéré que 60 à 80 % de la communication est non verbale2. Ces informations non verbales comprennent les expressions faciales, le contact visuel, le ton de la voix, les gestes des mains et la distanciation physique. En particulier, l'analyse de l'expression faciale est devenue un sujet de recherche populaire3. La reconnaissance émotionnelle faciale (FER) a été appliquée dans le domaine de l'interaction homme-machine (HCI) dans des domaines tels que le pilote automatique, l'éducation, le traitement médical, le traitement psychologique4, la surveillance et l'analyse psychologique en vision par ordinateur5,6.

En psychologie et en vision par ordinateur, les émotions sont classées en modèles catégoriels ou dimensionnels (valence et excitation)7,8,9. Dans le modèle catégorique, Ekman et al.7 ont défini les émotions humaines de base comme le bonheur, la colère, le dégoût, la peur, la tristesse et la surprise. Dans le modèle dimensionnel, l'émotion est évaluée par des échelles numériques continues pour la détermination de la valence et de l'excitation. Le FER est une tâche importante en vision par ordinateur qui a de nombreuses applications pratiques et le nombre d'études sur le FER a augmenté ces dernières années10,11,12,13, bénéficiant des avancées apportées par les réseaux de neurones profonds. En particulier, les réseaux de neurones convolutifs (CNN) ont obtenu d'excellents résultats en termes d'extraction de caractéristiques. Par exemple, He et al.14 ont proposé l'architecture de réseau neuronal résiduel (ResNet) en 2015, qui a ajouté l'apprentissage résiduel à un CNN pour résoudre les problèmes de gradient de disparition et de diminution de la précision des réseaux profonds.

Plusieurs auteurs ont appliqué des modèles de réseaux de neurones pour classer les émotions selon des modèles catégoriels15,16,17,18,19,20,21,22,23 et des modèles dimensionnels15,23,24,25,26. Huang27 a appliqué une architecture de bloc résiduel à un VGG CNN pour effectuer la reconnaissance des émotions et a obtenu une précision améliorée. Mao et al.28 ont proposé un nouveau modèle FER appelé POSTER V2, qui vise à améliorer les performances de la technique de pointe et à réduire le coût de calcul requis en introduisant un mécanisme d'attention croisée basé sur la fenêtre et des caractéristiques multi-échelles des repères faciaux. Pour incorporer plus d'informations dans le processus de reconnaissance automatique des émotions, certaines études récentes ont fusionné plusieurs modalités, telles que les modalités temporelles, audio et visuelles10,17,18,23,25, dans l'algorithme. De plus, des mécanismes d'attention ont été adoptés par plusieurs études17,18,19,20,22,25 pour les tâches FER. Zhang et al.19 ont appliqué la cartographie d'activation de classe pour analyser les cartes d'attention apprises par leur modèle. Il a été constaté que le modèle pouvait être régularisé en retournant sa carte d'attention et en effaçant au hasard une partie des images d'entrée. Wang et al.22 ont introduit une branche d'attention pour apprendre un masque facial qui met en évidence les parties discriminantes pour le FER. Ces études montrent que les mécanismes d'attention jouent un rôle critique dans le FER. Plusieurs approches pour FER utilisent des mécanismes d'auto-attention pour capturer les contextes locaux et mondiaux à travers un ensemble de couches convolutionnelles pour l'extraction de caractéristiques29,30,31. Les caractéristiques extraites sont ensuite utilisées comme entrées d'un module d'attention relationnelle, qui utilise l'auto-attention pour capturer les relations entre les différents correctifs et le contexte.

Cependant, le déploiement pratique des systèmes de reconnaissance faciale reste une tâche difficile, en raison de la présence de bruit, d'annotations ambiguës32 et de scènes compliquées dans le monde réel33,34,35. Étant donné que les modules d'attention se sont avérés efficaces pour les tâches de vision par ordinateur, l'application des modules d'attention aux tâches FER est d'un grand intérêt. De plus, en psychologie, les traits du visage pour le FER par l'homme ont été analysés. Les résultats présentés par Beaudry et al.35 suggèrent que la bouche est le repère majeur lors de l'observation d'une émotion heureuse et que les yeux sont les repères majeurs lors de l'observation d'une émotion triste. De même, le modèle DNN extrait les caractéristiques discriminantes pour le FER. Il est avantageux d'appliquer le mappage d'activation de classe pour identifier les caractéristiques discriminantes apprises par le réseau à chaque couche. Il a été démontré que la méthode de cartographie d'activation de classe peut être utilisée pour la reconnaissance de la localisation autour des yeux à des fins d'analyse des mouvements37,38. Les cartes de caractéristiques produites pourraient fournir une meilleure compréhension de la performance du modèle développé.

Dans cette étude, le module de compression et d'excitation (SENet) a été utilisé avec ResNet-18 pour obtenir un modèle relativement léger pour le FER. Ce modèle a moins de paramètres entraînables (environ 11,27 millions) que les quelque 23 millions de paramètres requis pour ResNet-50 et les quelque 86 millions de paramètres du transformateur de vision. L'efficacité de l'approche proposée a été évaluée sur deux ensembles de données FER, à savoir AffectNet et la base de données des visages affectifs du monde réel (RAF-DB). Les deux ensembles de données contiennent une grande quantité de données sur les émotions faciales, y compris celles de diverses cultures et races. Le nombre d'images dans AffectNet est environ 20 fois supérieur à celui de RAF-DB. Les images dans AffectNet sont plus diverses et plus sauvages que celles de RAF-DB. Le réseau de neurones a été formé pour extraire des informations émotionnelles d'AffectNet et de RAF-DB. Une validation croisée des bases de données entre l'ensemble de données AffectNet et la RAF-DB a été effectuée. Les résultats montrent qu'une précision de formation de 79,08 % et une précision de validation de 56,54 % ont été obtenues avec AffectNet. Une précision de formation de 76,51 % et une précision de validation de 65,67 % ont été obtenues avec RAF-DB. L'apprentissage par transfert a été appliqué sur RAF-DB avec un poids pré-entraîné obtenu avec AffectNet. La précision de la prédiction après l'apprentissage par transfert augmente considérablement sur l'ensemble de données RAF-DB. Les résultats suggèrent que l'apprentissage par transfert peut être effectué pour des ensembles de données plus petits avec une culture, une région ou un contexte social particulier36 pour des applications spécifiques. L'apprentissage par transfert permet au modèle d'apprendre les émotions faciales d'une population particulière avec une base de données plus petite et d'obtenir des résultats précis. De plus, les images dans AffectNet et RAF-DB avec un score softmax supérieur à 90 % ont été sélectionnées pour identifier les repères faciaux importants qui ont été capturés par le réseau. On constate que dans les couches peu profondes, les traits dominants extraits sont des lignes fines, alors que dans les couches profondes, les régions proches de la bouche et du nez sont plus importantes.

La base de données AffectNet contient 456 349 images d'émotions faciales obtenues à partir de trois moteurs de recherche, Google, Bing et Yahoo, dans six langues différentes. Les images ont été étiquetées avec les 11 émotions suivantes : neutralité, bonheur, tristesse, surprise, peur, dégoût, colère, mépris, aucune, incertain et non-visage. Parmi ces émotions, « incertain » signifie que l'image donnée ne peut être classée dans l'une des autres catégories, et « sans visage » signifie que l'image contient des expressions, des animations, des dessins ou des filigranes exagérés. Mollahosseini et al.15 ont embauché des annotateurs pour classer manuellement les émotions définies dans AffectNet. De plus, AffectNet est fortement déséquilibré en termes de nombre d'images de chaque catégorie d'émotion. Par exemple, le nombre d'images représentant "heureux" est presque 30 fois plus élevé que le nombre d'images représentant "dégoût". Le nombre d'images pour chaque catégorie est indiqué dans le tableau 1. La figure 1 montre des exemples d'images pour les 11 émotions contenues dans AffectNet. Dans cette étude, nous utilisons sept catégories, surprise, peur, dégoût, colère, tristesse, bonheur et neutralité, dans AffectNet.

Catégories d'images des visages contenues dans la base de données AffectNet12.

Le RAF-DB est fourni par le Laboratoire de reconnaissance de formes et de systèmes intelligents (PRIS Lab) de l'Université des postes et télécommunications de Pékin39. La base de données se compose de plus de 300 000 images faciales provenant d'Internet, qui sont classées en sept catégories : surprise, peur, dégoût, colère, tristesse, bonheur et neutralité. Chacune des images contient 5 points de repère précis et 37 points de repère automatiques. Le RAF-DB contient également une grande variété d'informations en termes d'âges, de races, de gestes de la tête, de niveaux d'exposition à la lumière et de blocage. L'ensemble d'apprentissage contient cinq fois plus d'images que l'ensemble de test. La figure 2 montre des exemples d'images pour les sept émotions contenues dans le RAF-DB. Le tableau 1 montre le nombre d'images utilisées dans cet article pour chaque émotion de chaque base de données.

Catégories d'images des visages contenues dans la base de données RAF-DB37.

SENet est une nouvelle architecture de reconnaissance d'images développée en 201740. Le réseau renforce les fonctionnalités critiques en comparant les corrélations entre les canaux de fonctionnalités pour obtenir une précision de classification accrue. La figure 3 montre l'architecture SENet, qui contient trois opérations principales. L'opération de compression extrait les informations sur les caractéristiques globales de la couche de convolution précédente et effectue un regroupement moyen global sur la carte des caractéristiques pour obtenir un tenseur de caractéristiques (Z) de taille 1 × 1 × \({\text{C}}\) (nombre de canaux), dans lequel l'élément \({\text{c}} - {\text{th}}\) est calculé par :

où \(F_{sq}\) est l'opération de mise en commun moyenne globale, \(u_{c}\) est la matrice bidimensionnelle \({\text{c}} - {\text{th}}\) , W × H représente les dimensions de chaque canal et C est le nombre de canaux.

Le schéma du module de démarrage SENet.

L'équation (1) est suivie de deux couches entièrement connectées. La première couche réduit le nombre de canaux de \({\text{C}}\) à \({\text{C}}/{\text{r}}\) pour réduire le nombre de calculs requis (r est le taux de compression), et la deuxième couche augmente le nombre de canaux à \({\text{C}}\). L'opération d'excitation est définie comme suit :

où \({\upsigma }\) est la fonction d'activation sigmoïde, \(\delta\) est la fonction d'excitation de l'unité linéaire rectifiée (ReLU), et \(W_{1}\) et \(W_{2}\) sont les poids pour réduire et augmenter la dimensionnalité, respectivement.

L'opération d'échelle multiplie le tenseur de caractéristique par l'excitation. Cette opération capture l'importance de chaque canal via l'apprentissage des caractéristiques. Le canal correspondant est ensuite multiplié par le poids gagné pour discerner les informations majeures et mineures pour l'ordinateur38. La formule de l'opération de mise à l'échelle, qui est utilisée pour obtenir la sortie finale du bloc, est illustrée ci-dessous.

où le point est l'opération de multiplication par canal et \(S_{c}\) est la sortie de l'opération d'excitation.

ResNet a été proposé par He et al.11 pour résoudre le problème du gradient de fuite dans un réseau profond. ResNet introduit un bloc résiduel dans un CNN conventionnel. La figure 4 montre le bloc résiduel dans l'architecture ResNet. Le concept de bloc résiduel consiste à combiner la sortie de la couche convolutive précédente avec la couche convolutive suivante dans le ResNet. Il a été montré dans plusieurs études que les blocs résiduels atténuent le problème de gradient de fuite rencontré par un réseau plus profond. Par conséquent, les blocs résiduels ont été adoptés dans plusieurs architectures37,38.

Bloc résiduel de l'architecture ResNet.

SE-ResNet combine les architectures SENet et ResNet présentées ci-dessus et ajoute le bloc SE de SENet à ResNet. Le bloc SE est utilisé pour saisir la signification de chaque canal afin de déterminer s'il contient des informations majeures ou mineures. Les informations sur les caractéristiques de la couche convolutive précédente sont ensuite combinées avec la couche suivante par le bloc résiduel. Cette méthode peut atténuer la précision décroissante causée par le problème de gradient de fuite qui se produit lors de l'augmentation des couches réseau. La figure 5 montre l'architecture réseau de SE-ResNet.

Le schéma du module SE-Resnet.

Dans cette étude, nous avons extrait sept catégories d'AffectNet pour nous assurer qu'AffectNet et le RAF-DB ont été validés avec des catégories identiques. L'architecture SE-ResNet a été adoptée comme modèle de réseau neuronal pour la formation et les tests. Une comparaison et une validation croisée des bases de données ont été menées entre RAF-DB et AffectNet. Pour obtenir de meilleures performances, la technique d'apprentissage par transfert a été utilisée. Le modèle formé sur AffectNet a été appliqué comme modèle préformé pour former RAF-DB.

Les cartes de caractéristiques dérivées de chaque bloc SE ont été imprimées pour déterminer quels repères faciaux contiennent des informations majeures pour le réseau. Seules les images d'émotions faciales avec un score softmax supérieur à 90 % ont été adoptées pour garantir l'objectivité et la précision. Des exemples de cartes de caractéristiques imprimées à partir d'AffectNet sont illustrés à la Fig. 6. Les cartes de caractéristiques imprimées à partir de la RAF-DB sont illustrées à la Fig. 7.

Cartes des caractéristiques des différentes couches de blocs SE (AffectNet).

Cartes des caractéristiques des différentes couches de blocs SE (RAF-DB).

Dans cette expérience, le matériel d'entraînement était un GPU NVIDIA TITAN RTX 24 Go. La taille de l'image d'entrée était de 256 × 256 pixels avec augmentation des données. Pour le processus de formation, les tonalités des images d'entrée ont été modifiées. Les images ont été tournées au hasard entre + / - 30 degrés et recadrées selon les quatre coins et le centre en cinq images de taille 224 × 224 pixels. À des fins de validation, les images d'entrée ont été recadrées du centre à une taille finale de 224 × 224 pixels. L'algorithme d'optimisation et la fonction de perte étaient la descente de gradient stochastique et la fonction de perte d'entropie croisée, respectivement. Vingt époques ont été utilisées et le taux d'apprentissage initial a été fixé à 0,01. Le momentum était de 0,9 et la taille du lot pour la formation était de 100.

L'ensemble de données AffectNet et la base de données RAF ont été validés dans cette étude. Le modèle formé sur AffectNet a été utilisé pour prédire le RAF-DB, et le modèle formé sur le RAF-DB a été utilisé pour prédire AffectNet. Les résultats sont présentés dans le tableau 2. Parce qu'AffectNet présente plus de diversité en termes de données d'émotions faciales et plus d'images, lorsque le modèle formé sur AffectNet a prédit le RAF-DB, une précision de 77,37 % a été obtenue, ce qui était nettement supérieur à la précision obtenue en s'entraînant directement sur le RAF-DB (65,67 %). En revanche, une faible précision (42,6 %) a été obtenue pour AffectNet prédit par le modèle formé sur le RAF-DB. La différence peut être comprise par le fait que les images dans AffectNet sont plus nombreuses et plus complexes.

Les précisions obtenues sur AffectNet et RAF-DB par SE-ResNet ont été comparées dans cette étude. RAF-DB donne une précision supérieure à AffectNet, comme le montre le tableau 3. Cependant, cela était attendu puisque l'ensemble de données RAF-DB présente des images plus contraintes. La précision du modèle proposé sur AffectNet est de 56 %, ce qui est légèrement inférieur à la précision de 58 % obtenue dans l'article original19 qui proposait AffectNet. Cependant, comme mentionné dans l'article original15, l'accord entre deux annotateurs humains était de 60 % sur 36 000 images. Notre résultat est comparable à ce taux d'accord.

De plus, nous avons effectué un apprentissage par transfert en préformant le modèle sur AffectNet, suivi d'une formation sur le RAF-DB. Comme le montre le tableau 4, la précision de la validation sur la RAF-DB a augmenté de 26,95 % ([(précision avec modèle pré-entraîné – précision sans modèle pré-entraîné)/précision sans modèle pré-entraîné = (83,37–65,67) / 65,67] × 100 %) et était supérieure à celle du modèle entraîné directement avec la RAF-DB. Comparé à la précision de 76,73 % obtenue en21 par le CNN d'ensemble multirégional, l'apprentissage par transfert avec un seul réseau est plus performant que le CNN d'ensemble qui utilise des fonctionnalités globales et locales. Ce résultat indique qu'AffectNet fournit des poids pré-entraînés utiles en raison de la grande diversité de l'ensemble de données. La diversité des origines culturelles et raciales des images dans l'ensemble de données AffectNet fournit un ensemble de formation plus représentatif et inclusif, conduisant à un système de reconnaissance plus robuste et plus précis. Le résultat met en évidence l'importance de prendre en compte la diversité des données et l'apprentissage par transfert dans le développement et le déploiement des algorithmes FER.

Les matrices de confusion normalisées prédites par le modèle formé sur AffectNet pour AffectNet et RAF-DB sont illustrées aux Fig. 8a et b, respectivement. Les matrices de confusion normalisées prédites par le modèle après apprentissage par transfert pour RAF-DB sont données à la Fig. 8c. Les figures 8a et b montrent que le modèle a tendance à faussement classer les images comme "neutres". Cela suggère que les caractéristiques discriminantes apprises d'AffectNet sont similaires entre les catégories "neutre" et les autres. De plus, la comparaison entre les Fig. 8b et c montre qu'après l'apprentissage par transfert, le modèle classe les émotions dans le RAF-DB de manière plus précise et uniforme.

Matrice de confusion normalisée pour AffectNet et RAF-DB (a) AffectNet, (b) RAF-DB et (c) RAF-DB avec modèle pré-entraîné.

On peut voir à partir des matrices de confusion normalisées que la précision de la classification est positivement corrélée avec le nombre d'images dans l'ensemble de données, comme indiqué dans le tableau 1. Dans la figure 8 a, l'ensemble de données AffectNet contient le plus petit nombre d'images "dégoûtantes", ce qui se traduit par la précision la plus faible dans la matrice de confusion normalisée. En revanche, le nombre d'images de la catégorie "heureux" est le plus élevé dans AffectNet et, par conséquent, donne la plus grande précision dans la matrice de confusion normalisée pour cette catégorie. La même conclusion peut être obtenue à partir des Fig. 8b et c pour RAF-DB.

Cette étude examine les caractéristiques importantes que le réseau apprend à classer les émotions faciales. Les cartes de caractéristiques dans AffectNet avec des scores softmax (P) supérieurs à 90 % sont visualisées sur la Fig. 9. Il est montré que la bouche, le nez et les autres lignes du visage sont des informations majeures, tandis que les yeux et les oreilles sont des informations mineures. Ceci est similaire aux résultats trouvés dans Beaudry et al.35 selon lesquels la bouche est le repère majeur lorsque le réseau neuronal prédit une émotion heureuse. Les cartes des caractéristiques des images mal classées sont également visualisées sur la figure 10 pour des comparaisons avec celles qui ont été correctement classées. En observant les cartes de caractéristiques des images mal classées, il est évident que les caractéristiques importantes des images sont similaires à celles des images correctement classées. On peut observer à partir des Figs. 9 et 10 que le réseau a tendance à détecter les bords et les lignes dans les couches peu profondes et se concentre davantage sur les caractéristiques locales, comme la bouche et le nez, dans les couches plus profondes.

Cartes de fonctionnalités avec un score softmax supérieur à 90 % (AffectNet).

Cartes d'entités mal classées (AffectNet).

L'ensemble de données sur les émotions faciales asiatiques41 se compose d'images de 29 acteurs âgés de 19 à 67 ans. Les images ont été prises sous des angles frontal, 3/4 de côté et de côté. La figure 11 montre quelques exemples d'images de l'ensemble de données sur les émotions faciales asiatiques. Le nombre d'images de chaque classe est donné dans le tableau 5. Il n'y a que six catégories étiquetées dans cet ensemble de données. La catégorie "neutralité" n'est pas fournie dans cet ensemble de données. Par conséquent, dans la couche de sortie du modèle, qui a été entraînée pour prédire les probabilités de 7 catégories, la probabilité de "neutralité" a été spécifiée comme nulle.

Exemples d'images de l'ensemble de données sur les émotions faciales asiatiques39.

L'ensemble de données sur les émotions faciales asiatiques a été testé avec le modèle formé sur AffectNet. Les images ont été redimensionnées à 256 × 256 pixels puis recadrées à 224 × 224 pixels avec leurs faces centrées. La précision moyenne dérivée était de 61,99 %, ce qui était légèrement supérieur à celui d'AffectNet. Semblable aux résultats de validation d'AffectNet, la catégorie "heureux" a donné le score le plus élevé, tandis que "peur" et "dégoût" avaient les scores les plus bas. La matrice de confusion normalisée est illustrée à la Fig. 12 et les cartes de caractéristiques sont illustrées à la Fig. 13. Contrairement aux cartes de caractéristiques d'AffectNet, les emplacements discriminants n'étaient pas centrés autour de la bouche et du nez, mais plutôt sur la moitié droite du visage. Cela montre que le modèle manquait de généralisabilité pour les visages asiatiques en laboratoire. Cette expérience montre que le modèle formé sur AffectNet a des performances de prédiction limitées sur d'autres ensembles de données.

Matrice de confusion normalisée produite pour l'ensemble de données sur les émotions faciales asiatiques testé avec le modèle formé sur AffectNet.

Cartes de caractéristiques produites pour l'ensemble de données sur les émotions faciales asiatiques.

Le processus d'interprétation des expressions faciales est également soumis à des différences culturelles et individuelles qui ne sont pas prises en compte par le modèle lors de la phase de formation. Les cartes des caractéristiques des Fig. 9 et 10 montrent que le modèle proposé se concentrait davantage sur la bouche et le nez mais moins sur les yeux. Pour obtenir des résultats FER corrects, des caractéristiques subtiles telles que les rides et les yeux peuvent également être essentielles. Cependant, le modèle proposé ne capture pas les caractéristiques éloignées de la bouche ou du nez. Les résultats des tests obtenus sur l'ensemble de données sur les émotions du visage asiatique montrent que les régions discriminantes sont biaisées vers la moitié droite du visage. Cette constatation indique que la généralisabilité limitée du modèle aux visages asiatiques en laboratoire. Bien qu'AffectNet soit un ensemble de données diversifié contenant des représentations de diverses cultures et races, il est toujours limité à une infime partie de la population mondiale. En revanche, la RAF-DB contient des groupes ethniques similaires et des paramètres similaires à AffectNet. Les résultats de validation obtenus sur le RAF-DB (77,37%) sont meilleurs que ceux sur l'ensemble de données d'émotions faciales asiatiques. Les résultats montrent que pour des ensembles de données avec des groupes ethniques similaires, le modèle entraîné sur un ensemble de données plus diversifié et plus sauvage (AffectNet) effectue une meilleure prédiction sur un ensemble de données plus contraint (le RAF-DB dans ce travail).

Cette étude porte sur la façon dont le modèle de réseau neuronal apprend à identifier les émotions faciales. Les caractéristiques affichées sur les images d'émotion ont été dérivées avec un CNN, et ces caractéristiques émotionnelles ont été visualisées pour déterminer les repères faciaux qui contiennent des informations majeures. Les conclusions tirées sur la base des résultats sont énumérées ci-dessous.

Une expérience de validation croisée de bases de données a été menée pour AffectNet et RAF-DB. Une précision de 77,37 % a été obtenue lorsque le RAF-DB a été prédit par le modèle formé sur AffectNet. La précision est comparable au résultat de21. Une précision de 42,6 % a été obtenue lorsque AffectNet a été prédit par le modèle formé sur RAF-DB. Ces résultats concordent avec le fait qu'AffectNet présente plus de diversité que RAF-DB en termes d'images d'émotions faciales. De plus, l'apprentissage par transfert augmente considérablement la précision de 26,95 % pour RAF-DB. La découverte met en évidence l'importance de l'utilisation de l'apprentissage par transfert pour améliorer les performances des algorithmes FER en entraînant les modèles associés sur AffectNet pour les poids pré-entraînés.

Les cartes de caractéristiques émotionnelles visualisées montrent que la bouche et le nez contiennent les informations principales, tandis que les yeux et les oreilles contiennent les informations mineures lorsque le réseau neuronal apprend à effectuer le FER. Ce paradigme est similaire à la façon dont l'homme observe les émotions.

Lorsque l'on compare les cartes d'entités qui ont été correctement classées (celles avec des scores softmax supérieurs à 90 %) avec celles qui ont été mal classées, on peut voir que le modèle de réseau se concentre sur des entités similaires sans différences majeures. Ce résultat indique que FER nécessite l'observation de grandes taches à proximité de zones distinctives sur un visage.

Les ensembles de données appliqués dans cette étude sont disponibles avec l'autorisation des sites Web suivants pour AffectNet (http://mohammadmahoor.com/affectnet/), la base de données Real-World Affective Faces (RAF-DB ; http://www.whdeng.cn/raf/model1.html) et l'ensemble de données sur les émotions faciales asiatiques (http://mil.psy.ntu.edu.tw/ssnredb/logging.php?action=login). Cependant, des restrictions s'appliquent à la disponibilité de ces données, qui ont été utilisées sous licence pour l'étude actuelle et ne sont donc pas accessibles au public. Les données sont cependant disponibles auprès des auteurs sur demande raisonnable et avec l'autorisation d'AffectNet, de la RAF-DB et de l'ensemble de données sur les émotions faciales asiatiques. Les processus de formation et d'analyse sont abordés dans la méthodologie de recherche.

Vo, TH, Lee, GS, Yang, HJ & Kim, SH Pyramide avec une super résolution pour la reconnaissance des expressions faciales dans la nature. Accès IEEE 8, 131988–132001 (2020).

Article Google Scholar

Mehrabian, A. Communication non verbale (Aldine Transaction, 2007).

Ekman, P. Darwin, tromperie et expression faciale. Ann. NY Acad. Sci. 1000, 205–2 (Courtley & Jridi, 2020) (2006).

Farzaneh, AH & Qi, X. Reconnaissance de l'expression faciale dans la nature via la perte profonde du centre attentif lors de la conférence d'hiver 2021 de l'IEEE sur les applications de la vision par ordinateur (WACV) 2401–2410 (IEEE, 2021).

Alnuaim, AA et al. Interaction homme-ordinateur pour reconnaître les émotions de la parole à l'aide d'un classificateur de perceptron multicouche. J. Santéc. Ing. 2022, 6005446 (2022).

Article PubMed PubMed Central Google Scholar

Kumari, HMLS Reconnaissance de l'expression faciale à l'aide d'un réseau neuronal convolutif avec augmentation des données et apprentissage par transfert (2022).

Ekman, P., Dalgleish, T. & Power, M. Manuel de cognition et d'émotion (Wiley, 1999).

Ekman, P. Existe-t-il des émotions de base ?. Psychol. Rev.99, 550–553 (1992).

Article CAS PubMed Google Scholar

Russell, JA Un modèle circumplex d'affect. J. Pers. Soc. Psychol. 39, 1161-1178 (1980).

Article Google Scholar

Goodfellow, IJ et al. Challenges in representation learning: A report on three machine learning contests in Neural information processing (eds. Lee, M., Hirose, A., Hou, Z. & Kil, R) 117–124 (Springer, 2013).

Maithri, M. et al. Reconnaissance automatisée des émotions : tendances actuelles et perspectives d'avenir. Calcul. Méthode Prog. Biomédical. 215, 106646 (2022).

Article CAS Google Scholar

Li, S. & Deng, W. Reconnaissance de l'expression faciale profonde : une enquête. IEEE Trans. Affecter. Calcul. 13, 1195-1215 (2022).

Article Google Scholar

Canal, FZ et al. Une enquête sur les techniques de reconnaissance des émotions faciales : une revue de la littérature sur l'état de l'art. Inf. Sci. 582, 593–617 (2022).

Article Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. Apprentissage résiduel profond pour la reconnaissance d'images lors de la conférence IEEE 2016 sur la vision par ordinateur et la reconnaissance de formes (CVPR) 770–778 (IEEE, 2016).

Mollahosseini, A., Hasani, B. & Mahoor, MH AffectNet : une base de données pour l'expression faciale, la valence et l'excitation informatique dans la nature. IEEE Trans. Affecter. Calcul. 10, 18–31 (2019).

Article Google Scholar

Schoneveld, L. & Othmani, A. Vers un extracteur général de caractéristiques profondes pour la reconnaissance des expressions faciales en 2021 Conférence internationale IEEE sur le traitement d'image (ICIP) 2339–2342 (IEEE, 2021).

Rajan, V., Brutti, A. & Cavallaro, A. L'attention croisée est-elle préférable à l'auto-attention pour la reconnaissance multimodale des émotions ? dans ICASSP 2022–2022 Conférence internationale IEEE sur l'acoustique, la parole et le traitement du signal (ICASSP) 4693–4697 (IEEE, 2022).

Zhuang, X., Liu, F., Hou, J., Hao, J. & Cai, X. Réseau d'attention multimodal interactif basé sur transformateur pour la détection de sentiments vidéo. Processus neuronal. Lett. 54, 1943-1960 (2022).

Article Google Scholar

Zhang, Y., Wang, C., Ling, X. & Deng, W. Apprendre de tous : Effacer la cohérence de l'attention pour la reconnaissance de l'expression faciale des étiquettes bruyantes dans Lecture notes in computer science (eds. Avidan, S., Brostow, G., Cissé, M., Farinella, GM & Hassner T.) 418–434 (Springer, 2022).

Savchenko, AV, Savchenko, LV & Makarov, I. Classification des émotions et de l'engagement dans l'apprentissage en ligne basé sur un seul réseau neuronal de reconnaissance d'expression faciale. IEEE Trans. Affecter. Calcul. 13, 2132-2143 (2022).

Article Google Scholar

Fan, Y., Lam, JCK & Li, VOK Réseau neuronal convolutif d'ensemble multirégional pour la reconnaissance de l'expression faciale dans les réseaux de neurones artificiels et l'apprentissage automatique—ICANN 2018 (eds).

Wang, Z., Zeng, F., Liu, S. & Zeng, B. OAENet : Ensemble d'attention orientée pour une reconnaissance précise des expressions faciales. Reconnaissance de modèle. 112, 107694 (2021).

Article Google Scholar

Schoneveld, L., Othmani, A. & Abdelkawy, H. Tirer parti des progrès récents de l'apprentissage en profondeur pour la reconnaissance des émotions audiovisuelles. Reconnaissance de modèle. Lett. 146, 1–7 (2021).

Annonces d'article Google Scholar

Hwooi, SKW, Othmani, A. & Sabri, AQM Approche basée sur l'apprentissage en profondeur pour la prédiction continue de l'affect à partir d'images d'expression faciale dans l'espace de valence-excitation. Accès IEEE 10, 96053–96065 (2022).

Article Google Scholar

Sun, L., Lian, Z., Tao, J., Liu, B. et Niu, M. Reconnaissance multimodale des émotions dimensionnelles continues à l'aide d'un réseau de neurones récurrent et d'un mécanisme d'auto-attention dans Actes du 1er international sur l'analyse des sentiments multimodaux dans le défi et l'atelier des médias réels 27–34 (ACM, 2020).

Allognon, SOC, de S. Britto, A. & Koerich, AL Reconnaissance continue des émotions via un auto-encodeur convolutif profond et un régresseur vectoriel de support lors de la conférence internationale conjointe 2020 sur les réseaux de neurones (IJCNN) 1–8 (IEEE, 2020).

Huang, C. Combinant les réseaux neuronaux convolutifs pour la reconnaissance des émotions en 2017 IEEE MIT undergraduate research technology conference (URTC) 1–4 (IEEE, 2017).

Mao, J. et al. POSTER V2 : Un réseau de reconnaissance des expressions faciales plus simple et plus puissant. prétirage arXiv arXiv:2301.12149 (2023).

Le, N. et al. Apprentissage de la distribution d'étiquettes sensible à l'incertitude pour la reconnaissance des expressions faciales lors de la conférence d'hiver 2023 IEEE/CVF sur les applications de la vision par ordinateur (WACV) 6088–6097 (IEEE, 2023).

Singh, S. & Prasad, SVAV Techniques et défis de la reconnaissance faciale : une revue critique. Proc. Calcul. Sci. 143, 536-543 (2018).

Article Google Scholar

Kortli , Y. , Jridi , M. , Falou , AA & Atri , M. Systèmes de reconnaissance faciale : une enquête . Sensors (Bâle, Suisse) 20, 342 (2020).

Article ADS PubMed Google Scholar

Shirazi, MS & Bati, S. Évaluation des CNN prêts à l'emploi pour la reconnaissance de l'expression faciale dans Notes de cours sur les réseaux et les systèmes (éd. Arai, K.) 466–473 (Springer, 2022).

Chen, D., Wen, G., Li, H., Chen, R. & Li, C. Réseau averti multi-relations pour la reconnaissance des expressions faciales dans la nature. IEEE Trans. Circuits Syst. Technologie vidéo. https://doi.org/10.1109/tcsvt.2023.3234312 (2023).

Article Google Scholar

Heidari, N. & Iosifidis, A. Apprentissage de représentations de caractéristiques diversifiées pour la reconnaissance des expressions faciales dans la nature. prétirage arXiv arXiv:2210.09381 (2022).

Beaudry, O., Roy-Charland, A., Perron, M., Cormier, I. & Tapp, R. Traitement caractéristique en reconnaissance des expressions faciales émotionnelles. Conn. Émot. 28, 416–432 (2013).

Article PubMed Google Scholar

Bhattacharyya, A. et al. Un modèle d'apprentissage en profondeur pour classer les expressions faciales humaines à partir d'images thermiques infrarouges. Sci. Rep. 11, 20696 (2021).

Article ADS CAS PubMed PubMed Central Google Scholar

Alp, N. & Ozkan, H. Corrélats neuronaux des processus d'intégration lors de la perception dynamique du visage. Sci. Rep. 12, 118 (2022).

Article ADS CAS PubMed PubMed Central Google Scholar

Siddiqi, MH Système de reconnaissance d'expression faciale précis et robuste utilisant des ensembles de données YouTube en temps réel. Appl. Renseignement. 48, 2912-2929 (2018).

Article Google Scholar

Li, S., Deng, WH & Du, JP Crowdsourcing fiable et apprentissage profond préservant la localité pour la reconnaissance d'expression dans la nature lors de la conférence IEEE 2017 sur la vision par ordinateur et la reconnaissance de formes (CVPR) 2584–2593 (IEEE, 2017).

Hu, J., Shen, L. & Sun, G. Squeeze-and-excitation networks in 2018 IEEE/CVF conference on computer vision and pattern recognition 7132–7141 (IEEE, 2018).

Chen, CC, Cho, SL & Tseng, RY Corpus taïwanais d'émotions chinoises et données psychophysiologiques pertinentes - Norme d'évaluation comportementale pour les expressions faciales des interprètes professionnels. Menton. J. Psychol. 55, 439–454 (2013).

Google Scholar

Télécharger les références

Ce travail a été financé en partie par le National Science and Technology Council (numéro de projet MOST 111-2635-E-242-001 -).

Département de génie mécanique, Université nationale des sciences et technologies de Kaohsiung, Kaohsiung, Taïwan

Zi-Yu Huang, Chia-Chin Chiang et Hsin-Lung Chung

Institut universitaire de physique appliquée, Université nationale Chengchi, Taipei, Taïwan

Jian-Hao Chen & Hsiu-Chuan Hsu

Département de la sécurité et de l'hygiène au travail, Université Fooyin, Kaohsiung, Taïwan

Yi-Chian Chen

Département des sciences infirmières, Hsin Sheng Junior College of Medical Care and Management, Taoyuan, Taiwan

Yu-Ping Cai

Département d'informatique, Université nationale Chengchi, Taipei, Taïwan

Hsiu-Then Hsu

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Z.-Y. Huang a contribué à la rédaction du manuscrit. C.-C. Chiang a contribué à la supervision et à la finalisation du document. J.-H. Chen a effectué tous les calculs et a contribué à parts égales en tant que premier auteur. Y.-C. Chen a contribué à la conception de la recherche et à l'édition du manuscrit. H.-L. Chung a contribué à l'édition du manuscrit. Y.-PC a évalué le domaine de la classification des émotions et contribué à la revue de la littérature. H.-CH a conçu l'étude et fourni des conseils conceptuels. Tous les auteurs ont discuté et examiné le manuscrit.

Correspondance avec Yi-Chian Chen ou Hsiu-Chuan Hsu.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Huang, ZY., Chiang, CC., Chen, JH. et coll. Une étude sur la vision par ordinateur pour la reconnaissance des émotions faciales. Sci Rep 13, 8425 (2023). https://doi.org/10.1038/s41598-023-35446-4

Télécharger la citation

Reçu : 08 décembre 2022

Accepté : 18 mai 2023

Publié: 24 mai 2023

DOI : https://doi.org/10.1038/s41598-023-35446-4

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.