Clignoter - Groupe Zhejiang Lime Grove

Rapports scientifiques volume 13, Numéro d'article : 7961 (2023) Citer cet article

279 accès

Détails des métriques

Les langages de communication oculaire tels que Blink-To-Speak jouent un rôle clé dans l'expression des besoins et des émotions des patients atteints de troubles du motoneurone. La plupart des systèmes de suivi oculaire inventés sont complexes et ne sont pas abordables dans les pays à faible revenu. Blink-To-Live est un système de suivi oculaire basé sur un langage modifié Blink-To-Speak et une vision par ordinateur pour les patients souffrant de troubles de la parole. Une caméra de téléphone mobile suit les yeux du patient en envoyant des images vidéo en temps réel à des modules de vision par ordinateur pour la détection de repères faciaux, l'identification et le suivi des yeux. Il existe quatre alphabets de touches définis dans le langage de communication basé sur l'œil Blink-To-Live : Gauche, Droite, Haut et Clignotement. Ces gestes oculaires codent plus de 60 commandes de la vie quotidienne exprimées par une séquence de trois états de mouvements oculaires. Une fois que les phrases codées des gestes oculaires sont générées, le module de traduction affichera les phrases dans le discours natif du patient sur l'écran du téléphone, et la voix synthétisée pourra être entendue. Un prototype du système Blink-To-Live est évalué en utilisant des cas normaux avec différentes caractéristiques démographiques. Contrairement aux autres systèmes de suivi oculaire basés sur des capteurs, Blink-To-Live est simple, flexible et économique, sans dépendre d'exigences logicielles ou matérielles spécifiques. Le logiciel et sa source sont disponibles sur le référentiel GitHub (https://github.com/ZW01f/Blink-To-Live).

La sclérose latérale amyotrophique, la SLA, et la sclérose latérale primitive, la PLS sont des maladies neuronales progressives qui affectent les cellules du cerveau et de la moelle épinière et provoquent progressivement la perte de contrôle musculaire et développent des symptômes de troubles de la parole. Les patients peuvent communiquer avec leurs soignants dans les derniers stades de la maladie par des gestes oculaires1,2. La traduction des gestes oculaires en un discours communiqué a inventé une pléthore d'appareils de communication augmentée / alternative (AAC) qui ont différentes conceptions et concepts d'utilisabilité allant des panneaux de commande avec des lettres et des chiffres, des écrans tactiles et de détection du regard, des systèmes de suivi des yeux et par conséquent des techniques de curseur de souris modifiées sont introduites pour contrôler différentes applications informatiques. Les claviers commerciaux à détection du regard sont très chers; par exemple, Tobii Dyanvox3 a un coût allant de 5K$ à 10K$ selon différents modèles de configuration. Le tableau Eye Transfer4 (E-tran) est une solution alternative peu coûteuse (260 $) où un soignant tient un tableau en plastique transparent de lettres imprimées et observe les gestes oculaires du patient sur le tableau. Les dispositifs de suivi du regard 5 montés sur la tête nécessitaient des réglages statiques ajustés en fonction de la caméra et de l'œil du patient pendant le mouvement de la tête.

Les pensées et les intentions sont une autre approche de communication pour les patients souffrant de troubles de la parole. L'interface cerveau-ordinateur (BCI) utilise l'activité cérébrale (c'est-à-dire les signaux EEG) pour contrôler des appareils externes, tels que la saisie de mots en sélectionnant des lettres sur un clavier numérique6 ou l'exécution de tâches complexes telles que la navigation sur une page Web7 ou la peinture d'une image8. Certains orthographes du cerveau ont des taux de communication différents9,10, qui ont récemment augmenté en combinant le modèle de langage et l'apprentissage en profondeur11,12. Des études de recherche ont indiqué que la plupart des patients SLA/SPL ont un bon taux d'acceptation de l'utilisation de technologies basées sur le suivi oculaire pour initier des communications avec leur monde environnant13,14,15, et le suivi des yeux du patient est beaucoup plus simple que le suivi ou la détection d'autres signaux, tels que l'EEG/ECG16,17.

Les patients souffrant de troubles de la parole perdent leurs capacités de parole naturelles18. En conséquence, de nombreuses langues parlées modifiées qui utilisent les organes mobiles disponibles tels que la tête, les gestes faciaux, les yeux ou les signaux cérébraux sont proposées19,20. Les langages de communication basés sur les yeux sont introduits sous différentes formes codant différents gestes oculaires pour synthétiser facilement et efficacement un discours communiqué21,22,23. Le code Morse est l'une des approches proposées pour coder les clignements d'œil courts et longs sous la forme d'une séquence de points et de tirets, et les alphabets/phrases sont construits en conséquence22,23. Blink-To-Speak est un autre langage oculaire proposé avec huit alphabets selon huit gestes oculaires (fermer, clignoter, gauche, droite, haut, bas, clin d'œil et roulement). Les phrases les plus courantes de la vie quotidienne (c'est-à-dire 50 commandes) sont encodées à l'aide de ces alphabets oculaires définis dans un livre en ligne dans différentes langues maternelles pour former et enseigner aux patients/soignants comment utiliser la langue facilement et efficacement24. La plupart des langages oculaires proposés pour les troubles de la parole sont implémentés dans des dispositifs matériels spécialisés avec des capteurs spécifiques (lunettes à infrarouge, claviers oculaires, trackers oculaires montés sur la tête, etc.) qui compliquent le processus de communication avec moins de convivialité et d'accessibilité pour les patients et les soignants14,25,26. De plus, certains de ces appareils sont chers et inabordables dans les pays à faible revenu comme l'Égypte.

De plus, le clignement des yeux est le seul état pris en compte dans le langage oculaire proposé précédemment, ce qui peut limiter la convivialité de l'application en supprimant d'autres gestes oculaires (c'est-à-dire gauche, haut, droite, etc.) qui peuvent encoder des phrases et des commandes de la vie quotidienne plus différentes Alors que le langage oculaire Blink-To-Speak a plus d'alphabets que les autres langages de communication basés sur les yeux, qui peuvent coder plus de phrases, les soignants ne peuvent comprendre le discours voulu par le patient qu'en observant leurs yeux, et les patients/soignants sont formés à travers un livre manuel pour parler/comprendre la langue. De plus, les phrases communiquées définies dans le livre peuvent avoir une longue séquence de différents gestes oculaires qui nécessitent plus de temps de formation et peuvent épuiser les yeux du patient.

Dans cet article, nous avons proposé Blink-To-Live, un système de suivi oculaire basé sur un langage Blink-To-Speak modifié pour les patients souffrant de troubles de la parole. Un appareil mobile portable avec des caméras prises en charge capture des images vidéo en temps réel et les envoie à des modules de vision par ordinateur pour la détection de repères faciaux, l'identification et le suivi des yeux. Le système de communication Blink-To-Live a quatre mouvements oculaires : gauche, droite, haut et clignotement. Ces gestes oculaires codent plus de 60 commandes de la vie quotidienne exprimées par une séquence de trois mouvements oculaires. Les modules de génération et de traduction de la parole décodent les mouvements oculaires reconnus en phrases correspondantes, les affichent sur l'écran mobile dans le discours natif du patient, et leur voix synthétisée peut être entendue en conséquence. Contrairement aux autres systèmes de suivi oculaire basés sur des capteurs, Blink-To-Live est simple, flexible et économique, sans dépendre d'exigences logicielles ou matérielles spécifiques. De plus, par rapport au Blink-To-Speak original, le langage de communication basé sur les yeux proposé a plus de commandes avec une courte séquence de mouvements oculaires pour augmenter sa facilité d'utilisation pour que le patient parle plus rapidement en moins de temps de formation.

Notre article est organisé comme suit : la section "Travaux connexes" fournit un résumé des travaux précédemment associés, la section "Matériels et méthodes" présente une vue d'ensemble de l'architecture de notre système proposé avec ses modules et sous-modules internes qui sont discutés en détail dans les sous-sections suivantes, la section "Résultats expérimentaux" montre les principaux résultats expérimentaux de notre système de communication proposé, y compris différentes interfaces utilisateur, les services de base fournis aux patients/soignants et différents problèmes d'utilisabilité et d'accessibilité, la section "Conclusion" conclut l'article et met en évidence quelques perspectives futures pour améliorer le Blink -Système To-Live.

Les technologies de suivi oculaire sont utilisées dans de nombreuses sciences telles que la cognition, la psychologie, l'informatique et la médecine pour numériser la façon dont les gens interagissent avec leur environnement de vie27,28. Le suivi des yeux humains, qui implique l'enregistrement de leurs différents mouvements, est essentiel pour de nombreuses applications omniprésentes telles que les communications oculaires et les interactions avec l'environnement informatique29,30. Trois types d'approches de suivi oculaire ont été introduites précédemment (voir Fig. 1) : l'une repose sur des dispositifs fixés directement sur les yeux, tels que des lentilles spéciales ou des lunettes avec des capteurs infrarouges qui suivent et enregistrent les positions des yeux. La deuxième approche cible les yeux en tant que source de champ électrique qui peut être détectée dans l'obscurité même lorsque l'œil est fermé et mesure les potentiels électriques en positionnant des électrodes autour des yeux humains, l'exemple de cette approche est la technique de l'électrooculogramme (EOG)22,27. Étant donné que les deux approches mentionnées ci-dessus reposent sur certains capteurs tels que l'infrarouge ou les électrodes, elles peuvent être regroupées sous le terme de technologies de suivi oculaire basées sur des capteurs. Les autres méthodes de suivi oculaire reposent sur des techniques de vision par ordinateur pour détecter et suivre les yeux humains dans les images vidéo capturées par une caméra en temps réel sans contact direct avec les yeux humains ou en utilisant des capteurs matériels supplémentaires31,32,33.

Systèmes de suivi oculaire pour les patients souffrant de troubles de la parole.

Une méthode d'interaction homme-ordinateur proposée consiste à positionner près de cinq électrodes autour des yeux des patients pour détecter leurs clignements et leurs mouvements afin de contrôler le curseur et différentes applications de bureau34,35. Certaines applications ont une interface utilisateur avec un clavier pour permettre aux patients d'utiliser leurs yeux pour regarder les lettres prévues et sélectionner en fonction des clignements des yeux et des mouvements pendant un créneau horaire prédéfini (c'est-à-dire une seconde). De plus, les systèmes d'électromyographie peuvent détecter les signaux des muscles faciaux et contrôler le curseur de la souris et les applications informatiques en conséquence36. Les gestes oculaires et les signaux des muscles faciaux sont incorporés pour augmenter la fiabilité des applications qui aident les personnes ayant des troubles de la parole dans la communication et le contrôle du curseur. Bien que la combinaison de ces deux techniques ait une grande précision, elle souffre toujours d'une vitesse de communication lente et d'un coût élevé22. L'approche par contact visuel direct vise à concevoir des dispositifs matériels tels que des lunettes avec un capteur infrarouge qui traduit les clignements des yeux en une séquence d'alphabets à l'aide d'un code Morse avec des variantes selon lesquelles les alphabets sont affichés sur l'écran LCD23, ou les phrases synthétisées sont affichées sur un écran de téléphone mobile22. EyeLive37 est un autre système de suivi oculaire basé sur la mesure des réflexions oculaires par le capteur infrarouge. Le système dispose d'une interface utilisateur avec un clavier permettant au patient de sélectionner les lettres souhaitées à l'aide de ses gestes oculaires. Bien que le capteur infrarouge facilite la détection des gestes oculaires en augmentant la lumière réfléchie par les yeux, il présente certaines limites, telles que les interférences avec la lumière du soleil lors d'une utilisation en extérieur, et le positionnement relatif des yeux pour le capteur infrarouge affectera les performances de suivi. Les approches de contact direct avec les yeux ont un coût supplémentaire lié à l'utilisation de dispositifs matériels externes pour le suivi des yeux avec moins de fiabilité et de robustesse en fonction de mesures de capteur inexactes.

Certaines techniques d'apprentissage automatique sont introduites pour détecter et suivre les yeux humains, comme l'analyse en composantes principales, qui détecte les six composantes principales du premier œil dans les images capturées. La position de la pupille de l'œil est classée à l'aide du modèle de réseau de neurones artificiels38. Le système nécessitait une configuration matérielle spéciale telle qu'une caméra frontale et le port de lunettes qui compliquaient le processus de communication. Certains modèles d'apprentissage automatique sont utilisés pour prédire les directions, les angles de regard et les mouvements de l'œil, tels que la régression linéaire adaptative, ALR39, K Nearest Neighbors, KNN40 et Random Forest, RF41, qui souffrent d'une précision de prédiction inexacte en raison d'échantillons d'apprentissage insuffisants, de paramètres, d'images bruyantes ou d'un processus d'extraction de caractéristiques complexe31. En outre, la machine à vecteurs de support, SVM, est utilisée pour classer les cinq directions de l'œil après la détection de la région de l'œil en modifiant les caractéristiques du modèle d'apparence actif42. Un réseau de neurones à convolution d'apprentissage en profondeur, CNN, avec une architecture multicouche, est utilisé pour prédire différents gestes oculaires basés sur la formation du CNN avec un grand nombre d'échantillons avec des états oculaires connus en tant qu'étiquettes prédites, qui peuvent atteindre de bonnes performances mais nécessitent un grand nombre d'échantillons de formation, un long temps de formation et ajustent les paramètres du modèle en conséquence43. La technologie de suivi oculaire est appliquée dans des tâches de non-communication telles que la compréhension des facteurs qui influencent la compréhension en étudiant comment les développeurs comprennent la syntaxe de requête et la syntaxe de méthode dans Language-Integrated Query (LINQ), qui est une technologie populaire pour interroger des données dans des langages de programmation .NET tels que C# et VB.NET44. En outre, la technologie de suivi oculaire est intégrée aux visiocasques de réalité virtuelle (VR) pour restituer les sens VR, aider l'interaction de l'utilisateur avec l'environnement45 ou prendre en charge le dépistage visuel46.

Blink-To-Live est une application mobile basée sur des techniques de vision par ordinateur pour les patients atteints de troubles du motoneurone tels que la SLA et le SLP. Ces patients développent progressivement des symptômes de troubles de la parole. Au stade final de paralysie, les gestes oculaires sont les seules méthodes pour initier la communication. Le système de communication Blink-To-Live s'appuie sur les quatre gestes oculaires : gauche, droite, haut et clignotement (tableau 1), définissant les alphabets clés de la langue pour encoder plus de 60 phrases communicantes de la vie quotidienne, telles que celles présentées dans les tableaux 2 et 3.

Comme le montre la Fig. 2, Blink-To-Live a deux composants système de base : une application mobile développée par un framework Google flutter47 et l'autre est un module python backend pour l'analyse et le traitement des images des images vidéo. Les interactions du patient avec le système Blink-To-Live commencent par l'ouverture par un soignant de la caméra du téléphone pour suivre les gestes oculaires du patient. Une fois que les images vidéo sont capturées correctement en temps réel, elles sont automatiquement envoyées aux modules de vision par ordinateur pour détecter et suivre les états de mouvement des yeux des patients.

Architecture du système de communication Blink-To-live.

Le premier module est la détection des repères faciaux, qui comporte deux sous-modules : la détection des visages et la prédiction des repères faciaux. Ce module vise à détecter le visage du patient et à extraire les emplacements de 68 coordonnées faciales représentant différentes structures faciales telles que les yeux, la bouche, le nez, etc. Le module suivant détecte les yeux des patients et suit leurs mouvements selon les quatre alphabets clés Blink-To-Live : Left, Right, Up et Blink. La parole communiquée par le patient est générée selon le dictionnaire prédéfini de phrases codées à l'aide d'une combinaison de trois états de mouvement oculaire. Une fois les phrases synthétisées, un module de traduction affiche les phrases dans la langue maternelle du patient, comme l'arabe, l'allemand, etc. De plus, le module de synthèse vocale génère un discours réaliste correspondant qui aide les patients à communiquer facilement et efficacement. Les implémentations détaillées de chaque module seront discutées dans les sections suivantes.

Le langage de communication basé sur les yeux Blink-To-Live a quatre alphabets oculaires (c'est-à-dire, Blink (B), Left (L), Right (R) et Up (U)). Nous avons modifié un langage oculaire Blink-To-Speak précédemment proposé selon les quatre mouvements oculaires reconnus par notre système pour simplifier le processus de communication du patient en exprimant plus de déclarations avec moins de séquences de gestes oculaires et de transitions. Dans le langage de communication basé sur l'œil Blink-To-Live, chaque phrase communiquée est exprimée sous la forme d'une séquence de trois états oculaires, et chaque état peut être l'un des quatre états (B, L, R et U). Les quatre états définis généreront exactement 64 phrases communiquées dans la vie quotidienne pour les patients SLA/SPL (tableaux 2 et 3). Cette configuration peut être mathématiquement définie comme suit : Si vous avez $n$ états oculaires reconnus et un groupe de phrases communiquées, chaque phrase sera exprimée par $k$ mots ($k$ séquence d'états), le nombre total de phrases communiquées de manière unique sera ${n}^{k}$. En augmentant le nombre d'états oculaires reconnus $n$ et les mots exprimés $k$, davantage d'instructions sont ajoutées au langage Blink-To-Speak modifié. Nous avons constaté que lorsque $n=4$, $k=3$, le nombre total d'énoncés définis est égal à 64, suffisant pour exprimer la plupart des discours de communication requis dans la vie quotidienne pour les patients SLA/SPL avec moins de temps d'entraînement. Les mêmes états oculaires (c'est-à-dire, les trois états sont gauche, droite, haut ou clignotant) sans transition entre les deux sont consacrés aux besoins fondamentaux du patient tels que la nourriture, l'eau, les toilettes, je vais bien, etc. De plus, les états avec des transitions faibles sont dédiés à la commande la plus importante, comme changer une couche, appeler un parent, prendre des médicaments, etc. Le langage de communication basé sur les yeux Blink-To-Live proposé sera plus simple, plus flexible et utilisable car les yeux du patient pourraient être épuisés par une longue séquence de gestes oculaires et de transitions définis dans le livre original Blink-To-Speak. Le tableau 4 montre les principales différences entre les systèmes Blink-To-Speak24 et Blink-To-Live.

Les repères faciaux détectent les parties importantes du visage, telles que le nez, les yeux, les sourcils, la bouche, etc. La structure faciale la plus importante de notre système est les yeux du patient. Le module de repères faciaux dans notre cadre proposé comporte deux étapes de base : détecter le visage à partir des images collectées à partir d'images vidéo et localiser les structures faciales importantes sur la région d'intérêt du visage en conséquence.

La détection des visages est réalisée avec un modèle pré-formé appelé Histogramme de gradients orientés avec SVM linéaire (HOG + SVM). Le descripteur HOG d'un visage humain peut être construit en divisant l'image du visage en petits blocs, et pour chaque bloc, les gradients (c'est-à-dire de petits changements dans les valeurs de pixel en termes de directions x et y) sont calculés. Ensuite, l'histogramme est généré pour chaque bloc séparément. Enfin, les vecteurs de gradient sont normalisés et combinés en un seul descripteur de caractéristique HOG introduit dans un SVM linéaire pour la classification des objets visage/non-visage48.

Étant donné que la région du visage est détectée, l'étape suivante consiste à détecter les repères faciaux en localisant et en étiquetant la bouche, les sourcils gauche et droit, les yeux gauche et droit, le nez et la mâchoire. Un ensemble de structures faciales clés étiquetées manuellement en termes de coordonnées x et y, ainsi que les valeurs d'intensité des pixels et les probabilités a priori de la distance des valeurs de pixels correspondant aux paires de repères faciaux, sont introduits dans un modèle d'ensemble d'arbres de régression49 pour former un modèle pour le détecteur de repère facial. Le modèle est implémenté dans la bibliothèque dlib50 et formé sur l'ensemble de données iBUG 300-W51 pour estimer les emplacements de 68 coordonnées de repères faciaux en termes de valeurs x et y. Notre système proposé a utilisé le modèle pré-formé dlib pour détecter des repères faciaux sur des images en temps réel extraites d'images vidéo (voir Fig. 3).

Module de détection des repères faciaux, où les points représentent les 68 coordonnées de différentes structures faciales telles que la bouche, les sourcils gauche droite, le nez, etc.

Les yeux du patient sont détectés à l'aide du module de repères faciaux, qui localise les index des yeux gauche et droit dans l'espace de coordonnées 68- (x, y). Chaque œil est détecté par 6 coordonnées dessinées sur le masque noir créé de même dimension pour chaque cadre de lecture correspondant à une image du patient. La seule région blanche sur le masque noir créé entoure l'œil et se dilate à l'aide d'une opération morphologique dilatée. Les yeux sont segmentés par l'opération au niveau du bit et avec le masque créé sur l'image d'origine. Toutes les valeurs de pixel nulles sont converties en 255 pour localiser le globe oculaire, la seule région noire restante sur le masque. Le masque oculaire résultant est converti en niveaux de gris pour préparer l'image pour segmenter le globe oculaire de l'œil et localiser son centre. Nous avons utilisé un seuil fixe pour créer un masque binaire pour trouver le plus grand contour contenant le globe oculaire et le segmenter en conséquence. Une fois le globe oculaire détecté, sa position (en termes de coordonnées x et y) est calculée et renvoyée sous la forme de trois valeurs mappées dans trois directions : gauche (1), droite (2) et haut (3). L'état des yeux vers le bas n'est pas détecté dans cette version de l'application Blink-To-Live car il entre en conflit avec un état de clignotement des yeux.

Chaque œil est détecté par 6 coordonnées à l'aide du module de repères faciaux, et la relation entre la hauteur et la largeur de l'œil peut être codée par le rapport appelé Eye Aspect Ratio, EAR52,53, qui est calculé par l'équation suivante :

où p1, p2, p3, etc., sont les coordonnées des points de repère de l'œil, comme illustré à la Fig. 4.

Les 6 coordonnées des yeux gauche et droit, qui sont utilisées dans le calcul du rapport d'aspect de l'œil, EAR.

$EAR$ est toujours constant lorsque l'œil est ouvert et a une valeur approximative de zéro lorsqu'il clignote. Par conséquent, le rapport peut déterminer si le patient clignote. Une valeur seuil spécifique, $t$, est calculée (c'est-à-dire 0,2 dans notre application). Supposons que la valeur EAR est diminuée de moins de 0,2 puis augmentée au-dessus de 0,2, un seul clignotement est détecté et peut être compté autant de clignotements se sont produits. L'équation suivante explique comment les états d'ouverture et de fermeture de l'œil sont détectés en comparant $EAR$ avec la valeur de seuil $t$.

Le clignotement normal dure de 100 à 400 ms, ce qui est très rapide par rapport au clignotement prévu (c'est-à-dire, dure 800 ms). Nous avons utilisé l'approche expliquée dans53 pour distinguer le clignement normal du clignement du patient, qui est utilisé comme un alphabet dans le langage oculaire Blink-To-Live. La solution implique d'inspecter la valeur $EAR$ dans le nombre prédéfini d'images vidéo (c'est-à-dire 13 images) et si le $EAR$ est toujours inférieur à 0,2, alors c'est le clignotement de langue prévu. Si le nombre d'images d'inspection est inférieur à 13 images, le clignotement est très rapide et peut être normal étant donné que la caméra capture 25 images par seconde.

À partir des modules discutés précédemment, les quatre alphabets oculaires (c'est-à-dire, Clignotement (B), Gauche (L), Droite (R) et Haut (U)) peuvent être détectés et enregistrés dans une liste de suivi oculaire. La liste de suivi oculaire stocke différents états oculaires reconnus et génère les phrases codées correspondantes selon les tableaux 2 et 3. Une traduction de bibliothèque python est utilisée pour traduire ces phrases dans différentes langues natives telles que l'arabe, l'allemand, etc., selon les différentes cultures et nationalités des patients54. De plus, le texte des phrases générées est converti en un discours synthétisé réaliste à l'aide d'un module Text-to-Speech développé par Microsoft Azure55. Les clés de registre locales de la bibliothèque Microsoft pour Text-to-Speech peuvent également être utilisées et importées directement dans n'importe quel code python.

Blink-To-live est une application mobile basée sur le flutter pour aider les patients souffrant de troubles de la parole à communiquer avec leurs familles et leurs soignants. Une caméra de téléphone portable sera ouverte et un flux d'images vidéo sera capturé et envoyé à un modèle backend via une prise Web avec FastAPI56. Le canal de communication bidirectionnel entre un client (application mobile) et un serveur (modèle backend) est établi à l'aide d'un socket Web avec FastAPI qui envoie rapidement des images en temps réel sans passer par toutes les couches du protocole HTTP. Le socket Web gérera efficacement un problème de contre-pression résultant de la réception de plus d'images vidéo que le nombre prévu à gérer par le modèle backend. De plus, ce problème survenait lorsque le modèle était occupé à traiter des trames existantes et à exécuter des modules de détection de visage/yeux, à prédire les mouvements des yeux et à traduire les états reconnus en un discours communicant tout en recevant de nouvelles trames de l'application mobile. Une file d'attente ou un tampon de taille limitée sera créé pour résoudre ce problème. Lorsque la file d'attente est pleine, certaines images vidéo seront supprimées sans affecter l'efficacité de l'application puisque ses détails peuvent être restaurés ou créés virtuellement à partir de ceux précédemment stockés. Deux méthodes sont implémentées simultanément et s'exécutent en parallèle : recevoir et traiter. La méthode de réception est utilisée pour lire les trames nouvellement capturées codées par des octets bruts. En revanche, la méthode de traitement détecte le visage/les yeux dans les trames précédemment reçues, suit les gestes des yeux et renvoie la parole de l'œil traduit à l'écran de l'application mobile.

Dans cet article, nous avons développé une application mobile appelée Blink-To-Live pour aider les patients souffrant de troubles de la parole à communiquer facilement et efficacement. Le soignant du patient n'a qu'à ouvrir la caméra du téléphone portable pour capturer et suivre les mouvements oculaires du patient selon les quatre alphabets clés Blink-To-Live : Gauche, Droite, Haut et Clignotement. La parole communiquée par le patient est générée selon le dictionnaire prédéfini de phrases codées à l'aide d'une combinaison de trois états de mouvement oculaire. Une fois les phrases synthétisées, un module de traduction affiche les phrases dans la langue maternelle du patient et le module de synthèse vocale génère un discours réaliste correspondant en conséquence. La figure 4 montre différents écrans d'application, depuis l'enregistrement de l'utilisateur jusqu'à l'écran qui affiche les phrases codées des mouvements oculaires.

Dans la Fig. 5, les utilisateurs peuvent s'inscrire avec leurs numéros de téléphone et leurs e-mails. Selon le processus d'enregistrement, des informations personnalisées, telles que la nationalité, la culture, etc. du patient, peuvent être déduites. Les écrans d'application suivants (c.-à-d., Fig. 5) montrent que lorsque l'appareil photo est ouvert, l'application commence à suivre les mouvements oculaires et à les afficher sur l'écran, et une fois que tous les gestes oculaires sont reconnus, leur phrase synthétisée correspondante, selon les tableaux 2 et 3, s'affiche sur l'écran de l'application et son discours réaliste est entendu.

L'interface utilisateur de l'application mobile Blink-To-Live (c'est-à-dire les interfaces d'enregistrement du patient et de suivi oculaire) ainsi que la phrase affichée "Je ne vais pas bien".

En outre, l'application dispose d'un module d'apprentissage avec des graphiques animés, qui aideront et motiveront les patients et les soignants à en savoir plus sur les quatre alphabets de mouvements oculaires Blink-To-Live et le discours généré par les yeux correspondant. En outre, la parole générée pourrait être traduite dans différentes langues maternelles en fonction des informations d'enregistrement du patient (voir les figures 6 et 7).

Services de base de l'application mobile Blink-To-Live : lecture du livre de langage oculaire, détection de l'œil et traduction des mouvements oculaires en phrases dans la langue maternelle du patient.

Conceptions de l'interface utilisateur du profil du patient dans l'application mobile Blink-To-Live.

La figure 8 montre les interactions entre l'application mobile Blink-To-Live et le patient sous la forme d'une séquence de messages d'échange. Lorsqu'un profil d'utilisateur est créé pour un patient par son soignant, les informations de connexion peuvent être utilisées pour démarrer l'application Blink-To-Live. Selon le stade de paralysie, le patient ou son soignant peut ouvrir la caméra du téléphone et l'application commence à suivre l'œil du patient et à enregistrer chaque mouvement reconnu dans la liste de suivi oculaire. Tous les trois mouvements oculaires reconnus sont traduits en une phrase correspondante à l'aide du dictionnaire Blink-To-Live codé par les tableaux 2 et 3. La phrase codée est affichée sur l'écran de l'application et sa voix correspondante est entendue. Le dictionnaire a été codé en utilisant trois états oculaires pour simplifier la communication sans épuiser l'œil du patient en effectuant une longue séquence de mouvements oculaires. Une fois que la parole codée du patient s'affiche à l'écran, la liste de suivi oculaire est effacée pour démarrer l'enregistrement d'une nouvelle séquence de trois gestes oculaires. Supposons que le patient fasse accidentellement un mouvement oculaire erroné non reconnu par le système Blink-To-Live. Dans ce cas, l'écran de l'application n'affichera pas l'état non reconnu et le patient se verra attribuer un intervalle de cinq secondes pour exprimer le bon.

Un diagramme de séquence qui décrit les interactions entre le patient et l'application mobile Blink-To-Live.

Différentes approches de suivi oculaire sont comparées en fonction de critères tels que la vitesse de communication, le coût, la dépendance du soignant ou des dispositifs matériels spéciaux pour initier la communication. Blink-To-Live suit une approche de suivi indirect du contact visuel appelée approche de suivi oculaire basée sur la vision par ordinateur. La comparaison a pris en compte les résultats rapportés par différentes études qui évaluent différentes approches de suivi oculaire pour la communication des patients SLA15,19,35,57,58. Le système Blink-To-Live ne repose pas sur des dispositifs matériels ou des capteurs spéciaux pour initier la communication avec le patient. Les patients/soignants peuvent utiliser leurs mobiles avec des caméras prises en charge pour suivre les yeux du patient, générer le discours voulu et le traduire dans la langue maternelle du patient. Pas besoin de lunettes, d'électrodes ou d'écrans de détection du regard ; par conséquent, notre application a le coût le plus bas par rapport aux autres proposées. Blink-To-Live souffre d'un léger retard car des modules backend de vision par ordinateur étendus traitent les images vidéo en temps réel et renvoient les résultats à l'application mobile, de sorte que la vitesse de communication sera lente par rapport aux systèmes de suivi des contacts visuels directs (voir tableau 5).

Toutes les expériences ont été réalisées conformément aux directives et réglementations en vigueur. En outre, ils ont été approuvés par le Comité d'éthique de la recherche scientifique, Faculté d'informatique et d'information, Université de Mansoura, Égypte. En outre, le consentement éclairé a été obtenu de tous les sujets pour publier les informations/images dans une publication en libre accès en ligne.

Un prototype du système Blink-To-Live proposé a été testé en utilisant 10 cas normaux avec différentes caractéristiques démographiques telles que l'âge, le sexe, le niveau d'éducation et la connaissance de la technologie. La sensibilisation à la technologie est évaluée en fonction de l'âge, de l'expérience antérieure, du contexte culturel et du niveau d'éducation de chaque participant inclus dans l'expérience de test. Chaque cas a suivi une formation d'une semaine pour apprendre les différents alphabets du langage des yeux et leurs phrases associées dans les tableaux 2 et 3. Ensuite, chaque cas est invité à prononcer 27 phrases en exprimant les alphabets du langage des yeux correspondants (c'est-à-dire gauche, droite, haut et clignotement). Chaque cas avait cinq essais pour prononcer chacune des phrases testées.

Le tableau 6 présente les résultats enregistrés, où chaque cas avait un symbole codé dans la première colonne. La vitesse de communication moyenne, le nombre d'essais et la précision de la communication sont indiqués dans les colonnes suivantes. La vitesse moyenne de communication est mesurée par le temps de traitement nécessaire pour reconnaître les gestes de l'œil et afficher la phrase correspondante sur l'écran du mobile. La précision de la communication est calculée en comptant le nombre de phrases prononcées correctement à l'aide des alphabets oculaires sur les 27 phrases testées.

Les cas (P-01 à P-10) comptent 6 hommes et 4 femmes âgés de 21 à 79 ans. Les cas P-01, P-02, P-04, P-06, P-08 et P-10 expriment avec succès différents alphabets du langage oculaire et prononcent correctement la plupart de leurs phrases associées dans un essai (voir tableau 6). Les cas P-01, P-02, P-04 et P-10 ont des âges plus jeunes que P-06 et P-08, avec des âges supérieurs à 60 ans. Ils ont tous un niveau d'éducation et une sensibilisation à la technologie plus élevés que les autres participants. Les cas P-03, P-07 et P-09 ont un niveau d'éducation intermédiaire et une faible connaissance de la technologie, ils ont donc eu besoin de plus d'essais pour exprimer les alphabets du langage des yeux. Le cas P-05 a les pires performances car le niveau d'éducation et la sensibilisation à la technologie sont très faibles par rapport aux autres. La vitesse de communication varie de 15 à 25 s pour exprimer une phrase pour tous les cas. Ce temps variera en fonction du nombre d'états oculaires de transition dans la phrase codée, de la capacité de la personne à bouger correctement les yeux sans bouger la tête en fonction du discours prévu et de la vitesse de connexion Internet entre l'application mobile et le système backend. Dans nos résultats expérimentaux, les personnes normales avec des niveaux d'éducation élevés, une sensibilisation à la technologie, une bonne formation au langage oculaire, une bonne connectivité Internet et une stabilité obtiennent de bons résultats de communication. Avec un temps de formation suffisant, les personnes ayant un faible niveau d'éducation et une faible connaissance de la technologie peuvent obtenir de bonnes performances. Les patients avec des paramètres expérimentaux similaires auront besoin de plus de formation (prévu 15 jours) pour atteindre les mêmes performances. La dépendance du patient vis-à-vis de son soignant pour ouvrir la caméra du téléphone repose sur sa capacité à contrôler ses muscles selon les différents stades de la maladie. Une fois la caméra ouverte pour suivre l'œil du patient, il n'était plus nécessaire qu'un soignant aide à la communication du patient.

Pour évaluer plus en détail le système Blink-to-Live, nous avons supprimé tous les facteurs externes variables tels que la vitesse/bande passante du réseau, le nombre total de trames envoyées d'un expéditeur (c'est-à-dire mobile) à un serveur (modèle backend), la résolution de trame et testons le système à l'aide de sa version de bureau. Globalement, nous avons atteint un temps moyen de 3 s pour la plupart des phrases communiquées avec les mêmes états de mouvement oculaire ou au moins un état de transition. Parfois, les états clignotants prennent plus de temps à être reconnus par notre système et, par conséquent, leurs phrases correspondantes ont un long temps de communication par rapport aux autres phrases sans états clignotants. Des phrases telles que "Je veux dormir", qui est exprimée par une séquence de [BLB], n'ont pas été prononcées par P-01 et P-04 car le système ne sera pas en mesure de reconnaître le troisième état clignotant lorsqu'une transition rapide/lente a été effectuée entre deux états consécutifs différents (voir Fig. 9). De plus, les phrases «Nose Block», «Palpitations», «Mon ordinateur ne fonctionne pas» et «Je veux prier», qui sont exprimées par la séquence consécutive [LRR], [LRU], [UBR], [BRU], n'ont pas été prononcées par certains participants alors qu'ils effectuaient la transition rapide entre deux états consécutifs ou bougeaient la tête avec les gestes de leurs yeux. Par conséquent, le système Blink-To-Live ne peut pas reconnaître la séquence d'alphabets oculaires destinés à décoder sa phrase correspondante.

Vitesse de communication du système Blink-To-Live des phrases avec différents états oculaires de transition (c'est-à-dire L, R, U et B).

Étant donné que la vitesse de communication Blink-To-Live est affectée par de nombreux facteurs externes tels que la vitesse/bande passante du réseau, le nombre total de trames envoyées de l'application mobile au serveur et la résolution de trame. La vitesse de communication du système Blink-To-Live, ${{\varvec{C}}{\varvec{S}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}$ , peut être caractérisée mathématiquement comme suit :

où ${{\varvec{P}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}$ est le temps de traitement de la séquence de trois états oculaires côté serveur et ${{\varvec{T}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}$ est le temps de transmission entre l'application mobile et le serveur.

En moyenne, ${{\varvec{P}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}$ prend de trois à quatre secondes, tandis que ${{\varvec{T}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}$ peut être défini en fonction des variables : ${D}^{BTL}$ : durée de la vidéo inspectée pour les mouvements oculaires du patient,${FR}^{BTL}$ : fréquence d'images, ${F}^{BTL}$ : nombre total d'images seront envoyées de l'application mobile au système backend, ${R}^{BTL}$ : résolution d'image caractérisée par une caméra de téléphone, ${X}^{BTL}$ : nombre de pixels dans les images vidéo, ${B}^{BTL}$ : nombre de bits dans les images vidéo, et $N$ : bande passante du réseau dans points de base.

Sur le plan technique, nous avons comparé deux approches d'extraction de fonctionnalités implémentées dans la bibliothèque dlib. La première approche repose sur CNN et a un temps d'exécution de 3,33 s pour un seul module de détection de visage, tandis que l'approche basée sur Blink-To-Live a un temps d'exécution de 0,21 s (voir Tableau 7).

Des applications de suivi oculaire telles que Blink-To-Live ont été introduites en tant que technologie de communication d'assistance pour les patients souffrant de troubles de la parole. Deux éléments jouent un rôle clé dans le succès des technologies de suivi oculaire : le dispositif matériel utilisé pour suivre l'œil du patient et l'application logicielle utilisée pour traiter les données collectées. Les appareils qui suivent l'œil du patient vont des claviers coûteux à détection du regard tels que Tobii Dyanvox ou Eye Transfer aux lentilles spéciales, électrodes ou lunettes avec capteurs infrarouges. Le système Blink-To-Live proposé suit une autre approche pour suivre l'œil du patient à l'aide d'une simple caméra sans utiliser de dispositifs spécialisés coûteux ou de capteurs matériels directement positionnés sur les yeux humains.

Les applications logicielles qui traitent les données collectées s'appuient sur les techniques d'apprentissage automatique et en profondeur pour la détection des repères faciaux, l'identification des yeux et le suivi. Le système Blink-To-Live a utilisé HOG + SVM, l'approche d'extraction de caractéristiques mise en œuvre dans la bibliothèque dlib, pour l'identification des repères faciaux et d'autres modules de vision par ordinateur pour suivre différents mouvements oculaires et états de clignotement. L'état des yeux baissés n'est pas détecté dans cette version de l'application Blink-To-Live car il entre en conflit avec un état de clignement des yeux, qui peut être résolu à l'avenir en utilisant des techniques telles que l'apprentissage par renforcement. De plus, le système Blink-To-Live souffre d'un léger retard car de vastes modules de vision par ordinateur traitent les images vidéo en temps réel et renvoient les résultats à l'application mobile, de sorte que la vitesse de communication sera lente par rapport aux autres systèmes de suivi des contacts visuels directs. La vitesse de communication peut être améliorée en développant des services backend de traitement rapide et une communication par socket Web entre les applications client et serveur.

Blink-To-Live est une application mobile simple et économique pour les patients souffrant de troubles de la parole qui n'ont que leurs yeux pour initier la communication avec leur monde environnant. Il s'appuie sur un ensemble de modules de vision par ordinateur et une version modifiée du langage Blink-To-Speak pour traduire différents gestes oculaires en un ensemble de commandes de la vie quotidienne utilisées par les patients pour exprimer leurs émotions et leurs besoins. Les patients/soignants n'utiliseront leurs téléphones qu'avec des caméras prises en charge pour suivre les mouvements oculaires des différents patients. La parole synthétisée basée sur les yeux sera affichée sur l'écran du téléphone en conséquence. Les futures améliorations de notre système visent à augmenter la vitesse de communication en développant un système dorsal de traitement rapide qui utilise des approches modernes d'analyse et de traitement d'images en temps réel. De plus, les algorithmes d'apprentissage par renforcement peuvent améliorer les modules de détection, de clignotement et de suivi des yeux pour obtenir des résultats de haute précision et résoudre les conflits entre les états de mouvement des yeux. De plus, chaque patient a un profil enregistré dans notre application. À l'avenir, l'application apprendra les attributs, les mouvements et le comportement de clignotement de son œil, ce qui peut augmenter la vitesse de communication, et personnalisera l'application en fonction des différents besoins du patient. Le Blink-To-Live pourrait être facilement intégré à d'autres systèmes reposant sur des dispositifs matériels pour contrôler l'environnement de vie du patient avec des gestes oculaires.

Blink-To-Live est un logiciel open source gratuit publié sous la licence GNU GPL et sa source est le référentiel GitHub (https://github.com/ZW01f/Blink-To-Live).

Spataro, R., Ciriacono, M., Manno, C. et La Bella, V. Le dispositif informatique de suivi oculaire pour la communication dans la sclérose latérale amyotrophique. Acta Neurol. Scannez. 130, 40–45 (2014).

Article CAS PubMed Google Scholar

Caligari, M., Godi, M., Guglielmetti, S., Franchignoni, F. & Nardone, A. Dispositifs de communication de suivi oculaire dans la sclérose latérale amyotrophique : impact sur le handicap et la qualité de vie. Amyotrope. Sclérose latérale Frontotemp. Dégén. 14, 546-552 (2013).

Article Google Scholar

Tobiidynavox. Technologie d'assistance pour la communication, https://us.tobiidynavox.com/ (2023).

Conseil, E.-t. Conseil de transfert oculaire, https://www.bridges-canada.com/products/9594-1 (2023).

Cognolato, M., Atzori, M. & Müller, H. Appareils de suivi du regard oculaire montés sur la tête : un aperçu des appareils modernes et des avancées récentes. J. Réhabilitation. Aider. Technol. Ing. 5, 2055668318773991 (2018).

Google Scholar

Verbaarschot, C. et al. Une interface visuelle cerveau-ordinateur comme aide à la communication pour les patients atteints de sclérose latérale amyotrophique. Clin. Neurophysiol. 132, 2404–2415. https://doi.org/10.1016/j.clinph.2021.07.012 (2021).

Article PubMed Google Scholar

Katona, J., Ujbanyi, T., Sziladi, G. & Kovari, A. Examiner l'effet de différents médias Web sur les ondes cérébrales humaines, en 2017 8e Conférence internationale IEEE sur les infocommunications cognitives (CogInfoCom). 000407–000412 (IEEE).

Holz, EM, Botrel, L., Kaufmann, T. & Kübler, A. L'utilisation à long terme d'une interface cerveau-ordinateur indépendante à domicile améliore la qualité de vie d'un patient enfermé : une étude de cas. Cambre. Phys. Méd. Réhabilit. 96, S16–S26 (2015).

Article PubMed Google Scholar

Farwell, LA & Donchin, E. Parler du haut de votre tête : vers une prothèse mentale utilisant les potentiels cérébraux liés aux événements. Électroencéphalogramme. Clin. Neurophysiol. 70, 510-523 (1988).

Article CAS PubMed Google Scholar

Sutter, EE L'interface de réponse cérébrale : communication par des réponses cérébrales électriques induites visuellement. J. Microcomput. Appl. 15, 31–45 (1992).

Article Google Scholar

Gembler, FW, Benda, M., Rezeika, A., Stawicki, PR & Volosyak, I. Outils de communication c-VEP asynchrones—Comparaison de l'efficacité des orthographes BCI à faible cible, multi-cibles et assistés par dictionnaire. Sci. Rep. 10, 17064 (2020).

Article ADS CAS PubMed PubMed Central Google Scholar

Nagel, S. & Spüler, M. L'interface cerveau-ordinateur la plus rapide au monde : combinaison de l'EEG2Code avec l'apprentissage en profondeur. PLoS ONE 14, e0221909 (2019).

Article CAS PubMed PubMed Central Google Scholar

Proudfoot, M. et al. Eye-tracking dans la sclérose latérale amyotrophique : une étude longitudinale des tâches saccadiques et cognitives. Amyotrope. Sclérose latérale Frontotemp. Dégénéré. 17, 101–111 (2016).

Article Google Scholar

Pinto, S., Quintarelli, S. & Silani, V. Nouvelles technologies et sclérose latérale amyotrophique — Quel pas en avant précipité par la pandémie de COVID-19 ?. J. Neurol. Sci. 418, 117081. https://doi.org/10.1016/j.jns.2020.117081 (2020).

Article CAS PubMed PubMed Central Google Scholar

Pasqualotto, E. et al. Facilité d'utilisation et charge de travail de la technologie d'accès pour les personnes ayant une déficience motrice grave : une comparaison de l'interface cerveau-ordinateur et du suivi oculaire. Neuroréhabilitation. Réparation neurale 29, 950–957 (2015).

Article PubMed Google Scholar

Calvo, A. et al. dans Conférence internationale sur les ordinateurs pour les personnes handicapées. 70–77 (Springer).

Gibbons, C. & Beneteau, E. Performances fonctionnelles utilisant le contrôle oculaire et le balayage à interrupteur unique par les personnes atteintes de SLA. Perspective. Augmenter. Alternat. Commun. 19, 64-69 (2010).

Article Google Scholar

Yedavalli, VS, Patil, A. & Shah, P. La sclérose latérale amyotrophique et ses imitateurs/variantes : une revue complète. J.Clin. Imagerie Sci. 8 (2018).

Zarei, S. et al. Une revue complète de la sclérose latérale amyotrophique. Surg. Neurol. Int. 6 (2015).

Light, J. et al. Défis et opportunités en communication améliorée et alternative : Recherche et développement technologique pour améliorer la communication et la participation des personnes ayant des besoins de communication complexes. Augmenter. Alterner. Commun. 35, 1–12 (2019).

Article ADS PubMed Google Scholar

Pai, S. & Bhardwaj, A. en 2019 Conférence internationale conjointe sur les réseaux de neurones (IJCNN). 1–8.

Tarek, N. et al. Lunettes Morse : Un système de communication IoT basé sur le code Morse pour les utilisateurs ayant des troubles de la parole. Calcul 104, 789–808. https://doi.org/10.1007/s00607-021-00959-1 (2022).

Article Google Scholar

Mukherjee, K. & Chatterjee, D. en 2015 Conférence internationale sur la communication, l'information et les technologies informatiques (ICCICT). 1–5 (IEEE).

Sane, H. Blink-To-Speak, https://www.blinktospeak.com/blink-to-speak-guide (2022).

Edughele, HO et al. Technologies d'assistance au suivi oculaire pour les personnes atteintes de sclérose latérale amyotrophique. Accès IEEE 10, 41952–41972. https://doi.org/10.1109/access.2022.3164075 (2022).

Article Google Scholar

Pugliese, R., Sala, R., Regondi, S., Beltrami, B. & Lunetta, C. Technologies émergentes pour la prise en charge des patients atteints de sclérose latérale amyotrophique : de la télésanté à la robotique d'assistance et aux interfaces neurales. J. Neurol. 269, 2910–2921. https://doi.org/10.1007/s00415-022-10971-w (2022).

Article PubMed PubMed Central Google Scholar

Lim, JZ, Mountstephens, J. & Teo, J. Extraction de caractéristiques de suivi oculaire pour l'apprentissage automatique biométrique. Devant. Neurorob. 15 (2021).

Cheng, S., Ping, Q., Wang, J. et Chen, Y. EasyGaze : Approche hybride de suivi des yeux pour les appareils mobiles portables. Intelligence de réalité virtuelle. Matériel 4, 173–188 (2022).

Article Google Scholar

Cocha Toabanda, E., Erazo, MC & Yoo, SG dans la modélisation et le développement de systèmes intelligents : 8e conférence internationale, MDIS 2022, Sibiu, Roumanie, 28-30 octobre 2022, articles sélectionnés révisés. 18–41 (Springer).

Santini, T., Fuhl, W. & Kasneci, E. PuRe : Détection robuste de la pupille pour un suivi oculaire omniprésent en temps réel. Calcul. Vis. Compréhension de l'image. 170, 40–50. https://doi.org/10.1016/j.cviu.2018.02.002 (2018).

Article Google Scholar

Liu, J., Chi, J., Yang, H. & Yin, X. Dans l'œil du spectateur : une enquête sur les techniques de suivi du regard. Reconnaissance de modèle. 132, 108944. https://doi.org/10.1016/j.patcog.2022.108944 (2022).

Article Google Scholar

Khan, MQ & Lee, S. Regard et suivi des yeux : techniques et applications dans ADAS. Capteurs 19, 5540 (2019).

Article ADS PubMed PubMed Central Google Scholar

Al-Rahayfeh, A. & Faezipour, M. Suivi des yeux et détection des mouvements de la tête : une enquête de pointe. IEEE J. Trad. Ing. Santé Med. 1, 2100212–2100212 (2013).

Article PubMed PubMed Central Google Scholar

Lingegowda, DR, Amrutesh, K. & Ramanujam, S. à la conférence internationale IEEE 2017 sur l'électronique grand public-Asie (ICCE-Asie). 36–40 (IEEE).

Käthner, I., Kübler, A. & Halder, S. Comparaison du suivi oculaire, de l'électrooculographie et d'une interface cerveau-ordinateur auditive pour la communication binaire : une étude de cas avec un participant à l'état enfermé. J. Neuroeng. Réhabilit. 12, 1–11 (2015).

Article Google Scholar

Morimoto, CH & Mimica, MR Techniques de suivi du regard pour les applications interactives. Calcul. Vis. Compréhension de l'image. 98, 4-24 (2005).

Article Google Scholar

Liu, SS et al. Un système de suivi oculaire et d'interface homme-ordinateur pour les personnes atteintes de SLA et d'autres maladies enfermées. Actes CMBES 33 (2010).

Raudonis, V., Simutis, R. & Narvydas, G. en 2009 2e Symposium international sur les sciences appliquées aux technologies biomédicales et de communication. 1–6 (IEEE).

Lu, F., Sugano, Y., Okabe, T. et Sato, Y. Régression linéaire adaptative pour l'estimation du regard basée sur l'apparence. IEEE Trans. Modèle Anal. Mach. Renseignement. 36, 2033-2046 (2014).

Article Google Scholar

Wang, Y. et al. Apprentissage d'un estimateur de regard avec sélection de voisins à partir d'images oculaires synthétiques à grande échelle. Syst. 139, 41-49 (2018).

Article Google Scholar

Kacete, A., Séguier, R., Collobert, M. & Royan, J. dans Asian Conference on Computer Vision. 419–432 (Springer).

Wu, Y.-L., Yeh, C.-T., Hung, W.-C. & Tang, C.-Y. Estimation de la direction du regard à l'aide d'une machine à vecteurs de support avec un modèle d'apparence actif. Multim. Outils Appl. 70, 2037-2062 (2014).

Article Google Scholar

Akinlar, C., Kucukkartal, HK et Topal, C. Segmentation précise de la pupille basée sur cnn avec un terme de régularisation d'erreur d'ajustement d'ellipse. Système expert. Appl. 188, 116004 (2022).

Article Google Scholar

Katona, J. et al. Utilisation de l'eye-tracking pour examiner la syntaxe des requêtes et la compréhension de la syntaxe des méthodes dans LINQ. en 2020 11e Conférence internationale IEEE sur les infocommunications cognitives (CogInfoCom). 000437–000444 (IEEE).

Adhanom, IB, MacNeilage, P. & Folmer, E. Eye Tracking en réalité virtuelle : un examen approfondi des applications et des défis. Réalité virtuelle, 1–24 (2023).

Dæhlen, A., Heldal, I. & Katona, J. Vers le développement d'applications de réalité virtuelle immersives pour soutenir le dépistage de la vision - Une étude d'utilisateurs. J. Appl. Technologie. Éduc. Sci. 12, 330 (2022).

Google Scholar

Flutter : créer des applications pour n'importe quel écran, https://flutter.dev/ (2022).

Dalal, N. & Triggs, B. en 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). 886–893 vol. 881.

Kazemi, V. & Sullivan, J. dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes. 1867–1874.

Bibliothèque Dlib C++ pour l'estimation de pose de visage en temps réel, http://blog.dlib.net/2014/08/real-time-face-pose-estimation.html (2014).

Sagonas , C. , Antonakos , E. , Tzimiropoulos , G. , Zafeiriou , S. & Pantic , M. 300 Faces In-The-Wild Challenge : Base de données et résultats . Affichage des images. L'informatique. 47 , 3–18 . https://doi.org/10.1016/j.imavis.2016.01.002 (2016).

Article Google Scholar

Cech, J. & Soukupova, T. Détection des clignements des yeux en temps réel à l'aide de repères faciaux. Cent. Mach. Perception, Dép. Cybern. Fac. Électr. Ing. Technologie tchèque. Univ. Prague, 1–8 (2016).

Reddy, B., Kim, Y.-H., Yun, S., Seo, C. et Jang, J. Détection des clignements des yeux en temps réel à l'aide de repères faciaux. IEEE CVPRW (2017).

Traduction de la bibliothèque Python, https://pypi.org/project/translate/ (2022).

Service de synthèse vocale par Microsoft Azure, https://azure.microsoft.com/en-in/services/cognitive-services/text-to-speech/ (2022).

FastAPI, https://fastAPI.com/ (2022).

Brownlee, A. & Bruening, LM Méthodes de communication en fin de vie pour la personne atteinte de sclérose latérale amyotrophique. Haut. Lang. Désordre. 32, 168-185 (2012).

Article Google Scholar

Brownlee, A. & Palovcak, M. Le rôle des dispositifs de communication augmentative dans la gestion médicale de la SLA. NeuroRehabilitation 22, 445–450 (2007).

Article PubMed Google Scholar

Télécharger les références

La bourse commémorative Google Anita Borg a soutenu ce travail à S.El-M.

Département d'informatique, Faculté d'informatique et d'information, Université de Mansoura, PO Box: 35516, Mansoura, Égypte

Mohamed Ezzat, Mohamed Maged, Youssef Gamal, Mustafa Adel, Mohammed Alrahmawy & Sara El-Metwally

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

ME, MA et S.El-M. étaient responsables de la conception de la méthodologie, de l'analyse formelle, de la validation du logiciel et de la conservation des données. ME, MM, YG et M. Ad. ont participé au développement, à la validation et aux tests de logiciels. S.El-M. était responsable de la conceptualisation, de la visualisation, de la rédaction et de la révision du projet original. MA et S.El-M. étaient responsables de l'administration du projet. Tous les auteurs ont validé les résultats et examiné le manuscrit.

Correspondance à Sara El-Metwally.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur tout support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Ezzat, M., Maged, M., Gamal, Y. et al. Système de communication oculaire Blink-To-Live pour les utilisateurs souffrant de troubles de la parole. Sci Rep 13, 7961 (2023). https://doi.org/10.1038/s41598-023-34310-9

Télécharger la citation

Reçu : 10 novembre 2022

Accepté : 27 avril 2023

Publié: 17 mai 2023

DOI : https://doi.org/10.1038/s41598-023-34310-9

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.