Les gestes communicatifs et la parole sont étroitement liés. Nous voulons prédire automatiquement les gestes en fonction du discours. Le discours lui-même a deux constituants : l'acoustique et le contenu du discours (c'est-à-dire le texte). Dans une partie de cette thèse, nous développons un modèle basé sur un réseau de neurones récurrents avec un mécanisme d'attention pour prédire le moment des gestes, c'est-à-dire quand les gestes doivent se produire et quels types des gestes doivent se produire. Nous utilisons une technique de comparaison de séquences pour évaluer les performances du modèle. Nous réalisons également une étude subjective pour mesurer comment nos répondants jugent le naturel, la cohérence temporelle et la cohérence sémantique des gestes générés. Dans une autre partie de la thèse, nous travaillons avec la génération des gestes métaphoriques. Les gestes métaphoriques portent le sens, et il est donc nécessaire d'extraire la sémantique pertinente du contenu du discours. Ceci est fait en utilisant le concept d’image schéma tel que démontré par Ravenet et al. Cependant, pour pouvoir utiliser l’image schéma dans les techniques d'apprentissage automatique, les image schémas doivent être convertis en vecteurs de nombres réels. Par conséquent, nous étudions comment nous pouvons transformer l’image schéma en vecteur en utilisant des techniques du plongement de mots. Enfin, nous étudions comment nous pouvons représenter les formes des gestes des mains. La représentation doit être suffisamment compacte mais elle doit également être suffisamment large pour pouvoir couvrir suffisamment de formes pouvant représenter une gamme suffisante de sémantique.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fajrian Yunus (Mon,) studied this question.
Fajrian Yunus
Building similarity graph...
Analyzing shared references across papers
Loading...