Classification bimodale d'expressons vocales - Robotics Institute Carnegie Mellon University

Classification bimodale d’expressons vocales

Z. Hammal, B. Bozkurt, Laurent Couveur, D. Unay, A. Caplier, and T. Dutoit
Workshop Paper, Proceedings of GRETSI Workshop on Signal and Image Processing (GRETSI '05), September, 2005

Abstract

Nous présentons un système de classification d’expressions vocales. Ce travail s’inscrit dans la continuité de nos travaux sur la reconnaissance d’expressions faciales [1] dans le but de développer un système de reconnaissance d’expressions multimodales.

Dans un premier temps, une classification en 5 classes d’expressions a été envisagée sur la base d’expressions vocales DES [2]. Des confusions entre groupes d’expressions ont été obtenues. Il s’avère que ce sont les mêmes confusions que celles obtenues lors d’une classification par un humain. Contrairement aux travaux classiques qui s’efforcent alors de déterminer des caractéristiques permettant de dissocier les expressions les plus semblables, nous proposons ici de nous intéresser à deux classes d’expressions seulement : la classe des voix Agités regroupant la Joie, la Surprise et la Colère et la classe des voix Calmes regroupant le Neutre et la Tristesse. Cette classification présente l’avantage d’être plus conforme à la réalité. En effet, il n’est pas rare en situation réelle d’obtenir un mélange d’expressions dans la voix.

Pour valider le bien-fondé de ces deux nouvelles classes, plusieurs méthodes de classification utilisant un ensemble de caractéristiques statistiques acoustiques sont testées. On distingue un classifieur Bayesien, une classification par Analyse Discriminante Linéaire (ADL), un classifieur aux K plus proches voisins (KNN) et un classifieur à support vecteur machine (GSVM). Pour les deux classes considérées, les meilleurs taux de classification ont été obtenus avec le classifieur GSVM avec un taux de classification de 89.74% pour les voix Agitées et 86.54 % pour les voix Calmes.

Read/download now

BibTeX

@workshop{Hammal-2005-120288,
author = {Z. Hammal and B. Bozkurt and Laurent Couveur and D. Unay and A. Caplier and T. Dutoit},
title = {Classification bimodale d'expressons vocales},
booktitle = {Proceedings of GRETSI Workshop on Signal and Image Processing (GRETSI '05)},
year = {2005},
month = {September},
}