1. Audio signal representations with overcomplete transforms for coding and indexing
- Author
-
Ravelli, Emmanuel, Institut Jean le Rond d'Alembert (DALEMBERT), Université Pierre et Marie Curie - Paris 6 (UPMC)-Centre National de la Recherche Scientifique (CNRS), Université Pierre et Marie Curie - Paris VI, Laurent Daudet, Gaël Richard, and Bupmc, Theses
- Subjects
time-frequency transforms ,codage audio ,[INFO.INFO-TS] Computer Science [cs]/Signal and Image Processing ,traitement du signal ,indexation audio ,transformées temps-fréquence ,audio indexing ,quantification ,représentations parcimonieuses ,audio coding ,classification ,[INFO.INFO-TS]Computer Science [cs]/Signal and Image Processing ,représentation des signaux ,sparse representations ,signal representations ,quantization ,signal processing ,[SPI.SIGNAL]Engineering Sciences [physics]/Signal and Image processing ,[SPI.SIGNAL] Engineering Sciences [physics]/Signal and Image processing - Abstract
This thesis investigates new signal representations for audio coding. Existing state-of-the-art audio coders are based either on a transform (transform coding), or on a parametric model (parametric coding), or on a combination of both (hybrid coding). On the one hand, transform coding achieves (near-)transparent quality at high bitrates (e.g. AAC at 64kbps/channel), but gives poor performance at lower bitrates. On the other hand, parametric and hybrid coding achieve better performance than transform coding at low bitrates but cannot give transparent quality at high bitrates. The new approach for signal representation that we propose allows to achieve transparent quality at high bitrates, while giving better performance than transform coding at low bitrates. This signal representation is based on an overcomplete set of time-frequency functions composed by a union of several MDCT bases with different scales. The first major contribution of this thesis is a fast and efficient algorithm that decomposes a signal into this overcomplete set of functions. The second major contribution of this thesis is a set of techniques that allows the coding of these representations in an efficient and scalable way. Finally, this thesis investigates the application to audio indexing. We show that using a union of several MDCT bases allows to go beyond the limitations of the representations used in the transform coders (particularly the frequency resolution), which makes possible an efficient indexing in the transform domain., Cette thèse étudie de nouvelles techniques de représentation du signal pour le codage audio. Les codeurs audio existants sont basés soit sur une transformée (codage par transformée), soit sur un modèle paramétrique (codage paramétrique), soit sur une combinaison des deux (codage hybride). D'une part, le codage par transformée permet une qualité transparente à haut débit (ex. AAC à 64 kbps/canal), mais obtient de mauvaises performances à bas débit. D'autre part, le codage paramétrique et le codage hybride obtiennent de meilleures performances que le codage par transformée à haut débit mais ne permettent pas une qualité transparente à haut débit. La nouvelle approche de représentation du signal que nous proposons permet d'obtenir une qualité transparente à haut débit et de meilleures performances que le codage par transformée à bas débit. Cette représentation du signal est basée sur un ensemble redondant de fonctions temps-fréquence composée d'une union de plusieurs bases MDCT à différentes échelles. La première contribution majeure de cette thèse est un algorithme à la fois rapide et performant qui décompose un signal dans cette ensemble redondant de fonctions. La deuxième contribution majeure de cette thèse est un ensemble de techniques qui permettent un codage de ces représentations à la fois performant et progressif. Finalement, cette thèse étudie l'application à l'indexation audio. Nous montrons que l'utilisation d'une union de plusieurs MDCT permet de dépasser les limitations des représentations utilisées dans les codeurs par transformée (en particulier la résolution fréquentielle), ce qui rend ainsi possible une indexation dans le domaine transformée performant.
- Published
- 2008