About: Mel-frequency cepstrum     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : owl:Thing, within Data Space : dbpedia.demo.openlinksw.com associated with source document(s)
QRcode icon
http://dbpedia.demo.openlinksw.com/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FMel-frequency_cepstrum&invfp=IFP_OFF&sas=SAME_AS_OFF

In sound processing, the mel-frequency cepstrum (MFC) is a representation of the short-term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. MFCCs are commonly derived as follows: There can be variations on this process, for example: differences in the shape or spacing of the windows used to map the scale, or addition of dynamics features such as "delta" and "delta-delta" (first- and second-order frame-to-frame difference) coefficients.

AttributesValues
rdfs:label
  • Cepstrum de freqüència Mel (ca)
  • Mel Frequency Cepstral Coefficients (de)
  • MFCC (es)
  • Mel-frequency cepstrum (en)
  • MFCC (uk)
  • 梅爾倒頻譜 (zh)
rdfs:comment
  • Мелчастотні кепстральні коефіцієнти (англ. Mel-frequency cepstral coefficients (MFCCs)) — це коефіцієнти мел-частотного . Мел-шкала є емпіричною шкалою, що ґрунтується на людському відчутті частоти звуку. На основі MFCC розраховуються ознаки кольоровості для нейронних мереж при розпізнаванні конкретної голосової команди. (uk)
  • 在訊號處理中,梅爾倒頻譜(Mel-Frequency Cepstrum, MFC)係一個可用來代表短期音訊的頻譜,其原理基于用非線性的梅爾刻度(mel scale)表示的對數頻譜及其線性餘弦轉換(linear cosine transform)上。 梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)是一組用來建立梅爾倒頻譜的關鍵係數。由音樂訊號當中的片段,可以得到一組足以代表此音樂訊號之倒頻譜(Cepstrum),而梅爾倒頻譜係數即是從這個倒頻譜中推得的倒頻譜(也就是頻譜的頻譜)。與一般的倒頻譜不同 ,梅爾倒頻譜最大的特色在於,於梅爾倒頻譜上的頻帶是均勻分布於梅爾刻度上的,也就是說,這樣的頻帶相較於一般所看到、線性的倒頻譜表示方法,和人類非線性的聽覺系統更為接近。例如:在音訊壓縮的技術中,便常常使用梅爾倒頻譜來處理。 梅爾倒頻譜係數通常是用以下方法得到的: 1. * 將一訊號進行傅利葉轉換 2. * 利用(triangular overlapping window),將頻譜映射(mapping)至梅爾刻度 3. * 取對數 4. * 取離散餘弦轉換 5. * MFCC是轉換後的頻譜 取得梅爾倒頻譜的方法眾多,上述只是其中一種。 另外,ETSI在2000年左右有定義一套專為行動電話設計的梅爾倒頻譜係數演算法。 (zh)
  • Die Mel Frequency Cepstral Coefficients (MFCC; deutsch Mel-Frequenz-Cepstrum-Koeffizienten) werden zur automatischen Spracherkennung verwendet. Sie führen zu einer kompakten Darstellung des Frequenzspektrums. Das Mel im Namen beschreibt die wahrgenommene Tonhöhe. MFCCs werden auch zur Analyse von Musik herangezogen. Insbesondere werden sie für die Erkennung von Musikstücken eingesetzt, um ihnen Metadaten zuordnen zu können. MFCCs werden durch die folgenden Schritte berechnet: (de)
  • Los Mel Frequency Cepstral Coefficients (Coeficientes Cepstrales en las Frecuencias de Mel) o MFCCs son coeficientes para la representación del habla basados en la percepción auditiva humana. Estos surgen de la necesidad, en el área del reconocimiento de audio automático, de extraer características de las componentes de una señal de audio que sean adecuadas para la identificación de contenido relevante, así como obviar todas aquellas que posean información poco valiosa como el ruido de fondo, emociones, volumen, tono, etc. y que no aportan nada al proceso de reconocimiento, al contrario lo empobrecen. (es)
  • In sound processing, the mel-frequency cepstrum (MFC) is a representation of the short-term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. MFCCs are commonly derived as follows: There can be variations on this process, for example: differences in the shape or spacing of the windows used to map the scale, or addition of dynamics features such as "delta" and "delta-delta" (first- and second-order frame-to-frame difference) coefficients. (en)
dcterms:subject
Wikipage page ID
Wikipage revision ID
Link from a Wikipage to another Wikipage
Link from a Wikipage to an external page
sameAs
dbp:wikiPageUsesTemplate
has abstract
  • En el processament del so, el cepstrum de freqüència mel (amb acrònim anglès MFC) és una representació de l' espectre de potència a curt termini d'un so, basat en una transformada de cosinus lineal d'un espectre de potència logarítmica en una escala de freqüència mel no lineal. Els coeficients cepstrals de freqüència Mel (amb acrònim anglès MFCC) són coeficients que formen col·lectivament un MFC. Es deriven d'un tipus de representació cepstral del clip d'àudio (un "espectre d'un espectre") no lineal. La diferència entre el cepstrum i el cepstrum de freqüència mel és que al MFC, les bandes de freqüència estan igualment espaciades a l'escala mel, que s'aproxima a la resposta del sistema auditiu humà més de prop que les bandes de freqüència espaciades linealment utilitzades en l'espectre normal. Aquesta deformació de freqüència pot permetre una millor representació del so, per exemple, en la compressió d'àudio que podria reduir l'amplada de banda de transmissió i els requisits d'emmagatzematge dels senyals d'àudio. Els MFCC es deriven habitualment de la següent manera: 1. * Apliquem la Transformada de Fourier al senyal d'àudio temporal. 2. * Es pondera el resultat amb l'escala de Mel. 3. * Prenem el logaritme als valors de l'escala de Mel. 4. * Apliquem la transformada del cosinus i obtenim els MFCC. Aplicacions: Els MFCC s'utilitzen habitualment com a paràmetres en sistemes de reconeixement de veu, com ara els sistemes que poden reconèixer automàticament els números parlats en un telèfon. Els MFCC també estan trobant cada vegada més usos en aplicacions de , com ara classificació de gènere, mesures de similitud d'àudio, etc. (ca)
  • Die Mel Frequency Cepstral Coefficients (MFCC; deutsch Mel-Frequenz-Cepstrum-Koeffizienten) werden zur automatischen Spracherkennung verwendet. Sie führen zu einer kompakten Darstellung des Frequenzspektrums. Das Mel im Namen beschreibt die wahrgenommene Tonhöhe. MFCCs werden auch zur Analyse von Musik herangezogen. Insbesondere werden sie für die Erkennung von Musikstücken eingesetzt, um ihnen Metadaten zuordnen zu können. Die lineare Modellierung von Spracherzeugung dient als eigentliche Grundlage für die Erzeugung von MFCCs: Ein periodisches Anregungssignal (Stimmbänder) wird durch einen „linearen Filter“ (Mund, Zunge, Nasenhöhlen, …) geformt. Für die Spracherkennung ist in erster Linie das Filter (bzw. dessen Impulsantwort) von Bedeutung, da „was gesagt wurde“ und nicht „in welcher Tonlage“ für die Analyse von Interesse ist. Die Berechnung der MFCC ist eine elegante Methode, das Anregungssignal und die Impulsantwort des Filters zu trennen. Mathematisch formuliert wird die Impulsantwort des Filters mit dem Anregungssignal gefaltet, um das Sprachsignal zu erzeugen. Bei Berechnung des Cepstrums wird die Faltungsoperation auf Grund des Logarithmus in eine Addition transformiert, die einfach zu trennen ist, womit man das Sprachsignal in Anregung (excitation) und Quelle (source) trennen kann. MFCCs werden durch die folgenden Schritte berechnet: 1. * Unterteilung des Eingabesignals in Blöcke bzw. Fenster (z. B. Hamming-Fensterfunktion, um Kanteneffekte zu vermeiden). Überlappende Fenster sind üblich. 2. * (Diskrete) Fourier-Transformation jedes einzelnen Fensters (Dadurch wird die Faltung von Anregungssignal und Impulsantwort in eine Multiplikation transformiert). 3. * Erzeugung des Betragsspektrum. 4. * Logarithmierung des Betragsspektrums. Dadurch wird die Multiplikation von Anregungssignal und Impulsantwort in eine Addition transformiert. 5. * Reduktion der Anzahl der Frequenzbänder (z. B. 256) durch Zusammenfassen (auf z. B. 40). (Abbildung auf die Mel-Scala in diskreten Schritten mittels Dreiecksfiltern (effektiv eine Bandfilterung)). 6. * Abschließende Dekorrelation durch entweder eine Diskrete Kosinustransformation oder eine Hauptkomponentenanalyse (auch Karhunen-Loève-Transformation genannt). (Ursprünglich wurden die logarithmierten Fourier-Koeffizienten (ohne Mel-Bandpassfilterung) invers Fouriertransformiert. Die Anregungsfrequenz ist dann eine einzelne Spitze und leicht zu erkennen bzw. herauszufiltern. Wird dieses Verfahren angewandt, spricht man von Cepstrum. Der Vorteil ist im Wesentlichen, dass eine Faltung (z. B. Filterung) im Zeitbereich einer Addition im logarithmierten Frequenzbereich entspricht. Aufgabe der Koeffizienten ist es, die Information des Audiosignals in dekorrelierter Form (d. h. möglichst effektiv) zu repräsentieren. Deshalb werden die logarithmierten Frequenzen einer DCT unterzogen, die ähnlich gute Eigenschaften wie die Karhunen-Loève-Transformation aufweist und zudem einfach zu implementieren ist). (de)
  • Los Mel Frequency Cepstral Coefficients (Coeficientes Cepstrales en las Frecuencias de Mel) o MFCCs son coeficientes para la representación del habla basados en la percepción auditiva humana. Estos surgen de la necesidad, en el área del reconocimiento de audio automático, de extraer características de las componentes de una señal de audio que sean adecuadas para la identificación de contenido relevante, así como obviar todas aquellas que posean información poco valiosa como el ruido de fondo, emociones, volumen, tono, etc. y que no aportan nada al proceso de reconocimiento, al contrario lo empobrecen. Los MFCCs son una característica ampliamente usada en el reconocimiento automático del discurso o el locutor y fueron introducidos por Davis y Mermelstein en los años 80 y han sido el estado del arte desde entonces. MFCCs se calculan comúnmente de la siguiente forma:​ 1. * Separar la señal en pequeños tramos. 2. * A cada tramo aplicarle la Transformada de Fourier discreta y obtener la potencia espectral de la señal. 3. * Aplicar el banco de filtros correspondientes a la Escala Mel al espectro obtenido en el paso anterior y sumar las energías en cada uno de ellos. 4. * Tomar el logaritmo de todas las energías de cada frecuencia mel 5. * Aplicarle la transformada de coseno discreta a estos logaritmos. Estos valores obtenidos son los coeficientes que buscamos. Aunque opcionalmente se le pueden añadir otros valores como los deltas y/o los delta-deltas. (es)
  • In sound processing, the mel-frequency cepstrum (MFC) is a representation of the short-term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. Mel-frequency cepstral coefficients (MFCCs) are coefficients that collectively make up an MFC. They are derived from a type of cepstral representation of the audio clip (a nonlinear "spectrum-of-a-spectrum"). The difference between the cepstrum and the mel-frequency cepstrum is that in the MFC, the frequency bands are equally spaced on the mel scale, which approximates the human auditory system's response more closely than the linearly-spaced frequency bands used in the normal spectrum. This frequency warping can allow for better representation of sound, for example, in audio compression that might potentially reduce the transmission bandwidth and the storage requirements of audio signals. MFCCs are commonly derived as follows: 1. * Take the Fourier transform of (a windowed excerpt of) a signal. 2. * Map the powers of the spectrum obtained above onto the mel scale, using triangular overlapping windows or alternatively, cosine overlapping windows. 3. * Take the logs of the powers at each of the mel frequencies. 4. * Take the discrete cosine transform of the list of mel log powers, as if it were a signal. 5. * The MFCCs are the amplitudes of the resulting spectrum. There can be variations on this process, for example: differences in the shape or spacing of the windows used to map the scale, or addition of dynamics features such as "delta" and "delta-delta" (first- and second-order frame-to-frame difference) coefficients. The European Telecommunications Standards Institute in the early 2000s defined a standardised MFCC algorithm to be used in mobile phones. (en)
  • Мелчастотні кепстральні коефіцієнти (англ. Mel-frequency cepstral coefficients (MFCCs)) — це коефіцієнти мел-частотного . Мел-шкала є емпіричною шкалою, що ґрунтується на людському відчутті частоти звуку. На основі MFCC розраховуються ознаки кольоровості для нейронних мереж при розпізнаванні конкретної голосової команди. (uk)
  • 在訊號處理中,梅爾倒頻譜(Mel-Frequency Cepstrum, MFC)係一個可用來代表短期音訊的頻譜,其原理基于用非線性的梅爾刻度(mel scale)表示的對數頻譜及其線性餘弦轉換(linear cosine transform)上。 梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)是一組用來建立梅爾倒頻譜的關鍵係數。由音樂訊號當中的片段,可以得到一組足以代表此音樂訊號之倒頻譜(Cepstrum),而梅爾倒頻譜係數即是從這個倒頻譜中推得的倒頻譜(也就是頻譜的頻譜)。與一般的倒頻譜不同 ,梅爾倒頻譜最大的特色在於,於梅爾倒頻譜上的頻帶是均勻分布於梅爾刻度上的,也就是說,這樣的頻帶相較於一般所看到、線性的倒頻譜表示方法,和人類非線性的聽覺系統更為接近。例如:在音訊壓縮的技術中,便常常使用梅爾倒頻譜來處理。 梅爾倒頻譜係數通常是用以下方法得到的: 1. * 將一訊號進行傅利葉轉換 2. * 利用(triangular overlapping window),將頻譜映射(mapping)至梅爾刻度 3. * 取對數 4. * 取離散餘弦轉換 5. * MFCC是轉換後的頻譜 取得梅爾倒頻譜的方法眾多,上述只是其中一種。 另外,ETSI在2000年左右有定義一套專為行動電話設計的梅爾倒頻譜係數演算法。 (zh)
gold:hypernym
prov:wasDerivedFrom
page length (characters) of wiki page
foaf:isPrimaryTopicOf
is Link from a Wikipage to another Wikipage of
is Wikipage redirect of
is Wikipage disambiguates of
is foaf:primaryTopic of
Faceted Search & Find service v1.17_git139 as of Feb 29 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 08.03.3330 as of Mar 19 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (378 GB total memory, 59 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software