středa 22. května 2024

MFCC a co MFCC koeficienty - včetně ilustrací

 

Mel-frekvenční cepstrální koeficienty (MFCC, Mel-Frequency Cepstral Coefficients) jsou jednou z nejpopulárnějších a nejčastěji používaných metod pro extrakci charakteristik zvukového signálu, zejména v oblastech jako je rozpoznávání řeči a analýza hudby. MFCC jsou založeny na lidském vnímání zvuku a jeho frekvenčních složek.


Co je MFCC?

MFCC jsou reprezentací krátkodobé výkonové spektra zvukového signálu, která je upravena tak, aby více odpovídala způsobu, jakým lidé vnímají zvuk. Proces výpočtu MFCC zahrnuje několik kroků:

  • Rozdělení signálu do rámců: Signál je rozdělen na krátké segmenty (rámce), které se obvykle překrývají.
  • Aplikace okenní funkce: Na každý rámec je aplikována okenní funkce (např. Hammingovo okno), aby se snížily okrajové efekty.
  • Výpočet Fourierovy transformace: Každý rámec je převeden do frekvenční domény pomocí Fourierovy transformace.
  • Aplikace Mel-filtru: Frekvence jsou mapovány na Mel-škálu, která lépe odpovídá lidskému sluchovému vnímání. To se provádí pomocí banky Mel-filtrů.
  • Výpočet logaritmu: Výstup z Mel-filtrů je převeden pomocí logaritmické funkce.
  • Výpočet diskrétní kosinové transformace (DCT): Na logaritmované Mel-spektrum se aplikuje diskrétní kosinová transformace (DCT), čímž se získají cepstrální koeficienty.

Co jsou MFCC koeficienty?

MFCC koeficienty jsou výsledné hodnoty po aplikaci DCT na logaritmované Mel-spektrum. Tyto koeficienty reprezentují energetické rozložení frekvencí v Mel-škále a poskytují kompaktní popis spektrálního tvaru zvukového signálu. Prvních několik koeficientů obsahuje nejvíce informací o tvaru spektra a jsou nejdůležitější pro rozpoznávání zvuku.

Použití MFCC

MFCC se hojně používají v aplikacích, jako jsou:

  • Rozpoznávání řeči
  • Hudební informační zpětné získávání (MIR)
  • Rozpoznávání žánru
  • Identifikace řečníka
  • Zvuková klasifikace a detekce

Příklad výpočtu MFCC v Pythonu s knihovnou Essentia

python
import essentia.standard as es
import numpy as np

# Načtení zvukového souboru
loader = es.MonoLoader(filename='audio.wav')
audio = loader()

# Rozdělení signálu do rámců
frame_size = 1024
hop_size = 512
frame_generator = es.FrameGenerator(audio, frameSize=frame_size, hopSize=hop_size)

# Inicializace algoritmu MFCC
mfcc = es.MFCC()

# Průběžná analýza signálu
mfcc_coeffs_list = []
for frame in frame_generator:
    windowed_frame = es.Windowing(type='hann')(frame)  # Aplikace okenní funkce
    spectrum = es.Spectrum()(windowed_frame)           # Výpočet spektra
    mfcc_coeffs, mfcc_bands = mfcc(spectrum)           # Výpočet MFCC
    mfcc_coeffs_list.append(mfcc_coeffs)

# Převedení seznamu koeficientů na numpy pole
mfcc_array = np.array(mfcc_coeffs_list)

print("MFCC Coefficients Shape:", mfcc_array.shape)
print("MFCC Coefficients:", mfcc_array)

Tento kód:

  1. Načte zvukový soubor a rozdělí jej na rámce.
  2. Na každý rámec aplikuje okenní funkci.
  3. Vypočítá spektrum pro každý rámec.
  4. Vypočítá MFCC koeficienty pro každý rámec a uloží je do seznamu.
  5. Vypíše tvar pole MFCC koeficientů a samotné koeficienty.

Shrnutí

MFCC a jejich koeficienty jsou nástroje pro analýzu a popis zvukových signálů, které jsou široce používány v oblastech rozpoznávání řeči a hudby. Výpočet MFCC zahrnuje několik kroků od rozdělení signálu do rámců až po aplikaci diskrétní kosinové transformace na logaritmované Mel-spektrum.

Mel-frekvenční cepstrum (wikipedie)

V zpracování zvuku je mel-frekvenční cepstrum (MFC) reprezentace krátkodobého výkonového spektra zvuku, založená na lineární kosinové transformaci logaritmického výkonového spektra na nelineární melové škále frekvence.

Mel-frekvenční cepstrální koeficienty (MFCCs) jsou koeficienty, které dohromady tvoří MFC. Jsou odvozeny z typu cepstrální reprezentace zvukového klipu (nelineární „spektrum spektra“). Rozdíl mezi cepstrem a mel-frekvenčním cepstrem spočívá v tom, že v MFC jsou frekvenční pásma rovnoměrně rozmístěna na melové škále, která přibližuje odezvu lidského sluchového systému přesněji než lineárně rozmístěná frekvenční pásma používaná v běžném spektru. Toto frekvenční zkreslení může umožnit lepší reprezentaci zvuku, například při kompresi zvuku, která by mohla potenciálně snížit přenosovou šířku pásma a požadavky na úložiště zvukových signálů.

MFCCs jsou běžně odvozovány následujícím způsobem:

  • Proveďte Fourierovu transformaci (ohraničeného úseku) signálu.
  • Namapujte výkony spektra získaného výše na melovou škálu, pomocí trojúhelníkových překrývajících se oken nebo alternativně kosinových překrývajících se oken.
  • Vezměte logaritmy výkonů na každé z melových frekvencí.
  • Proveďte diskrétní kosinovou transformaci seznamu mel logaritmických výkonů, jako by to byl signál.
  • MFCCs jsou amplitudy výsledného spektra.

Tento proces může mít různé varianty, například: rozdíly ve tvaru nebo rozmístění oken používaných k mapování škály, nebo přidání dynamických funkcí, jako jsou „delta“ a „delta-delta“ (první a druhé pořadí rozdílů mezi snímky).

 

  • Proveďte Fourierovu transformaci (ohraničeného úseku) signálu.


  • Namapujte výkony spektra získaného výše na melovou škálu, pomocí trojúhelníkových překrývajících se oken nebo alternativně kosinových překrývajících se oken.



  •  
  • Vezměte logaritmy výkonů na každé z melových frekvencí.







  •  
  • Proveďte diskrétní kosinovou transformaci seznamu mel logaritmických výkonů, jako by to byl signál.




  •  
  • MFCCs jsou amplitudy výsledného spektra.

 

Popis poslední ilustrace: transformace

Každý prvek v ilustraci má svůj specifický význam v procesu MFCC:

  • Válce představují filtry melové škály, které jsou aplikovány na spektrum signálu. Tyto filtry pomáhají simulovat způsob, jakým lidské ucho vnímá zvuky různých frekvencí, a jsou rozmístěny rovnoměrně na melové škále, která je založena na lidském vnímání zvuku.

  • Čtverce symbolizují logaritmické výkony jednotlivých filtrů melové škály. Logaritmování výkonů je důležité, protože lidské vnímání zvuku je logaritmické, což znamená, že vnímáme změny v intenzitě zvuku exponenciálně.

  • Kvadranty mohou reprezentovat různé části diskrétní kosinové transformace (DCT), která se používá k převodu logaritmických výkonů filtrů na sady koeficientů, známé jako cepstrální koeficienty. DCT pomáhá odstranit korelaci mezi frekvencemi a produkuje hladký spektrální obraz, který je užitečný pro rozpoznávání vzorů a hlasů.

Tato ilustrace byla vytvořena tak, aby poskytla vizuální reprezentaci toho, jak MFCC extrahuje charakteristiky zvukového signálu pro účely rozpoznávání řeči a zvuků. Je to technické vysvětlení, které se snaží být co nejpřesnější a nejjasnější pro lepší pochopení procesu. Doufám, že toto vysvětlení pomůže objasnit, jak tyto prvky společně pracují na vytvoření MFCC. Pokud máte další otázky nebo potřebujete další vysvětlení, neváhejte se zeptat.

 

 

sss


Žádné komentáře:

Okomentovat

GPT: Ramdisk a extrakce .deb

  Následující skript provádí popsané kroky, využívá RAMdisky různých velikostí podle potřeby a provádí extrakci. Tento skript je psán v Bas...

Štítky

.profile adm administrace Adobe AI akcelerace alfa transparence AND any aplikace apt ar archiv asociativní pole atomicity audio autentifikace awk balíčkovací systém bash beacon beacon_hint benchmark Bézierovy křivky bezpečnost biblehub BJT boolean buffer buffering Cache-Conrol Cloudflare code Collector Cut-off ColorManager colorpicker common compare config cookies CPU CPU pipe css CSS3 curl cut čas data loss data lost data transfer reliability datasheet datetime.strptime deb deb-systemd-helper debian debián development dioda diody dpkg dpkg -S dpkg-deb drivers EBO Emitter Cut-off Current eps ETag exclude exec Expires extrakce jediného extrakce názvu balíčku souboru extrakce souboru .deb fflock fflush ffmpeg FIFO file read file write file_get_contents file_get_contents/file_put_contents file_put_contents filter find first_install.sh flock Fly-back dioda font-face fóra fotorezistor fread functions funkce fwrite gate gate drive GDVfs gedit gedit-common geolokace Ghostscript GIO glib gnome gnome settings GNU Privacy Guard gnupg gpg gradient-background grafika grep grep -v groupadd grub grub update gs gsettings gtk gtk.css gtk+ hebrejština history hlavičky HS html html 5 https hudba charakterizace chroot chyba ICES IGBT img sizes img srcset impedance implementace imshow inference inkscape inrush current install jalový výkon javascript javescript jednocení seznamů js kapacita součástek koeficient zesílení komponenty xFce komunikace se serverem konfigurace Krita KSF Last-Modified lazy caching led LEFT JOIN librosa ligatury light-locker lightdm linux list log maják manuál maskování maskování služby masky matplotlib Max-Age measure memory měření MFCC MFCC koeficienty mint Mint 21.3 Mint xFce míry modules moralizace morphologie MOSFET mount moviepy mysql náběhový proud napěťová ochrana návod nel Network Error Logging NLP not Notifications NTFS nth-child oblékání ochrana okruhy přátel OpenVINO IR formát oprava oprava balíčku optočlen org.gnome.desktop.screensaver org.gnome.nm-applet ořezové masky OSHB otázky otázky_jazyky otázky_moralismu_řešení ovladače panely parsování path personifikace photorec php php 4 php 5 php 6 php 7 php 8 phpbb phpBB3 PipeWire pitch PN přechody pnp pole Policykit postscript práva profilování program prune průraz přeinstalování přepěťová ochrana přepolování příkazy připojení k síti připojení k wifi pseudokódd pstoedit PulseAudio PWM regulátory pydub python python3 pytorch ramdisk RBE RDSon read reaktance rectifier regulace vstupního napětí reinstall relyability remount replace restore reverzní geolokace RIGHT JOIN rm role rozvržení disků pro OS linux a data databází řešení samba sdílení sdílení souborů Sec-Fetch-Dest Sec-Fetch-Mode Sec-Fetch-Site Sec-Fetch-User Secure Shell sed Set Cookie show-manual-login show-remote-login shunt schemas schémata schottka skript skupiny sloupce služby song sort soubory soundfile spínané zdroje spínání splines split správa diskových zařízení SQL ssh stabilizace napětí stahování stream string strojové učení stropové učení supplicant svg syntax systemctl systemd-logind T5 tabulky Tangentové úsečky tar témata tepelná ztráta test text-shadow themes thermal runaway time timestamp tkinter tr transistor transition tranzistor tranzistory tuple tvorba otázek TVS ubuntu účiník udiskd udisks unconfined underrun unity-greeter update usermod uživatelé va charakteristika vala vektorová grafika Vgs video Vth vynechání adresářů vývoj while wpa wpa_supplicant wrapovací funkce x xandr xapp-watt xargs -I xed xed-common xfdesktop xml XOR Xorg Xorg Thumbnails xrandr závislosti zdánlivý výkon zdroj zenerka zenerovo napětí zip zip archiv zkratky zpomalení zpracování textu Žalmy