MZPR: Zpracování řeči

Ukázka videopřednášky
Garant: prof. Ing. Zdeněk Smékal, CSc.
Zkratka: MZPR
Rozsah: 26P – 39L
Zařazení: magisterské studium
Kredity: 6
Povinnost: volitelný oborový předmět
Typ studia: prezenční

Stručný popis

Cílem je poskytnout ucelený pohled na systémy řečové komunikace v informačních a telekomunikačních systémech. Je určen studentům, kteří si chtějí osvojit základní a pokročilé techniky analýzy, kódování, syntézy a vodoznačení řeči. Mimo základních principů ověřování mluvčího se studenti seznámí s problematikou jednokanálové a vícekanálové separace řeči z hlučného pozadí a principy automatického rozpoznávání řeči. Kromě toho studenti budou v počítačových laboratořích analyzovat řečový signál v reálném čase.

Popis předmětu

Student získá přehled o modelu vytváření řeči, o sluchových orgánech, o analýze řečových signálů a výpočet atributů řečového signálu. Studenti se dále seznámí s predikční analýzou, spektrogramem a homomorfní analýzou a vodoznačením řeči. Dále se dozví o subjektivních a objektivních metodách hodnocení kvality a srozumitelnosti řeči. Budou umět v Matlabu vytvořit systém pro rozpoznávání slov z omezeného slovníku.

Obsah předmětu (anotace):

Předmět podává ucelený pohled na různé současné oblasti zpracování řečových signálů, které se ve verbální komunikaci objevují. Nejprve je uveden způsob tvorby řeči a její vnímání a je popsáno sluchové ústrojí člověka a proces slyšení. Potom jsou probrány segmentální a suprasegmentální parametry, které se při analýze řeči nejvíce používají. Dále pak jsou zmíněny všechny důležité oblasti zpracování řeči: rozpoznávání vzoru a rozpoznávání izolovaných slov, syntéza a kódování řeči a jsou popsány systémy typu TTS. S tím jsou spojené metody analýzy základního tónu řeči, modelování prozodie, emoční analýza a vodoznační řeči. Dále je pozornost věnována jednokanálovým a vícekanálovým metodám zvýraznění řeči a potlačení šumu. Nakonec jsou popsány objektivní a subjektivní metody posuzování kvality a srozumitelnosti řeči.

Sylabus

  1. Verbální komunikace mezi lidmi, hlasové ústrojí člověka, formanty, antiformanty, parametrický model řeči. Akustické vlastnosti samohlásek a souhlásek. Proces slyšení a sluchové pole, práh slyšení, hladina hlasitosti, výška zvuku. Maskování a zkreslení slyšení, kritická šířka pásma. Binaurální slyšení.
  2. Oblasti zpracování řečového signálu. Přehled segmentálních parametrů a suprasegmentáních parametrů. Předzpracování řeči, segmentace, využití oken a preemfáze. Úzkopásmový a širokopásmový spektrogram, krátkodobá energie, Lineární predikční analýza, modelování hlasového traktu pomocí LPC koeficientů. Percepční lineární predikční koeficienty. Kepstrální analýza, komplexní a reálné kepstrum, melovské spektrální a kepstrální koeficienty.
  3. Signál základního tónu řeči (ZT), základní kmitočet a základní perioda, jitter, shimmer. Přehled metod stanovení parametrů ZT řeči, porovnání metod určení ZT řeči.
  4. Rozpoznávání vzoru, extrakce příznaků, redukce příznaků, klasifikace. Algoritmus borcení časové osy (DTW). Míra podobnosti, absolutní rozdíl, Eukleidova míra, Mahalanobisova míra, Itakurova míra. K-means algoritmus. Logopedické signály, učící systémy pro odstranění vad. Analýza biologických signálů pro rozpoznání a léčení různých nemocí, které jsou diagnostikovány na základě lidské promluvy (Parkinsonova choroba apod.).
  5. Bayesovská klasifikace, neuronové sítě, smíšené Gaussovy modely, podpůrné vektory SVM, skryté Markovovy procesy. Slovní a větná prozodie, mikroprozodie. Parametry prosodie: průběh základního tónu, intenzita a tempo. Fujisakiho model, statistické a LPC modelování. Fonetické modelování podle pravidel (melodémy).
  6. Zvukové ukázky, historie vývoje. Tvorba inventáře řečových jednotek. Syntéza řeči v časové oblasti a v kmitočtové oblasti. Modelování hlasového traktu (LP model, kepstrální model, harmonický model). Aproximace funkce exp(x). Syntéza TTS, předzpracování textu, fonetická transkripce, nastavení prozodie.
  7. Kódování tvaru vlny. Zdrojové kódování. Přenosové systémy se změnou přenosové rychlosti WMR-WB a AMR-WB. Přenos řeči pomocí internetu VoIP.
  8. Metoda spektrálního odečítání, metody RASTA, metoda mapování spektrogramu. Detektory řečové aktivity. Využití vlnkové transformace a bank číslicových filtrů. Adaptivní LMS filtry. Koktail-party efekt. Metoda tvarování přijímací charakteristiky. Metoda separace zdrojů naslepo, nedourčená, určená a přeurčená separace. Základní princip metody analýzy nezávislých komponent ICA a metody analýzy řídkých komponent SCA.
  9. Systém pro rozpoznávání emocí z řeči. Výpočet a redukce příznaků. Klasifikace emocí. Systém pro rozpoznávání emocí ze statických obrazů a videa.
  10. Hodnocení kvality, srozumitelnosti, přirozenosti a přijatelnosti řeči. Rozdělení objektivních a subjektivních metod. Nominální, pořadová, intervalová a poměrová škála. Větné, slovní, rýmové, logatomové testy, měření odstupu signálu od šumu. Databáze řečových nahrávek, jejich členění a typy. Metoda PESQ a PSQM.
  11. Ochrana dat a databází, obecné schéma kodéru a dekodéru vodoznačení. Nevnímatelnost, robustnost a vytížení kodéru. Maskování v časové a ve spektrální oblasti.
  12. Modulační spektrum, bispektrum, bikepstrum, metody hodnotící kvalitu řeči, příznaky odvozené z EMD, příznaky odvozené z DTWT atd.