Áttekintés
Az elmúlt évtizedekben sok kutatás elsősorban a számítógépes emberi beszédfeldolgozásra és a beszédfelismerésre összpontosított, az eredmények változó sikert arattak. Az ilyen rendszereknek két fő eleme van.
- Az első az adott hang jellemző vektora, amely tartalmazza a legfontosabb akusztikai paramétereit.
- A második egy mesterséges intelligencia (MI) rendszer, amely képes megkülönböztetni a különböző eseteket és képes döntéseket hozni bizonyos helyzetekben.
Ezen felül, a Beszédakusztikai Laboratóriumban (Laboratory of Speech Acoustics - LSA) egy infokommunikációs eszköz létrehozásán dolgozunk, amely az e-egészségügy és a távorvoslási módszertanokra támaszkodik, annak érdekében, hogy javuljon a beszédzavarok diagnózisának minősége és javuljon a beszédterápiák minősége.
Egy ilyen rendszer gyors és egyszerű kapcsolatot biztosítana a betegek és az orvosok között a betegek diagnózisa és monitorozása érdekében. A rendszer a beszédterápiák egyszerű beállítási lehetőségeit is lehetővé tenné, és segítséget nyújtana a betegeknek a helyes kiejtésben, anélkül, hogy elhagyná otthonát.
Adatbázisgyűjtés
A kutatás egyik legnagyobb kihívása, hogy jelentősen nagy patológiai hangadatbázist hozzunk létre a különböző megközelítések hatékonyságának és helyességének statisztikai értékeléséhez.
Annak érdekében, hogy egy ilyen adatbázis álljon rendelkezésre, az LSA-ban folyamatosan együttműködünk olyan orvosokkal és kórházakkal, ahol a betegek beszédét ellenőrzött és előre definiált protokoll szerint tudjuk rögzíteni. Minden pácienstől kétféle hanganyagot gyűjtünk: először három kitartott "ó" hangot rögzítünk, majd Aiszóposz meséjét, "Az északi szél és a nap" -ot. Ezen népmese gyakran használt a foniátriai kutatásokban, mivel a mese fonetikailag kiegyensúlyozott, vagyis a szöveganyagát úgy szerkesztették meg, hogy az adott nyelvben előforduló minden beszédhang, valamint a leggyakoribb hangkapcsolatok szerepelnek benne. A hangfelvételek magyar nyelven készülnek. Az adatbázis tartalmazza a beteg nemét, korát és diagnosztizált patológiai rendellenességét, amelyet az orvosok hitelesítenek. A metaadatok melett a hang minősége is rögzítésre kerül, amit az RBH szubjektív skálával lehet meghatározni, ahol az R (roughness) az érdességet, a B (breathiness) a leveg®sséget, míg a H (hoarseness) az általános rekedtséget hivatott mutatni. Az RBH értékeket az orvosok határozzák meg egy 0-tól 3-ig terjedő skálán, hallásuk alapján. Ez a félig szubjektív skála lehetővé tesz egy lehetséges osztályozási módszert, ahol az orvosok ítélete a különböző hangrendellenességek súlyossága szerint jellemezhető.
Előfeldolgozás és osztályozás
Annak érdekében, hogy jellemezzünk egy betegséget (mint pl. funkcionális diszfónia, recurrens paresis vagy a tumor) szükséges azokat az akusztikai paramétereket beazonosítani amelyek jellemzők egy betegségre. Az LSA-ban elsősorban lineáris és nem-lineáris akusztikai-fonetikai paraméterekre és azok származtatott statisztikai mennyiségeire összpontosítunk (átlag, medián, eloszlás, szórás stb.):
- Jitter
- Shimmer
- HNR - Harmonicity to noise ratio
- MFCC
- SPI - Soft Phonation Index
Az optimális jellemzővektor megalkotása érdekében Forward Feature Selection (FFS) algoritmust használunk, így kiválaszthatók azok az akusztikai paraméterek, amelyeknek nagy elkülönítő hatásuk van egy betegséget illetően. A jellemzőkiválasztás után különböző osztályozást és mesterséges intelligenciában ismert módszereket alkalmazunk a klinikai döntéstámogató rendszer legjobb modelljének megtalálására, amely elég pontos az orvosi felhasználáshoz. A Laboratóriumban elsősorban a Szupport Vektor Gép alapú statisztikai modelleket használjuk, mint az SVR (Support Vector Regression) vagy az SVM (Support Vector Machine), többdimenziós osztályozási problémákhoz Fuzzy vagy mesterséges neurális hálózat osztályozókat is használunk.