Áttekintés

Az elmúlt évtizedekben sok kutatás elsősorban a számítógépes emberi beszédfeldolgozásra és a beszédfelismerésre összpontosított, az eredmények változó sikert arattak. Az ilyen rendszereknek két fő eleme van.

  • Az első az adott hang jellemző vektora, amely tartalmazza a legfontosabb akusztikai paramétereit.
  • A második egy mesterséges intelligencia (MI) rendszer, amely képes megkülönböztetni a különböző eseteket és képes döntéseket hozni bizonyos helyzetekben.

Ezen felül, a Beszédakusztikai Laboratóriumban (Laboratory of Speech Acoustics - LSA) egy infokommunikációs eszköz létrehozásán dolgozunk, amely az e-egészségügy és a távorvoslási módszertanokra támaszkodik, annak érdekében, hogy javuljon a beszédzavarok diagnózisának minősége és javuljon a beszédterápiák minősége.

Egy ilyen rendszer gyors és egyszerű kapcsolatot biztosítana a betegek és az orvosok között a betegek diagnózisa és monitorozása érdekében. A rendszer a beszédterápiák egyszerű beállítási lehetőségeit is lehetővé tenné, és segítséget nyújtana a betegeknek a helyes kiejtésben, anélkül, hogy elhagyná otthonát.

Adatbázisgyűjtés


A kutatás egyik legnagyobb kihívása, hogy jelentősen nagy patológiai hangadatbázist hozzunk létre a különböző megközelítések hatékonyságának és helyességének statisztikai értékeléséhez.


Annak érdekében, hogy egy ilyen adatbázis álljon rendelkezésre, az LSA-ban folyamatosan együttműködünk olyan orvosokkal és kórházakkal, ahol a betegek beszédét ellenőrzött és előre definiált protokoll szerint tudjuk rögzíteni. Minden pácienstől kétféle hanganyagot gyűjtünk: először három kitartott "ó" hangot rögzítünk, majd Aiszóposz meséjét, "Az északi szél és a nap" -ot. Ezen népmese gyakran használt a foniátriai kutatásokban, mivel a mese fonetikailag kiegyensúlyozott, vagyis a szöveganyagát úgy szerkesztették meg, hogy az adott nyelvben előforduló minden beszédhang, valamint a leggyakoribb hangkapcsolatok szerepelnek benne. A hangfelvételek magyar nyelven készülnek. Az adatbázis tartalmazza a beteg nemét, korát és diagnosztizált patológiai rendellenességét, amelyet az orvosok hitelesítenek. A metaadatok melett a hang minősége is rögzítésre kerül, amit az RBH szubjektív skálával lehet meghatározni, ahol az R (roughness) az érdességet, a B (breathiness) a leveg®sséget, míg a H (hoarseness) az általános rekedtséget hivatott mutatni. Az RBH értékeket az orvosok határozzák meg egy 0-tól 3-ig terjedő skálán, hallásuk alapján. Ez a félig szubjektív skála lehetővé tesz egy lehetséges osztályozási módszert, ahol az orvosok ítélete a különböző hangrendellenességek súlyossága szerint jellemezhető.

Előfeldolgozás és osztályozás

Annak érdekében, hogy jellemezzünk egy betegséget (mint pl. funkcionális diszfónia, recurrens paresis vagy a tumor) szükséges azokat az akusztikai paramétereket beazonosítani amelyek jellemzők egy betegségre. Az LSA-ban elsősorban lineáris és nem-lineáris akusztikai-fonetikai paraméterekre és azok származtatott statisztikai mennyiségeire összpontosítunk (átlag, medián, eloszlás, szórás stb.):

  • Jitter
  • Shimmer
  • HNR - Harmonicity to noise ratio
  • MFCC
  • SPI - Soft Phonation Index

Az optimális jellemzővektor megalkotása érdekében Forward Feature Selection (FFS) algoritmust használunk, így kiválaszthatók azok az akusztikai paraméterek, amelyeknek nagy elkülönítő hatásuk van egy betegséget illetően. A jellemzőkiválasztás után különböző osztályozást és mesterséges intelligenciában ismert módszereket alkalmazunk a klinikai döntéstámogató rendszer legjobb modelljének megtalálására, amely elég pontos az orvosi felhasználáshoz. A Laboratóriumban elsősorban a Szupport Vektor Gép alapú statisztikai modelleket használjuk, mint az SVR (Support Vector Regression) vagy az SVM (Support Vector Machine), többdimenziós osztályozási problémákhoz Fuzzy vagy mesterséges neurális hálózat osztályozókat is használunk.