Magyar Referencia Beszédadatbázist (MRBA)
A Magyar Referencia Beszédadatbázist (MRBA) a BME TMIT Beszédakusztikai Laboratóriuma és a szegedi SZTE Informatikai Tanszékcsoport együttmûködésben hozta létre [1]. A cél egy olyan, olvasott folyamatos szöveget tartalmazó beszédadat-bázis létrehozása volt, amely alkalmas PC-s beszédfelismerõk betanítására, tesztelésé-re. Az adatbázis szöveganyagát úgy terveztük meg, hogy az adatbázisba bekerülõ mondatokban a felismerõrendszerekben tipikus felismerési egységek (beszédhangok, difón, trifón egységek) elegendõen sokszor forduljanak elõ. A mondatok mellett fone-tikailag gazdag szavakat is kiválasztottunk, a nem kellõ számban elõforduló beszéd-hangok példányszámának növelése érdekében. Így a 332 adatközlõ fejenként 12 kü-lönbözõ mondatot és 12 különbözõ, a mondatoktól független szót olvas fel.
Az adatbázis felvételeit irodai helyiségekben, laborokban, otthonokban rögzítettük. A felvételeknél szinkronban két különbözõ rendszerrel dolgoztunk, az egyikben min-dig ugyanazt a jó minõségû mikrofont, hangkártyát és laptopot használtuk, a másikese-tében a mikrofonokat, hangkártyákat, PC-ket változtattuk. A dialektusok és generációk lefedése céljából a felvételeket az ország négy különbözõ tájegységében rögzítettük, változatos életkorú és nemű beszélõktõl.
A felvételek mindegyikét annotáltuk, azaz minden hangfájl mellé egy címkefájlt készítettünk, amely tartalmazza a felvétel ortografikus lejegyzését és egyéb informáci-ókat a hangfájl paramétereivel kapcsolatban. Az adatbázis közel egyharmadán, 100 beszélõ anyagán manuálisan fonetikai szintû szegmentálást és címkézést is végeztünk, a fonetikai szegmentumok címkézéséhez a SAMPA nemzetközi kódtáblát használva.
Bővebb információkat a megadott elérhetőségeken kérhet!
[1] Vicsi Klára, Kocsor András, Teleki Csaba, Tóth László: Beszédadatbázis irodai számítógép-felhasználói környezetben, Second Conference on Hungarian Computational Linguistics (MSZNY 2004), Szeged, 2004. (p. 315)
Ha el szeretné olvasni a cikket, kattintson ide.