BABEL-projek wen ’n wêreldwye uitdaging

Die Noordwes-Universiteit se navorsers was deel van ’n internasionale konsortium wat ’n hoëprofiel-spraaktranskripsie-uitdaging gewen het – ’n eerste vir Suid-Afrikaanse navorsers op hierdie gebied.

Die huidige spraaktranskripsiestelsels is gebou op tegnologie wat oorspronklik vir Engels en ’n klein groepie wêreldtale ontwikkel is, met beduidende laer prestasie in die ander tale. Met meer as 7 000 tale in die wêreld is dit nodig dat spraakherkenningstegnologie vir ’n baie groter groep tale ontwikkel word. Die BABEL-projek was ’n internasionale samewerkende projek met die doel om die gesproke termwaarneming te doen in sekere tale wat nog nie voorheen bestudeer is nie.

Internasionale samewerking

Die BABEL-projek is deur die Intelligence Advanced Research Projects Activity (IARPA) van die regering van die Verenigde State geïnisieer en befonds. Aanvanklik het vier konsortiums aan die projek deelgeneem, onderskeidelik deur IBM, Carnegie Mellon Universiteit (CMU), die internasionale rekenaarwetenskapinstituut (International Computer Science Institute) (ICSI), en Raytheon BBN Tegnologieë (BBN) gelei. Elke konsortium het uit 5 tot 7 vennote uit die bedryf en die akademie regoor die wêreld bestaan. 

MuST (Meertalige Spraaktegnologie), ’n navorsingsnisarea van die Fakulteit Ekonomiese Wetenskappe en IT van die Noordwes-Universiteit (NWU) se Vanderbijlparkkampus, is genooi om deel te neem aan die BabelOn-konsortium wat deur BBN gelei is. Vennote was MIT en die Johns Hopkins Universiteit (VSA); die Brno Universiteit van Tegnologie (Tsjeggiese Republiek); en LIMSI en Vocapia-navorsing (Frankryk). Volgens prof Marelie Davel, direkteur van MuST, was dit ’n wonderlike geleentheid: “Ons het ’n uitmuntende span om mee saam te werk en kon baie leer, terwyl ons spesifieke kennis kon bydra wat ons gehad het van werk in veeltalige omgewings met min hulpbronne.

Meer oor die projek

Die doel van die BABEL-projek was om metodes te ontwikkel om spraakherkenningstegnologie vir ’n baie groter groep tale te ontwikkel as wat ooit voorheen aangepak was. Die projek het innoverings vereis oor hoe om ’n nuwe taal vinnig te modelleer met baie minder opleidingsdata wat ook baie raseriger en meer heterogeen was as wat in die huidige moderne benaderings gebruik word. BABEL se tegniese maatstawwe vir sukses was gefokus op hoe goed doeltreffende woordgebaseerde soektogte uitgevoer kon word in raserige spraak in die tale wat ondersoek is.

BABEL se mees ambisieuse doelwit was om die vermoë te demonstreer om binne ’n week ’n spraaktranskripsiestelsel vir enige nuwe taal te genereer, en om ’n sleutelwoordsoektog te ondersteun vir doeltreffende sifting van baie groot hoeveelhede spraak wat in uitdagende werklike situasies opgeneem word. Nadat daar elke jaar op ’n verskeidenheid tale geoefen is, is die konsortiums met beperkte hulpbronne en tyd om spraaktranskripsiestelsels te bou op grond van ’n jaarlikse verrassingstaal geëvalueer.

Die hele projek is as ’n jaarlikse uitdaging georganiseer, met getranskribeerde spraakdata vir "ontwikkelende tale” wat deur die loop van die jaar beskikbaar gemaak is. Die aantal tale per jaar het aanhou vermeerder om spanne aan te moedig om taalonafhanklike tegnologieë te ontwikkel. Aan die einde van elke jaar is ’n “verrassingstaal” vrygestel en elke span het ’n beperkte hoeveelheid tyd gehad om ’n volwaardige spraakherkenning- en gesproke termherkenningstelsel vir daardie taal te skep. Hierdie benadering was baie effektief en het ’n element van vriendelike maar strawwe kompetisie oor die vier-en-’n-half jaar van die projek verskaf. Dit het ook gehelp om vennootskappe en netwerke te bou waarvan talle steeds vandag bestaan.

Al die navorsingspersoneel by MuST was aktief by die projek betrokke. MuST het met behulp van minimale hulpbronne gefokus op uitspraakmodellering en die skep van subwoord-eenhede vir die modellering wat op gedeeltes van woorde gebaseer is.

'n Suksesvolle projek

Die sukses van die projek kan op die volgende manier gemeet word. Voordat die projek geïnisieer is, was die getal tale beperk wat vir herkenning van sleutelwoorde getranskribeer en gemoniteer is, en is daar tussen 100 en 1 000 uur se taalopnames vereis om die transkripsiestelsels en sleutelwoordherkenning te kon ontwikkel. Teen die einde van die projek was slegs 10 tot 40 uur se opnames nodig, en dit was nie nodig dat hierdie opnames in perfekte opnamesituasies gemaak is nie. Wisselende situasies kon gebruik word, soos om dit by tuiskantore (landlyn of selfoon), openbare plekke, op straat, in voertuie en vanaf motortelefoonstelsels te maak. Die betekenisvolste van alles was dat die tyd wat dit geneem het om ’n transkripsiestelsel vir ’n nuwe taal te ontwikkel oorspronklik verskeie maande tot ’n jaar geduur het, maar aan die einde van hierdie projek kon dit in ’n week of minder gedoen word. Trouens, die finale stelsel wat deur die BabelOn-span geskep is, kon in 2,5 dae saamgestel word sonder enige vooraf kennis van die taal.

Slegs uitgesoekte konsortiums is aan die einde van elke jaar se uitdaging befonds, met spanne wat op grond van hulle jaarlikse prestasie geëlimineer is. Tydens die finale uitdaging (2016), het slegs die BBN- en IBM-spanne oorgebly, met die BabelOn-span (BBN) wat die hoogste getal akkuraathede tydens die finale evaluering behaal het, en dit met ’n beduidende marge. In die geheel gesien, toe die BABEL-projek in September 2016 geëindig het, is ’n verstommende aantal nuwe tegnieke geskep en gedemonstreer, wat spraaktegnologiestelsels in tale met min hulpbronne ’n werklikheid maak.

Lede van die BabelOn-span tydens 'n vergadering in Baltimore, Maryland. Van links: Karthik Narasimhan (MIT), John Makhoul (BBN), Sri Harish Mallidi (JHU), Damianos Karakos (BBN),Richard Hsiao (BBN), Hynek Hermansky (JHU),
Tanel Alumae (BBN), William Hartmann (BBN), Marelie Davel (NWU MuST), Neil Kleynhans (NWU MuST),
Stavros Tsakalidis (BBN), František Grézl (BUT),
Lori Lamel (LIMSI), Richard Schwartz (BBN), Jean-Luc Guavain (LIMSI) en Martin Karafát (BUT).

 

Submitted on Fri, 02/03/2017 - 16:05