Web-gebaseerde platform vir spraaktranskripsie om SA Parlement te help

Marelize Santana -- Wed, 03/29/2017 - 16:16

’n Suid-Afrikaanse web-gebaseerde platform vir spraaktranskripsie

Met 11 amptelike tale in Suid-Afrika gaan dit nooit ’n maklike taak wees om ’n doeltreffende dog bekostigbare manier te kry om spraak na teks te transkribeer nie. Dit gaan egter verander met behulp van die innoverende denke van navorsers wat ’n oopbron-, web-gebaseerde platform vir spraaktranskripsie skep.

Navorsers van die Noordwes-Universiteit (NWU) se navorsingsentiteit vir Meertalige Spraaktegnologieë (MuST) en ’n jong Suid-Afrikaanse maatskappy genaamd INTSYST het ’n prototipe-spraaktranskripsieplatform ontwikkel wat toepassings vir die openbare sowel as die privaat sektor sal hê.

MuST is ’n navorsingsnisarea van die NWU se Vaaldriehoekkampus en is ’n gefokusde, projek-georiënteerde groep wetenskaplikes wat spraaktegnologie vir veeltalige omgewings ontwikkel.

Prof Marelie Davel, direkteur van MuST, het opgemerk dat talle privaat en openbare entiteite deurlopend groot volumes oudiomateriaal genereer. Saam met navorsers dr Charl van Heerden en prof Etienne Barnard, ook van MuST, het die span ’n voorlegging ontwikkel om ’n web-gebaseerde platform vir spraaktranskripsie te ontwikkel. Dit is spesifiek om in die behoeftes te voorsien van transkribeerders wat by die transkribering van groot oudiohulpbronne in die Suid-Afrikaanse tale betrokke is.

Beskikbaar aan almal

In 2015 het MuST ’n projek geïnisieer om ’n oopbron- (beskikbaar aan almal), web-gebaseerde platform te ontwikkel wat gebruikers met verskillende grade van sofistikasie in staat stel om maklik en vinnig spraak in teks in dieselfde Suid-Afrikaanse taal te omskep.

Hierdie driejaarprojek word deur die Departement van Kuns en Kultuur (DKK) befonds en is aanvanklik in die prototipefase ontwerp om drie tale te akkommodeer: Engels, Zulu en Setswana. Die stelsel is ontwerp om uitgebrei te word sodat meer tale in die toekoms bygevoeg kan word.

Dr Neil Kleynhans, ’n senior navorser by MuST, bestuur tans die projek, met groot ontwerp- en tegniese insette wat deur kollegas dr Daniel van Neil Kleynhans en Charl verskaf word.

Die projek is ontwerp sodat die platform as virtuele transkripsie-assistent kan dien om ’n menslike transkribeerder te ondersteun in die tipies arbeidsintensiewe proses om oudio in teks te omskep. Dit kan ook in ’n ten volle outomatiese modus gebruik word om voorgestelde transkripsies te produseer. Die akkuraatheid hiervan hang af van die hoeveelheid taak-spesifieke aanpassings wat met behulp van die platform uitgevoer word.

Benewens die primêre eienskappe wat verskaf word en wat gebruikers sal toelaat om ’n oudiolêer op te laai en ’n konseptranskripsie te kry, verskaf die platform ander ondersteuningsfunksies soos ’n speltoetser, teksredigering, oudiodagboekinskrywings (hoërvlak-oudio-etikette soos die identifisering van spraak en stilte en die annotasie van verskillende sprekers), oudio-teksbelyning en ’n oudioterugspeelstelsel.

Nog ’n belangrike eienskap is dat die platform projekbestuursgeriewe verskaf wat die vloei van die transkripsie- en redigeerproses ondersteun.

Gebruikers wat deelneem

Om die ontwikkelingspoging van hierdie spraaktranskripsieplatform verder te fokus, het MuST verskeie potensiële gebruikers genader. Dit sluit Suid-Afrikaanse transkribeerders van lesings, radio-uitsendings en selfs parlementêre debatte in.

Die laaste is in besonder ‘n interessante gevallestudie. Tans word alle debatte in die Nasionale Vergadering en sittings van die Nasionale Raad van Provinsies en die uitgebreide openbare komitee getranskribeer en die transkripsies word met die publiek gedeel.

Die transkripsietaak is egter dikwels tydrowend en herhalend. Die transkripsie van ’n oudio-opname na ’n geskrewe rekord gaan deur talle weergawes voordat ’n finale dokument vrygestel word. Dit vereis ook verskeie rapporteurs (die persoon wat transkribeer en redigeer) en ’n projekbestuurder wat die oudio-opname verdeel en dele daarvan aan verskeie rapporteurs toewys. In die finale stap plaas ’n kollator al die dele saam om ’n volledige rekord te hê wat vrygestel kan word nadat dit geredigeer en die akkuraatheid nagegaan is.  

Die parlementêre verslageenheid het vrywillig onderneem om te help met die eerste rondte toetsing wat in 2015 gedoen is. Die verslaggewers het waardevolle terugvoer gegee en bevestig dat die platform baie nuttig vir hulle sal wees. Hulle het ook terugvoer gegee oor bykomende dienste wat die platform moontlik kon bied.

Die navorsers het in die tweede jaar van die projek die prototipe aangepas deur nog funksies by te voeg wat die platform selfs meer effektief vir gebruikers maak. Hulle is tans besig met nog ’n rondte toetsing.

Positiewe ontvangs

Die projek is positief deur die Departement van Kuns en Kultuur (DKK) ontvang.

Ulrike Janke, direkteur van die Eenheid vir Menslike Taaltegnologie (MTT) by die DKK, sê: “Ons is verheug om met hierdie ambisieuse projek vereenselwig te word, en veral dat Afrika-tale geïnkorporeer word. Die DKK is daarvoor verantwoordelik om die status van die voorheen benadeelde amptelike tale te verhoog en die gebruik daarvan te bevorder, en hierdie projek het beslis die potensiaal om by te dra om dit te bereik.”

Die projekspan sal die verbeterde web-gebaseerde platform weer demonstreer en dit deur die verskeie vrywilligers laat evalueer. Neil sê die waarde om tydens die ontwikkelingsfases met die eindgebruikers saam te werk, moet nie onderskat moet word nie.  “Deur nou met die transkribeerders saam te werk, kan ons ’n stelsel lewer wat aanpasbaarheid en toeganklikheid verskaf, en hopelik ’n waardevolle instrument in die transkripsieproses sal wees,” sê hy.

Die suksesvolle voltooiing van die eerste fase van die projek dui daarop dat daar ander toepassings vir die web-gebaseerde platform is. Dieselfde platform kan byvoorbeeld aangepas word vir ander toepassing soos vir onderrig of inbelsentrums. Marelie en haar span glo die platform kan ‘n belangrike rol speel as ’n voordelige virtuele bystandsdiens wat die tydrowende, veeleisende en herhalende transkripsieproses sal bespoedig.


Me Ulrike Janke (DDK) saam met lede van die MuST-span, me Anina Lambrechts, dr Charl van Heerden, prof Marelie Davel, dr Neil Kleynhans en dr Daniel van Niekerk.


Die MuST-span in die galery in die Parlement.