Nuwe taalhulpbronne vir die vier Suid-Afrikaanse Nguni-tale

Beter tegnologie-instrumente is op pad vir Suid-Afrika se vier Nguni-tale. Navorsing wat by die Sentrum vir Tekstegnologie (CTexT®) aan die Noordwes-Universiteit (NWU) gedoen word, help met die invul van die ontbrekende skakels oor hoe hierdie tale gebruik word, wat weer sal lei tot die ontwikkeling van taalgereedskap wat op die jongste tegnologieë gebou word, veral kunsmatige intelligensie (KI).

“Die onlangse navorsing het gefokus op die verkryging en annotering van hulpbronne vir vier van ons Suid-Afrikaanse tale: Ndebele, Xhosa, Zulu en Swati. Kerntegnologieë is ook vir hierdie tale beskikbaar gestel deur te kyk na morfologiese ontleders (sien tekskassie), rededeelmerkers en lemmatiseerders,” verduidelik die primêre navorsingspan se drie lede, dr Tanja Gaustad, dr Martin Puttkammer en Jaco du Toit.

Die voordeel van hierdie soort navorsing is dat dit ’n geleentheid bied om bestaande taaltegnologieë te verbeter. Masjienvertalingstelsels vir Suid-Afrikaanse tale kan byvoorbeeld uitgebrei word deur hierdie hulpbronne te gebruik om wedersydse begrip en beter kommunikasie verder te bevorder. Die ontwikkeling van beter kerntegnologieë baan die weg vir beter instrumente soos speltoetsers, inligtingherwinningstelsels en teksontginningsinstrumente.

Die belangrikheid van data

Volgens dr Gaustad, wat die senior rekenaarlinguis by CTexT® is, “is die huidige navorsing in kunsmatige intelligensie – veral diepleer – datagedrewe. Dit beteken dat om beter instrumente vir Suid-Afrikaanse tale te ontwikkel, datahulpbronne benodig word.  Aangesien Suid-Afrikaanse tale min hulpbronne het, lewer dit ’n probleem op vir die verkryging van beter insig in die manier waarop hierdie tale gebruik word en maak die ontwikkeling van hierdie noodsaaklike instrumente moontlik.”

Taalkundige hulpbronne maak verwante navorsingspogings moontlik en fasiliteer dit. Volgens die navorsers is hierdie kennis in die verlede meestal opgeteken deur die opname van reëlgebaseerde voorstellings van die binnewerkings van natuurlike taal.

“Sulke benaderings vereis kundigheid om die reëls te handhaaf sowel as uit te brei en is nie omvattend genoeg nie, aangesien dit nie enige skaars of onopgetekende morfologiese prosesse insluit wat buite die omvang van gedefinieerde reëls val nie,” verduidelik Jaco, CTexT® se rekenaarlinguis.

Hoe die huidige navorsing uitgevoer is

Die meeste grammatika vir Suid-Afrika se Nguni-tale is tans redelik oud (uit die 1950’s). Om dus masjienleer toe te pas om te verstaan hoe hierdie tale werk, kan help om die ou linguistiese beskrywings te verbeter en moderne taalgebruik te weerspieël.

Aangesien die vier tale ’n soortgelyke taalkundige struktuur deel, kan die tekstuele data parallel ingesamel en ontleed word om navorsers in staat te stel om vergelykende rekenaar- taalkundige studies te doen.  Met behulp van hierdie data is kerntegnologieë in die vorm van morfologiese ontleders, rededeelmerkers en lemmatiseerders ontwikkel.

Met behulp van die nuwe morfologiese ontleder om die teks te ontleed, is die oorkoepelende akkuraatheid na tussen 82% en 92% verbeter, wat die vorige reëlgebaseerde ontleders vir dieselfde tale oortref het.

SADiLaR is ’n navorsingsinfrastruktuur wat deur die Departement van Wetenskap en Innovasie (DWI) van die Suid-Afrikaanse regering as deel van die Suid-Afrikaanse Infrastruktuurpadkaart (SARIR) daargestel is.

Hierdie hulpbronne is as oophulpbron op hulle pakhuis se webwerf beskikbaar.

Definisies van kerntegnologieë

  • Morfologiese ontleder – verwys na die ontleding van ’n woord wat gebaseer is op die betekenisvolle dele wat daarbinne vervat is en het ten doel om die kleinste eenhede van betekenis in ’n taal te vind.
     
  • Rededeelmerkers – is ’n sagteware-instrument wat etikette aan woorde verskaf in een van verskeie kategorieë om ’n woord se funksie in ’n gegewe taal aan te dui, soos ’n selfstandige naamwoord, werkwoord, ens.
     
  • Lemmatiseerder – om verskillende flekterende vorms van dieselfde woord saam te groepeer.

 

Martin Puttkammer   Tanya   Jaco du Toit
Dr Martin Puttkammer   Dr Tanja Gaustad   Jaco du Toit

 

Submitted on Wed, 07/13/2022 - 16:23