Automatic lemmatisation for Afrikaans/Outomatiese lemma-identifisering vir Afrikaans
Literator: Journal of Literary Criticism, comparative linguistics and literary studies, April, 2008 by H.J. Groenewald, G.B. van Huyssteen
Abstract
Automatic lemmatisation is a general normalisation procedure in text processing, where all inflected forms of a lexical word are normalised to a single lemma (i.e. a meaningful, uninflected base form from which more complex word forms could be formed). Traditionally, lemmatisers are developed by writing language-specific rules to identify lemmas. In this article an alternative approach is investigated, namely a machine learning approach, to develop a lemmatiser for Afrikaans (LIA: "Lemmaidentifiseerder vir Afrikaans"). An overview regarding the process of inflection in Afrikaans is provided with the aim of identifying the categories of inflection that are relevant for lemmatisation in Afrikaans. The format of the input and output is described with special reference to the nine inflectional categories for Afrikaans that the system should be able to handle. Then the task of lemmatisation as a classification task for machine learning is described, and a concise introduction to memory-based learning is provided. The development and evaluation of LIA is discussed in detail, and it is illustrated how the performance of the initial classifier is improved through feature selection and parameter optimisation. The best classifier reaches an accuracy of 92,8%. The article concludes with a view on some future work.
Key concepts:
Afrikaans feature selection inflection lemmatisation machine learning morphology natural language processing parameter optimisation text technology
Opsomming
Outomatiese lemma-identifisering ("lemmatisation") is 'n algemene normaliseringsprosedure in teksprosessering, waardeur aile geinflekteerde vorme van 'n leksikale woord herlei word na die lemma (d.i. daardie betekenisvolle, ongeinflekteerde basisvorm waaruit meer komplekse woordvorme gevorm kan word). Tradisioneel word lemma-identifiseerders gegrond op taalspesifieke reels waarvolgens lemmas geidentifiseer word. In hierdie artikel word 'n alternatiewe benadering, te wete 'n masjienleerbenadering, ondersoek om 'n lemma-identifiseerder vir Afrikaans (LIA) te ontwikkel. 'n Oorsig oor die aangeleenthede rondom fleksievorming in Afrikaans word verskaf met die doel om die fleksiekategoriee wat relevant is vir lemma-identifisering in Afrikaans te identifiseer. Hoe die toevoer- en afvoerdata van LIA daar moet uitsien, word omskryf met spesifieke verwysing na die fleksiekategoriee wat deur die sisteem hanteer moet word. Daarna word die taak van lemma-identifisering omskryf as 'n klassifiseringstaak in masjienleer en 'n bondige inleiding tot geheuegebaseerde leer word gegee. Die ontwikkeling en evaluering van LIA word vervolgens in detail bespreek en toon aan hoe die prestasie van die aanvanklike lemma-identifiseerder verbeter word deur middel van eienskapseleksie en parameteroptimalisering. Die beste klassifiseerder behaal 'n akkuraatheidsyfer van 92,8%. Die artikel sluit af met 'n vooruitskouing op toekomswerk.
Kernbegrippe:
Afrikaans eienskapselektering fleksie lemma-identifisering masjienleer morfologie natuurliketaalprosessering parameteroptimalisering tekstegnologie
I. Inleiding
Outomatiese lemma-identifisering (lemmatisation) is 'n algemene normaliseringsprosedure in teksprosessering waardeur aile geinflekteerde vorme van 'n leksikale woord herlei word na die basis/lemma/lekseem-/kanonieke vorm (Erjavec & Dzeroski, 2004; Hausser, 1999; Mitkov, 2003). So sal stoele, stoeltjie, stoeltjies en gestoel byvoorbeeld deur lemma-identifisering genormaliseer word tot stoel, terwyl stoelagtig en gestoelte as basisvorme behoue sal bly. As sodanig word lemma-identifisering binne die konteks van hierdie studie gesien as 'n vereenvoudigde vorm van morfologiese analise (Daelemans & Strik, 2002) wat spesifiek betrekking het op die fleksieprosesse in 'n bepaalde taal.
Hierteenoor sal bostaande voorbeelde met behulp van outomatiese stamidentifisering (stemming) egter almal genormaliseer word na die stam stoel; as sodanig word stamidentifisering dus beskou as die normaliseringsprosedure waardeur die stam van 'n woord geidentifiseer en onttrek word deur sowel die fleksie- as afleidingsaffikse te verwyder. Albei hierdie prosedures word algemeen in taaltegnologietoepassings gebruik, onder andere in speltoetsers, soekenjins en masjienvertaalsisteme, asook in programmatuur vir 'n algemene korpusondersoek.
'n Beperkte lemma-identifiseerder cum stamidentifiseerder vir Afrikaans, genaamd RAGEL (Reelgebaseerde Afrikaanse grondwoorden lemma-identifiseerder), is reeds aan die Noordwes-Universiteit ontwikkel en word gebruik in die Afrikaanse Speltoetser 3.0 (CTexT, 2005). RAGEL is ontwikkel deur van tradisionele, reelgebaseerde metodes (Gaustad & Bouma, 2002; Jongejan & Haltrup, 2005; Kraaij & Pohlmann, 1994; Plisson et al., 2004; Porter, 1980) van lemmaidentifisering gebruik te maak, wat behels dat taalspesifieke reels (in die vorm van reelmatige uitdrukkings) opgestel word waarvolgens lemmas geidentifiseer word. Ten spyte van maandelange ontwikkelingswerk om die reels te verfyn en te orden, behaal RAGEL 'n akkuraatheidsyfer van slegs 68% op fleksievorme.
Most Recent Reference Articles
- ARAB EUROPEAN RELATIONS - Dec 22 - Russia Denies Selling Missile System To Iran
- EGYPT - Dec 29 - Opposition Says Mubarak Blessed Israeli Attacks
- ARAB AFFAIRS - Dec 22 - Syria Will Eventually Move To Direct Talks With Israel
- ARAB AFFAIRS - Dec 30 - GCC Denounces Massacre
- ARAB ISRAELI RELATIONS - Israel Issues An Appeal To Palestinians In Gaza
Most Recent Reference Publications
Most Popular Reference Articles
- The Greek chorus, Jimmy the Greek got it wrong but so did his critics - Jimmy Snyder and his views on pro sports and race
- How Tyler Perry rose from homelessness to a $5 million mansion
- 9 questions to ask your new lover: what you were afraid to ask, but always wanted to know
- Vickie Winans: at home with the gospel star who lost 75 pounds and reenergized her career
- Living by the word: royal choice


