Norwegian stemming algorithm


 

Links to resources

Snowball main page
The stemmer in Snowball
The ANSI C stemmer
— and its header
Sample Norwegian vocabulary
Its stemmed equivalent
Vocabulary + stemmed equivalent in two columns
Tar-gzipped file of all of the above

Norwegian stop word list
The stemmer in Snowball — MS DOS Latin I encodings
Scandinavian language stemmers


Here is a sample of Norwegian vocabulary, with the stemmed forms that will be generated with this algorithm.

word stem          word stem
havnedistrikt
havnedistriktene
havnedistrikter
havnedistriktet
havnedistriktets
havnedrift
havnedriften
havneeffektivitet
havneeier
havneeiere
havneenheter
havneforbund
havneforbundets
havneformål
havneforvaltningen
havnefunksjonene
havnefunksjoner
havnefylkene
havnefylker
havnehagen
havneinfrastrukturen
havneinnretningene
havneinnretninger
havneinteresser
havnekapasitet
havnekassa
havnekasse
havnekassemidler
havnekassen
havnekassene
havnekassens
havnelokalisering
havneloven
havnelovens
havneløsning
havneløsningene
havneløsninger
havnemessig
havnemyndighetene
havnemyndigheter
  =>   havnedistrikt
havnedistrikt
havnedistrikt
havnedistrikt
havnedistrikt
havnedrift
havnedrift
havneeffektivit
havneei
havneeier
havneen
havneforbund
havneforbund
havneformål
havneforvaltning
havnefunksjon
havnefunksjon
havnefylk
havnefylk
havnehag
havneinfrastruktur
havneinnretning
havneinnretning
havneinteress
havnekapasit
havnekass
havnekass
havnekassemidl
havnekass
havnekass
havnekass
havnelokalisering
havn
havn
havneløsning
havneløsning
havneløsning
havnemess
havnemynd
havnemynd
opning
opninga
opningsbalanse
opningsbalansen
opp
oppad
opparbeide
opparbeidede
opparbeidelse
opparbeider
opparbeides
opparbeidet
opparbeiding
oppattbygging
oppbevarer
oppbevaring
oppblåst
oppblåste
oppbrente
oppbygd
oppbygde
oppbygget
oppbygging
oppbygginga
oppbyggingen
oppdage
oppdager
oppdaterte
oppdeling
oppdelingen
oppdelt
oppdrag
oppdraget
oppdragsavtale
oppdragsgivere
oppdragstakaren
oppe
oppebærer
oppfarende
oppfatning
  =>   opning
opning
opningsbalans
opningsbalans
opp
oppad
opparbeid
opparbeid
opparbeid
opparbeid
opparbeid
opparbeid
opparbeiding
oppattbygging
oppbevar
oppbevaring
oppblåst
oppblåst
oppbrent
oppbygd
oppbygd
oppbygg
oppbygging
oppbygging
oppbygging
oppdag
oppdag
oppdater
oppdeling
oppdeling
oppdelt
oppdrag
oppdrag
oppdragsavtal
oppdragsgiver
oppdragstakar
opp
oppebær
oppfar
oppfatning



 

The stemming algorithm

The Norwegian alphabet includes the following additional letters,
æ   å   ø
The following letters are vowels:
a   e   i   o   u   y   æ   å   ø
R2 is not used: R1 is defined in the same way as in the German stemmer. (See the note on R1 and R2.)

Define a valid s-ending as one of
b   c   d   f   g   h   j   l   m   n   o   p   r   t   v   y   z,
or k not preceded by a vowel.
Do each of steps 1, 2 and 3.

Step 1:
Search for the longest among the following suffixes in R1, and perform the action indicated.

(a) a   e   ede   ande   ende   ane   ene   hetene   en   heten   ar   er   heter   as   es   edes   endes   enes   hetenes   ens   hetens   ers   ets   et   het   ast
delete

(b) s
delete if preceded by a valid s-ending

(c) erte   ert
replace with er

(Of course the letter of the valid s-ending is not necessarily in R1)
Step 2:
If the word ends dt or vt in R1, delete the t.

(For example, meldt -> meld, operativt -> operativ)
Step 3:
Search for the longest among the following suffixes in R1, and if found, delete.

leg   eleg   ig   eig   lig   elig   els   lov   elov   slov   hetslov

 

The same algorithm in Snowball


routines ( mark_regions main_suffix consonant_pair other_suffix ) externals ( stem ) integers ( p1 x ) groupings ( v s_ending ) stringescapes {} /* special characters (in ISO Latin I) */ stringdef ae hex 'E6' stringdef ao hex 'E5' stringdef o/ hex 'F8' define v 'aeiouy{ae}{ao}{o/}' define s_ending 'bcdfghjlmnoprtvyz' define mark_regions as ( $p1 = limit test ( hop 3 setmark x ) goto v gopast non-v setmark p1 try ( $p1 < x $p1 = x ) ) backwardmode ( define main_suffix as ( setlimit tomark p1 for ([substring]) among( 'a' 'e' 'ede' 'ande' 'ende' 'ane' 'ene' 'hetene' 'en' 'heten' 'ar' 'er' 'heter' 'as' 'es' 'edes' 'endes' 'enes' 'hetenes' 'ens' 'hetens' 'ers' 'ets' 'et' 'het' 'ast' (delete) 's' (s_ending or ('k' non-v) delete) 'erte' 'ert' (<-'er') ) ) define consonant_pair as ( test ( setlimit tomark p1 for ([substring]) among( 'dt' 'vt' ) ) next] delete ) define other_suffix as ( setlimit tomark p1 for ([substring]) among( 'leg' 'eleg' 'ig' 'eig' 'lig' 'elig' 'els' 'lov' 'elov' 'slov' 'hetslov' (delete) ) ) ) define stem as ( do mark_regions backwards ( do main_suffix do consonant_pair do other_suffix ) )