[Snowball-discuss] Re: Error in Spanish stemming algorithm

From: Martin Porter (martin_porter@softhome.net)
Date: Wed Aug 28 2002 - 14:10:06 BST


Mabel,

For 'actualmente' you give

actualmente: (Rv=almente, R1=ualmente, R2=ente)

but it should be

actualmente: (Rv=almente, R1=tualmente, R2=mente)

For 'bailable' you give

bailable (Rv=lable, R1=ailable, R2=able)

but it should be

bailable (Rv=lable, R1=able, R2=le)

See the examples in the 'defining R1 and R2' page.

I imagine this difference accounts for most of the errors.

Martin

-----------

Gracias por contestarme.

Revise con lo que me mando y obtuve 708 errores en comparacion con su
vocabulario que dan en

      http://snowball.sourceforge.net/spanish/output.txt

La diferencia que tengo es en "Step 1: Standard suffix removal" con R2,
no sera R1?

Le mando 3 archivos:

- comparacion: donde esta la palabra, luego lo que debe salir y
finalmente lo que saco con mi implementacion. Lo hice segun su
algoritmo de la direccion:
    http://snowball.sourceforge.net/spanish/stemmer.html

- entrada_teo: es el vocabulario de ustedes

- salida_teo: es su salida.

Le agradeceria si les hecha un vistazo.

Gracias de antemano.

PD: ya corregi las definiciones de Rv, R1 y R2.

Rv: lo calculo segun lo que me mando y apartir de la palabra inicial

R1: lo calculo a partir de la palabra inicial

R2: lo calculo a partir de R1.

Mabel

-------------------------------------------------------
This sf.net email is sponsored by: Jabber - The world's fastest growing
real-time communications platform! Don't just IM. Build it in!
http://www.jabber.com/osdn/xim
_______________________________________________
Snowball-discuss mailing list
Snowball-discuss@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/snowball-discuss



This archive was generated by hypermail 2.1.3 : Thu Sep 20 2007 - 12:02:42 BST