Due to recent updates, all users are required to create an Altair One account to login to the RapidMiner community. Click the Register button to create your account using the same email that you have previously used to login to the RapidMiner community. This will ensure that any previously created content will be synced to your Altair One account. Once you login, you will be asked to provide a username that identifies you to other Community users. Email us at Community with questions.

¿Alguien tiene experiencias sobre procesamiento de lenguaje natural (NLP) en castellano?

rfuentealbarfuentealba RapidMiner Certified Analyst, Member, University Professor Posts: 568 Unicorn
edited December 2018 in Help

¡Hola, Comunidad! ¿Cómo están? Espero que estén muy bien y tengan una muy buena semana.

Amigos míos, tengo una pregunta: en una de las consultorías en que estoy trabajando, estoy evaluando un proyecto de procesamiento de lenguaje natural, en idioma castellano. Hasta ahora, he hecho esa clase de cosas con Python, pero quiero saber si alguien de por aquí tiene experiencia en usar RapidMiner en esta clase de proyectos.

Particularmente, me gustaría saber si se puede usar etiquetado de partes del habla (POS tagging) en castellano, cómo lo han hecho, qué les ha resultado y qué no les ha resultado. Ya @Telcontar120 en su charla en RapidMiner Wisdom comentaba un poco de cómo creaba diccionarios para esto, pero si existiese una biblioteca más completa específicamente para nuestro idioma, tal vez podría evitarme el problema que significan las múltiples conjugaciones (que en inglés no existen)

Pongo en mención a @MarcoBarradas, @Montse, @israel_jimenez, @csecada, @oswaldo_vergara, @SGolbert, @jaguilerav, @amanda_valdes y @ghislaine_gueri que son los nombres que recuerdo de usuarios de RapidMiner de habla hispana.

Muchas, muchas, muchas gracias de antemano por todas sus respuestas. Les comentaré cómo me va.

Saludos,

Rodrigo Fuentealba Cartes
Data Scientist en The Pegasus Group S. A., Chile.

Best Answer

  • Telcontar120Telcontar120 RapidMiner Certified Analyst, RapidMiner Certified Expert, Member Posts: 1,635 Unicorn
    Solution Accepted
    Hola Rod,
    Una clarificacion importante - lo que habia dicho en mi presentacion en RapidMiner Wisdom era sobre la filtracion de "stopwords" via diccionario y no "POS tagging".  Desafortunadamente los operadors nativos en RapidMiner para POS tagging no aceptan diccionarios.
    Probablemente ya sabes de esta obra de Stanford para NLP en castellano:   https://nlp.stanford.edu/software/spanish-faq.shtml
    Nunca he completado un proyecto en castellano en RapidMiner, pero me parace que una solucion fuera usar este paquete dentro del Python y entonces pasar los resultados en RapidMiner para completar la solucion.
    Una alternativa es usar en extension de text mining de Rosette---hay un operador "Morphology" que tiene la capacidad de POS tagging en castellano (y muchos otros idiomas ademas).
    Espero que esto sea util!
    Brian T.
    Lindon Ventures 
    Data Science Consulting from Certified RapidMiner Experts

Answers

  • rfuentealbarfuentealba RapidMiner Certified Analyst, Member, University Professor Posts: 568 Unicorn
    ¡Muy agradecido, @Telcontar120!

    Sí, tienes razón, me confundí en los términos. Intentaré con Rosetta, no tengo experiencia con ese servicio. Y sí, en Python ya he hecho muchas cosas con NLP, el paquete Pattern de Python funciona muy bien con etiquetado de POS.

    Tu castellano es muy bueno, gracias por compartir!

    Un abrazo, Rod.



Sign In or Register to comment.