quien me puede ayudar a analisis de datos, limpieza y modelos predictivos?

omarignacio23omarignacio23 Member Posts: 1 Newbie
hola soy nuevo en esto y necesito hacer un proyecto, aca los detalles de lo que debo hacer:

Conocimiento y descripción de la base de datos.
Limpieza de la base de datos (eliminación de registros, atributos, imputación de datos entre otros vistos en clases).
Identificación y tratamiento de outliers.
Transformación de la base de datos.
Elección de atributos relevantes para incorporar a un modelo mediante métodos de filtro.
Etapa 2
Entrenamiento de a lo menos 4 modelos de clasificación.
Identificación del umbral óptimo para la selección del mejor modelo.
Elaboración de la curva ROC para el mejor modelo seleccionado.
Identificar el umbral óptimo mediante la incorporación de costos asociados a los errores de clasificación (Probar a lo menos 3 valores de costos para cada error y analizar resultados).
Aplicar un modelo de clúster para identificar grupos de clientes y concluir respecto a los resultados.

Answers

  • PapadPapad Member Posts: 68 Guru
    Hola @omarignacio23 ,
    First of all, if you want to prepare your data you can use TurpoPrep.
    This is where you can replace missing values, rename or give a different form to your data.
    Except that, there are also many operator which can do works like these. For example with operator "select attributes" you can select only the part of your dataset you want.
    Secondly, about models, what you have to do is to use "ROC Comparison" operator and inside it use many models of the type you want in order to compare them.
    Hope it helps. If something is not clear ask me again.
  • jreinosojreinoso RapidMiner Certified Analyst, Member Posts: 5 Contributor II
    el tipo de acciones que quieres hacer son muy fáciles en RapidMiner.  Tal y como te recomienda @papad puedes usar el turboPrep para preparar los datos.  En cuanto a los outliers nada más fácil que ir a la descripción de los datos, en la opción de statistics y ahí podrás muy rápido encontrar si hay muchos nulos en un campo, si los datos tienen colas largas en una distribución normal ( por ejemplo) y asi.
Sign In or Register to comment.