Resultados diferentes para los mismos datos de partida

Rafa · February 2021

Buenos días.

Tengo una pregunta:

Tengo un conjunto de datos (2600 ejemplos, 90 atributos) y varios modelos de predicción.
La label es una variable binominal
Aplico los modelos al conjunto de datos originales y a una réplica de éste que sólo contiene los últimos 30 ejemplos.
Por supuesto, los valores de los atributos de los casos comunes de ambos conjunto de datos (e original y su réplica de los últimos casos) son idénticos

Pues bien, los valores de las “confidences” obtenidos son diferentes.

Entiendo que esto pase con modelos tipo KNN, pero no con modelos basados en reglas o en árboles.

¿Cuál es la explicación?

Marco_Barradas · March 2021

Hola todo depende de cómo has construido tus modelos y el proceso de validación que seguiste en el mismo.
Recuerda que los modelos generalizan las reglas a partir de las estadísticas que sacan y los patrones de los datos que estás revisando Por lo tanto sí metes un registro en entrenamiento y en validación al mismo y no lo hiciste con cross validation tendrás el resultado que mencionas.
Así mismo al generalizar el modelo es posible que algunas predicciones cambien ya que el modelo siempre tendrá un grado de error. Un acccurracy de 80% no siempre significa un buen modelo ya que puedes tener un recall muy bajo en la clase minoritaria.

https://machinelearningparatodos.com/que-es-el-sobreajuste-u-overfitting-y-por-que-debemos-evitarlo/

https://www.cienciadedatos.net/documentos/30_cross-validation_oneleaveout_bootstrap

Caperez · March 2021

Buenas tardes Rafa,
el conjunto de datos seleccionado condiciona una de las métricas utilizadas en los árboles de decisiones. Normalmente se trabaja con la impureza de Gini o con la entropía.
cada conjunto de datos elegido tendrá sus propias métricas o su grado de impurezas. cuando trabajas con un subconjunto aleatorio este puede tener una menor impureza que el conjunto global y dar resultados diferentes.

espero haberte ayudado un poco.

Un saludo

Marco_Barradas · March 2021

Hola todo depende de cómo has construido tus modelos y el proceso de validación que seguiste en el mismo.
Recuerda que los modelos generalizan las reglas a partir de las estadísticas que sacan y los patrones de los datos que estás revisando Por lo tanto sí metes un registro en entrenamiento y en validación al mismo y no lo hiciste con cross validation tendrás el resultado que mencionas.
Así mismo al generalizar el modelo es posible que algunas predicciones cambien ya que el modelo siempre tendrá un grado de error. Un acccurracy de 80% no siempre significa un buen modelo ya que puedes tener un recall muy bajo en la clase minoritaria.

https://machinelearningparatodos.com/que-es-el-sobreajuste-u-overfitting-y-por-que-debemos-evitarlo/

https://www.cienciadedatos.net/documentos/30_cross-validation_oneleaveout_bootstrap

Resultados diferentes para los mismos datos de partida

Best Answer

Answers

Welcome!

Welcome!

Quick Links

Categories