Due to recent updates, all users are required to create an Altair One account to login to the RapidMiner community. Click the Register button to create your account using the same email that you have previously used to login to the RapidMiner community. This will ensure that any previously created content will be synced to your Altair One account. Once you login, you will be asked to provide a username that identifies you to other Community users. Email us at Community with questions.

Resultados diferentes para los mismos datos de partida

RafaRafa Member Posts: 12 Learner II

Buenos días.

Tengo una pregunta:

  •  Tengo un conjunto de datos (2600 ejemplos, 90 atributos) y varios modelos de predicción.
  • La label es una variable binominal
  • Aplico los modelos al conjunto de datos originales y a una réplica de éste que sólo contiene los últimos 30 ejemplos.
  • Por supuesto, los valores de los atributos de los casos comunes de ambos conjunto de datos (e original y su réplica de los últimos casos) son idénticos

Pues bien, los valores de las “confidences” obtenidos son diferentes.

Entiendo que esto pase con modelos tipo KNN, pero no con modelos basados en reglas o en árboles.

¿Cuál es la explicación?


Best Answer

Answers

  • ceaperezceaperez Member Posts: 541 Unicorn
    Buenas tardes Rafa, 
    el conjunto de datos seleccionado condiciona una de las métricas utilizadas en los árboles de decisiones. Normalmente se trabaja con la impureza de Gini o con la entropía. 
    cada conjunto de datos elegido tendrá sus propias métricas o su grado de impurezas. cuando trabajas con un subconjunto aleatorio este puede tener una menor impureza  que el conjunto global y dar resultados diferentes. 

    espero haberte ayudado un poco. 

    Un saludo
Sign In or Register to comment.