Options

que significa el weight en el rol de datos?

hildarghildarg Member Posts: 1 Newbie
edited July 2019 in Help
que significa el weight en el rol de datos?
Tagged:

Answers

  • Options
    varunm1varunm1 Moderator, Member Posts: 1,207 Unicorn
    Hello @hildarg

    Los weight se utilizan para indicar la importancia de un ejemplo para predecir la salida. Esto generalmente es dado por el operador "Generar weight". Si ya tiene ponderaciones calculadas en su conjunto de datos, simplemente puede establecer ese tipo de atributo como ponderación utilizando el operador de rol establecido. Si desea obtener más información, puede consultar el texto de ayuda del operador Generar weight (LPR).

    Powered by Google Translate. My buddy @rfuentealba can dig deep on this in Spanish  :)
    Regards,
    Varun
    https://www.varunmandalapu.com/

    Be Safe. Follow precautions and Maintain Social Distancing

  • Options
    rfuentealbarfuentealba Moderator, RapidMiner Certified Analyst, Member, University Professor Posts: 568 Unicorn
    Hola @hildarg,

    "weight" en castellano es "peso". Y la idea del peso es la misma que un balancín.

    Supongamos que agrupaste a cinco personas según su diagnóstico. Tres de ellas, cada una de 50 kilos de peso, están en un lado del balancín y dos de ellas al otro lado. ¿Cómo están los datos? Desbalanceados, ¿verdad? Pues, si quieres que el balancín quede más o menos bien, tienes que agregarle peso a un lado para que quede parejo.

    En ciencia de datos necesitas tener datos balanceados para que éstos signifiquen algo, porque si no tus predicciones no van a ser exactamente lindas, por lo que hay un análogo a esta operación. Con este ejercicio en mente, supongamos que tienes el siguiente set de datos:

    id, sistole, diastole, pulso, diagnóstico<br> 1,     120,       70,   120, arritmia<br> 2,     150,      100,    90, hipertension<br> 3,     120,       70,    60, normal<br> 4,     120,       70,    65, normal<br> 5,     120,       80,    70, normal <br>

    Tienes dos formas de darle importancia a la etiqueta de arritmia, para poder hacer que sea significativa. Una es usando "muestras hasta igualar hacia arriba", otra es "muestras hasta igualar hacia abajo", y otra es "uso de pesos específicos". El problema es que igualar hacia arriba o hacia abajo (en inglés, upsampling o downsampling) ensucia las muestras, porque estás creando datos artificialmente. En cambio, puedes generar pesos (Generate Weight) para multiplicar los valores por ese peso, cosa de no ensuciar las muestras.



    En el caso que te describí, por ejemplo, arritmia tiene un peso de 25% sobre el resto que tiene 12.5%. ¿Te das cuenta de que la columna weight es rosada? Es porque esa columna tiene como "rol" un peso generado (o sea, un weight). Ahora, yo lo hice usando el operador que es para eso, pero ¿qué ocurre si por ejemplo, tienes otra forma de generar pesos, como una fórmula matemática diferente, un script en Python, etc.? Puedes por ti mismo ponerle ese rol en la columna, y usar alguno de los operadores que tienen soporte para pesos (hay un árbol de decisión que tiene eso).

    Ahí hay una explicación un poco más didáctica.

    @varunm1, your translation was good, thanks mate!!!
Sign In or Register to comment.