Question: RapidMiner and Big Data

heheehehee Member Posts: 4 Newbie
Hi!

Question
Is it a sufficient condition that the base is large for us to talk about Big Data? Can RapidMiner use Big Data ?:

Answers

  • BalazsBaranyBalazsBarany Administrator, Moderator, Employee, RapidMiner Certified Analyst, RapidMiner Certified Expert Posts: 955 Unicorn
    Hi @hehee,

    there are many definitions of Big Data. Large databases are one criterion, but usually the description contains the four V-s:
    Volume (large data size)
    Variety (many data sources, formats, ...)
    Veracity (are the data correct, representative, complete, ...?)
    Velocity (the speed new data are coming in and need to be processed)

    Todays database technologies can work with really large datasets but over 10 terabytes you might want to check out other solutions like distributed databases or Hadoop. RapidMiner can work with most database systems and use Hadoop with the Radoop extension.

    Most learning algorithm need their data in the memory. This can be a problem with very large datasets, however, you usually don't need millions of records to build a model. Radoop can build and apply some models in a Hadoop cluster on this kind of data, so this is what you want to use in these special situations.

    Regards,
    Balázs
  • rfuentealbarfuentealba Moderator, RapidMiner Certified Analyst, Member, University Professor Posts: 568 Unicorn
    Hola @hehee,

    Según me dicen, eres de Chile igual que yo. Si no te molesta, responderé tus preguntas en castellano:

    1. Para hablar de Big Data, ¿es suficiente con que la base de datos tenga muchos datos?

    Dependiendo de la definición. Mi buen amigo @BalazsBarany mencionó la cantidad de V's para definir un proyecto de Big Data:

    - Volumen
    - Velocidad
    - Variedad
    - Variabilidad
    - Veracidad

    (Hay más, pero estas son las importantes). ¿Por qué es que dice esto? Pues... porque por ejemplo, el Registro Civil de Chile tiene una base de datos de todos los chilenos, pero se actualiza cada vez que alguien nace o alguien muere, no se necesita velocidad para consultar todos los registros.

    Ahora, el dato está definido por ley, no es que cada vez que alguien nazca, nazca bajo alguna nueva ley, por lo que la variedad de datos está prefijada en este caso. Y además, es muy difícil que los datos registrados en el Registro Civil cambien con el tiempo, es decir, no varían si no es con una orden judicial.

    Ahora, yéndonos un poco más a lo local, generalmente acá se habla de Big Data cuando hay alguna base de datos corriendo sobre Apache Hadoop, o existe alguna clase de conector hacia este motor. Es decir, si tienes PostgreSQL, SQL Server u Oracle, difícilmente estarás haciendo Big Data según esta definición. Cuando tengas una base de datos de algunos terabytes, si es una base de datos relacional, te dirán que son "grandes volúmenes de datos" pero no es "big data".

    2. ¿Puede RapidMiner usar Big Data?

    Sí, en ambas definiciones. La gran mayoría de los gestores de bases de datos trabajan con bases de datos de unos 10 Tb de capacidad sin problemas y RapidMiner soporta todos estos gestores mediante conectores JDBC. Y si hablamos de Hadoop como el sistema de Big Data preferido, RapidMiner tiene una extensión llamada Radoop que permite crear y aplicar algunos de los modelos soportados en un clúster Hadoop.

    Saludos desde Chile,

    Rodrigo.
Sign In or Register to comment.