💬0 Comments

🔥0 Discussions

👤0 Members

🔌0 Online

Options

how can ? do classification with k-nn,naive bayes,decision tree in the same process ?

Selim

Selim Member Posts: 32

Contributor I

May 2019 edited July 2019 in Help

hello everybody
ı want to do classification in the same process and then measure to performances of k-nn,naive bayes,decision tree algorthms .how can ı do that ?
ı have shared my xml below
------------------------------------------------

<?xml version="1.0" encoding="UTF-8"?><process version="9.2.001">

<context>

<input/>

<output/>

<macros/>

</context>

<operator activated="true" class="process" compatibility="9.2.001" expanded="true" name="Process" origin="GENERATED_TUTORIAL">

<parameter key="logverbosity" value="init"/>

<parameter key="random_seed" value="2001"/>

<parameter key="send_mail" value="never"/>

<parameter key="notification_email" value=""/>

<parameter key="process_duration_for_mail" value="30"/>

<parameter key="encoding" value="SYSTEM"/>

<process expanded="true">

<operator activated="true" class="retrieve" compatibility="9.2.001" expanded="true" height="68" name="Retrieve memo veriler" width="90" x="45" y="34">

<parameter key="repository_entry" value="//Local Repository/memo veriler"/>

</operator>

<operator activated="true" class="set_role" compatibility="9.2.001" expanded="true" height="82" name="Set Role (2)" width="90" x="179" y="34">

<parameter key="attribute_name" value="Class"/>

<parameter key="target_role" value="label"/>

<list key="set_additional_roles"/>

</operator>

<operator activated="true" class="multiply" compatibility="9.2.001" expanded="true" height="124" name="Multiply" width="90" x="313" y="34"/>

<operator activated="true" class="concurrency:cross_validation" compatibility="9.2.001" expanded="true" height="145" name="naive bayes validation" width="90" x="514" y="34">

<parameter key="split_on_batch_attribute" value="false"/>

<parameter key="leave_one_out" value="false"/>

<parameter key="number_of_folds" value="10"/>

<parameter key="sampling_type" value="automatic"/>

<parameter key="use_local_random_seed" value="false"/>

<parameter key="local_random_seed" value="1992"/>

<parameter key="enable_parallel_execution" value="true"/>

<process expanded="true">

<operator activated="true" class="naive_bayes" compatibility="9.2.001" expanded="true" height="82" name="Naive Bayes" width="90" x="112" y="34">

<parameter key="laplace_correction" value="true"/>

</operator>

<connect from_port="training set" to_op="Naive Bayes" to_port="training set"/>

<connect from_op="Naive Bayes" from_port="model" to_port="model"/>

<portSpacing port="source_training set" spacing="0"/>

<portSpacing port="sink_model" spacing="0"/>

<portSpacing port="sink_through 1" spacing="0"/>

</process>

<process expanded="true">

<operator activated="true" class="apply_model" compatibility="9.2.001" expanded="true" height="82" name="Apply Model (2)" width="90" x="45" y="34">

<list key="application_parameters"/>

<parameter key="create_view" value="false"/>

</operator>

<operator activated="true" class="performance_classification" compatibility="9.2.001" expanded="true" height="82" name="Performance (2)" width="90" x="179" y="34">

<parameter key="main_criterion" value="first"/>

<parameter key="accuracy" value="true"/>

<parameter key="classification_error" value="false"/>

<parameter key="kappa" value="false"/>

<parameter key="weighted_mean_recall" value="false"/>

<parameter key="weighted_mean_precision" value="false"/>

<parameter key="spearman_rho" value="false"/>

<parameter key="kendall_tau" value="false"/>

<parameter key="absolute_error" value="false"/>

<parameter key="relative_error" value="false"/>

<parameter key="relative_error_lenient" value="false"/>

<parameter key="relative_error_strict" value="false"/>

<parameter key="normalized_absolute_error" value="false"/>

<parameter key="root_mean_squared_error" value="false"/>

<parameter key="root_relative_squared_error" value="false"/>

<parameter key="squared_error" value="false"/>

<parameter key="correlation" value="false"/>

<parameter key="squared_correlation" value="false"/>

<parameter key="cross-entropy" value="false"/>

<parameter key="margin" value="false"/>

<parameter key="soft_margin_loss" value="false"/>

<parameter key="logistic_loss" value="false"/>

<parameter key="skip_undefined_labels" value="true"/>

<parameter key="use_example_weights" value="true"/>

<list key="class_weights"/>

</operator>

<connect from_port="model" to_op="Apply Model (2)" to_port="model"/>

<connect from_port="test set" to_op="Apply Model (2)" to_port="unlabelled data"/>

<connect from_op="Apply Model (2)" from_port="labelled data" to_op="Performance (2)" to_port="labelled data"/>

<connect from_op="Performance (2)" from_port="performance" to_port="performance 1"/>

<portSpacing port="source_model" spacing="0"/>

<portSpacing port="source_test set" spacing="0"/>

<portSpacing port="source_through 1" spacing="0"/>

<portSpacing port="sink_test set results" spacing="0"/>

<portSpacing port="sink_performance 1" spacing="0"/>

<portSpacing port="sink_performance 2" spacing="0"/>

</process>

</operator>

<operator activated="true" class="concurrency:cross_validation" compatibility="9.2.001" expanded="true" height="145" name="k-nn validation" width="90" x="514" y="136">

<parameter key="split_on_batch_attribute" value="false"/>

<parameter key="leave_one_out" value="false"/>

<parameter key="number_of_folds" value="10"/>

<parameter key="sampling_type" value="automatic"/>

<parameter key="use_local_random_seed" value="false"/>

<parameter key="local_random_seed" value="1992"/>

<parameter key="enable_parallel_execution" value="true"/>

<process expanded="true">

<operator activated="true" class="k_nn" compatibility="9.2.001" expanded="true" height="82" name="k-NN" width="90" x="112" y="85">

<parameter key="k" value="5"/>

<parameter key="weighted_vote" value="true"/>

<parameter key="measure_types" value="MixedMeasures"/>

<parameter key="mixed_measure" value="MixedEuclideanDistance"/>

<parameter key="nominal_measure" value="NominalDistance"/>

<parameter key="numerical_measure" value="EuclideanDistance"/>

<parameter key="divergence" value="GeneralizedIDivergence"/>

<parameter key="kernel_type" value="radial"/>

<parameter key="kernel_gamma" value="1.0"/>

<parameter key="kernel_sigma1" value="1.0"/>

<parameter key="kernel_sigma2" value="0.0"/>

<parameter key="kernel_sigma3" value="2.0"/>

<parameter key="kernel_degree" value="3.0"/>

<parameter key="kernel_shift" value="1.0"/>

<parameter key="kernel_a" value="1.0"/>

<parameter key="kernel_b" value="0.0"/>

</operator>

<connect from_port="training set" to_op="k-NN" to_port="training set"/>

<connect from_op="k-NN" from_port="model" to_port="model"/>

<portSpacing port="source_training set" spacing="0"/>

<portSpacing port="sink_model" spacing="0"/>

<portSpacing port="sink_through 1" spacing="0"/>

</process>

<process expanded="true">

<operator activated="true" class="apply_model" compatibility="9.2.001" expanded="true" height="82" name="Apply Model" width="90" x="45" y="34">

<list key="application_parameters"/>

<parameter key="create_view" value="false"/>

</operator>

<operator activated="true" class="performance_classification" compatibility="9.2.001" expanded="true" height="82" name="Performance" width="90" x="179" y="34">

<parameter key="main_criterion" value="first"/>

<parameter key="accuracy" value="true"/>

<parameter key="classification_error" value="false"/>

<parameter key="kappa" value="false"/>

<parameter key="weighted_mean_recall" value="false"/>

<parameter key="weighted_mean_precision" value="false"/>

<parameter key="spearman_rho" value="false"/>

<parameter key="kendall_tau" value="false"/>

<parameter key="absolute_error" value="false"/>

<parameter key="relative_error" value="false"/>

<parameter key="relative_error_lenient" value="false"/>

<parameter key="relative_error_strict" value="false"/>

<parameter key="normalized_absolute_error" value="false"/>

<parameter key="root_mean_squared_error" value="false"/>

<parameter key="root_relative_squared_error" value="false"/>

<parameter key="squared_error" value="false"/>

<parameter key="correlation" value="false"/>

<parameter key="squared_correlation" value="false"/>

<parameter key="cross-entropy" value="false"/>

<parameter key="margin" value="false"/>

<parameter key="soft_margin_loss" value="false"/>

<parameter key="logistic_loss" value="false"/>

<parameter key="skip_undefined_labels" value="true"/>

<parameter key="use_example_weights" value="true"/>

<list key="class_weights"/>

</operator>

<connect from_port="model" to_op="Apply Model" to_port="model"/>

<connect from_port="test set" to_op="Apply Model" to_port="unlabelled data"/>

<connect from_op="Apply Model" from_port="labelled data" to_op="Performance" to_port="labelled data"/>

<connect from_op="Performance" from_port="performance" to_port="performance 1"/>

<portSpacing port="source_model" spacing="0"/>

<portSpacing port="source_test set" spacing="0"/>

<portSpacing port="source_through 1" spacing="0"/>

<portSpacing port="sink_test set results" spacing="0"/>

<portSpacing port="sink_performance 1" spacing="0"/>

<portSpacing port="sink_performance 2" spacing="0"/>

</process>

</operator>

<operator activated="true" class="concurrency:cross_validation" compatibility="9.2.001" expanded="true" height="145" name="decision tree validation" width="90" x="514" y="238">

<parameter key="split_on_batch_attribute" value="false"/>

<parameter key="leave_one_out" value="false"/>

<parameter key="number_of_folds" value="10"/>

<parameter key="sampling_type" value="automatic"/>

<parameter key="use_local_random_seed" value="false"/>

<parameter key="local_random_seed" value="1992"/>

<parameter key="enable_parallel_execution" value="true"/>

<process expanded="true">

<operator activated="true" class="concurrency:parallel_decision_tree" compatibility="9.2.001" expanded="true" height="103" name="Decision Tree" width="90" x="112" y="34">

<parameter key="criterion" value="gain_ratio"/>

<parameter key="maximal_depth" value="10"/>

<parameter key="apply_pruning" value="true"/>

<parameter key="confidence" value="0.1"/>

<parameter key="apply_prepruning" value="true"/>

<parameter key="minimal_gain" value="0.01"/>

<parameter key="minimal_leaf_size" value="2"/>

<parameter key="minimal_size_for_split" value="4"/>

<parameter key="number_of_prepruning_alternatives" value="3"/>

</operator>

<connect from_port="training set" to_op="Decision Tree" to_port="training set"/>

<connect from_op="Decision Tree" from_port="model" to_port="model"/>

<portSpacing port="source_training set" spacing="0"/>

<portSpacing port="sink_model" spacing="0"/>

<portSpacing port="sink_through 1" spacing="0"/>

</process>

<process expanded="true">

<operator activated="true" class="apply_model" compatibility="9.2.001" expanded="true" height="82" name="Apply Model (3)" width="90" x="45" y="34">

<list key="application_parameters"/>

<parameter key="create_view" value="false"/>

</operator>

<operator activated="true" class="performance_classification" compatibility="9.2.001" expanded="true" height="82" name="Performance (3)" width="90" x="179" y="34">

<parameter key="main_criterion" value="first"/>

<parameter key="accuracy" value="true"/>

<parameter key="classification_error" value="false"/>

<parameter key="kappa" value="false"/>

<parameter key="weighted_mean_recall" value="false"/>

<parameter key="weighted_mean_precision" value="false"/>

<parameter key="spearman_rho" value="false"/>

<parameter key="kendall_tau" value="false"/>

<parameter key="absolute_error" value="false"/>

<parameter key="relative_error" value="false"/>

<parameter key="relative_error_lenient" value="false"/>

<parameter key="relative_error_strict" value="false"/>

<parameter key="normalized_absolute_error" value="false"/>

<parameter key="root_mean_squared_error" value="false"/>

<parameter key="root_relative_squared_error" value="false"/>

<parameter key="squared_error" value="false"/>

<parameter key="correlation" value="false"/>

<parameter key="squared_correlation" value="false"/>

<parameter key="cross-entropy" value="false"/>

<parameter key="margin" value="false"/>

<parameter key="soft_margin_loss" value="false"/>

<parameter key="logistic_loss" value="false"/>

<parameter key="skip_undefined_labels" value="true"/>

<parameter key="use_example_weights" value="true"/>

<list key="class_weights"/>

</operator>

<connect from_port="model" to_op="Apply Model (3)" to_port="model"/>

<connect from_port="test set" to_op="Apply Model (3)" to_port="unlabelled data"/>

<connect from_op="Apply Model (3)" from_port="labelled data" to_op="Performance (3)" to_port="labelled data"/>

<connect from_op="Performance (3)" from_port="performance" to_port="performance 1"/>

<portSpacing port="source_model" spacing="0"/>

<portSpacing port="source_test set" spacing="0"/>

<portSpacing port="source_through 1" spacing="0"/>

<portSpacing port="sink_test set results" spacing="0"/>

<portSpacing port="sink_performance 1" spacing="0"/>

<portSpacing port="sink_performance 2" spacing="0"/>

</process>

</operator>

<connect from_op="Retrieve memo veriler" from_port="output" to_op="Set Role (2)" to_port="example set input"/>

<connect from_op="Set Role (2)" from_port="example set output" to_op="Multiply" to_port="input"/>

<connect from_op="Multiply" from_port="output 1" to_op="decision tree validation" to_port="example set"/>

<connect from_op="Multiply" from_port="output 2" to_op="naive bayes validation" to_port="example set"/>

<connect from_op="Multiply" from_port="output 3" to_op="k-nn validation" to_port="example set"/>

<connect from_op="naive bayes validation" from_port="performance 1" to_port="result 2"/>

<connect from_op="k-nn validation" from_port="performance 1" to_port="result 1"/>

<connect from_op="decision tree validation" from_port="performance 1" to_port="result 3"/>

<portSpacing port="source_input 1" spacing="0"/>

<portSpacing port="sink_result 1" spacing="0"/>

<portSpacing port="sink_result 2" spacing="0"/>

<portSpacing port="sink_result 3" spacing="0"/>

<portSpacing port="sink_result 4" spacing="0"/>

</process>

</operator>

</process>

Tagged:

0

Best Answer

Options
varunm1 Moderator, Member Posts: 1,207 Unicorn

May 2019 Solution Accepted

The simple thing is to use multiply operator for datasets and then build the models in subprocess operator and connect the performance operators to output.

Regards,
Varun
https://www.varunmandalapu.com/

Be Safe. Follow precautions and Maintain Social Distancing
5

Answers

Options
MartinLiebig Administrator, Moderator, Employee, RapidMiner Certified Analyst, RapidMiner Certified Expert, University Professor Posts: 3,510 RM Data Scientist

May 2019

Alternativly, here is an example for a project structure which can be used to loop over different approaches. Would love to get a general feedback on it.

Just unzip this into your LocalRepository folder and refresh the repo.

Best,
Martin

exampleProject.zip 25.5K

- Sr. Director Data Solutions, Altair RapidMiner -
Dortmund, Germany
2
Options
Selim Member Posts: 32 Contributor I

May 2019 edited May 2019

@mschmitz may you share to xml ?

0
Options
MartinLiebig Administrator, Moderator, Employee, RapidMiner Certified Analyst, RapidMiner Certified Expert, University Professor Posts: 3,510 RM Data Scientist

May 2019

@Selim ,
its not one but a few, which are part of the .zip attached to the post above

- Sr. Director Data Solutions, Altair RapidMiner -
Dortmund, Germany
0
Options
Telcontar120 Moderator, RapidMiner Certified Analyst, RapidMiner Certified Expert, Member Posts: 1,635 Unicorn

May 2019

You can also use the Compare ROC operator for a simple early comparison of different methods and then select the ones that seem most promising. I often do that in early stages of a project.

Brian T.
Lindon Ventures
Data Science Consulting from Certified RapidMiner Experts
0
Options
varunm1 Moderator, Member Posts: 1,207 Unicorn

May 2019 edited May 2019

Hello @mschmitz

The project structure looks good. Are you trying to set up some import project option in rapidminer similar to process? Also, why can't we open two processes at a time (I am thinking about this for a long time, not sure if its java limitation)?

Thank you

Regards,
Varun
https://www.varunmandalapu.com/

Be Safe. Follow precautions and Maintain Social Distancing
0
Options
MartinLiebig Administrator, Moderator, Employee, RapidMiner Certified Analyst, RapidMiner Certified Expert, University Professor Posts: 3,510 RM Data Scientist

May 2019

Hi @varunm1 ,
we first need to define what a "project" is. This was one of my tries to define a project structure. Afterwards we can of course talking about sharing projects easier than zipping whole folders.

BR,
Martin

- Sr. Director Data Solutions, Altair RapidMiner -
Dortmund, Germany
1

Sign In or Register to comment.