the explanation of results of Singular Value Decomposition

ytu · December 2023

Hello, Im using SVD process to find certain important topics from some hotel reviews.

But in the results of my process, i'm quite confused about the meaning of svd vectors and component showing in SVD result.

How can I know the terms under each latent topics and which topics should I pick based on the positive and negative results? and I have 62 comments in total, why there are 63 SVD showing up? appreciate your help.

<?xml version="1.0" encoding="UTF-8"?><process version="10.3.000">


  <context>

    <input/>

    <output/>

    <macros/>

  </context>

  <operator activated="true" class="process" compatibility="10.3.000" expanded="true" name="Process">

    <parameter key="logverbosity" value="notes"/>

    <parameter key="random_seed" value="2001"/>

    <parameter key="send_mail" value="never"/>

    <parameter key="notification_email" value=""/>

    <parameter key="process_duration_for_mail" value="30"/>

    <parameter key="encoding" value="SYSTEM"/>

    <process expanded="true">

      <operator activated="true" class="read_excel" compatibility="10.2.000" expanded="true" height="68" name="Read Excel" origin="GENERATED_TRAINING" width="90" x="45" y="34">

        <parameter key="excel_file" value="C:\Users\86150\Desktop\毕业论文\二星级近一年评论数据 - 副本.xlsx"/>

        <parameter key="sheet_selection" value="sheet number"/>

        <parameter key="sheet_number" value="2"/>

        <parameter key="imported_cell_range" value="D1:E10485776"/>

        <parameter key="encoding" value="SYSTEM"/>

        <parameter key="use_header_row" value="true"/>

        <parameter key="header_row" value="1"/>

        <parameter key="first_row_as_names" value="true"/>

        <list key="annotations"/>

        <parameter key="date_format" value=""/>

        <parameter key="time_zone" value="SYSTEM"/>

        <parameter key="locale" value="English (United States)"/>

        <parameter key="read_all_values_as_polynominal" value="true"/>

        <list key="data_set_meta_data_information">

          <parameter key="0" value="Review Title.true.polynominal.attribute"/>

          <parameter key="1" value="Review.true.polynominal.attribute"/>

        </list>

        <parameter key="read_not_matching_values_as_missings" value="false"/>

      </operator>

      <operator activated="true" class="nominal_to_text" compatibility="10.3.000" expanded="true" height="82" name="Nominal to Text" origin="GENERATED_TRAINING" width="90" x="246" y="34">

        <parameter key="attribute_filter_type" value="single"/>

        <parameter key="attribute" value="Review"/>

        <parameter key="attributes" value=""/>

        <parameter key="use_except_expression" value="false"/>

        <parameter key="value_type" value="nominal"/>

        <parameter key="use_value_type_exception" value="false"/>

        <parameter key="except_value_type" value="file_path"/>

        <parameter key="block_type" value="single_value"/>

        <parameter key="use_block_type_exception" value="false"/>

        <parameter key="except_block_type" value="single_value"/>

        <parameter key="invert_selection" value="false"/>

        <parameter key="include_special_attributes" value="false"/>

      </operator>

      <operator activated="true" class="text:process_document_from_data" compatibility="10.0.000" expanded="true" height="82" name="Process Documents from Data" width="90" x="380" y="34">

        <parameter key="create_word_vector" value="true"/>

        <parameter key="vector_creation" value="TF-IDF"/>

        <parameter key="add_meta_information" value="false"/>

        <parameter key="keep_text" value="true"/>

        <parameter key="prune_method" value="absolute"/>

        <parameter key="prune_below_percent" value="3.0"/>

        <parameter key="prune_above_percent" value="30.0"/>

        <parameter key="prune_below_absolute" value="2"/>

        <parameter key="prune_above_absolute" value="9999"/>

        <parameter key="prune_below_rank" value="0.05"/>

        <parameter key="prune_above_rank" value="0.95"/>

        <parameter key="datamanagement" value="double_sparse_array"/>

        <parameter key="data_management" value="auto"/>

        <parameter key="select_attributes_and_weights" value="false"/>

        <list key="specify_weights"/>

        <process expanded="true">

          <operator activated="true" class="web:extract_html_text_content" compatibility="10.0.000" expanded="true" height="68" name="Extract Content" width="90" x="45" y="34">

            <parameter key="extract_content" value="true"/>

            <parameter key="minimum_text_block_length" value="3"/>

            <parameter key="override_content_type_information" value="true"/>

            <parameter key="neglegt_span_tags" value="true"/>

            <parameter key="neglect_p_tags" value="true"/>

            <parameter key="neglect_b_tags" value="true"/>

            <parameter key="neglect_i_tags" value="true"/>

            <parameter key="neglect_br_tags" value="true"/>

            <parameter key="ignore_non_html_tags" value="true"/>

          </operator>

          <operator activated="true" class="text:tokenize" compatibility="10.0.000" expanded="true" height="68" name="Tokenize" width="90" x="45" y="136">

            <parameter key="mode" value="non letters"/>

            <parameter key="characters" value=".:"/>

            <parameter key="language" value="English"/>

            <parameter key="max_token_length" value="3"/>

          </operator>

          <operator activated="true" class="text:transform_cases" compatibility="10.0.000" expanded="true" height="68" name="Transform Cases" width="90" x="45" y="238">

            <parameter key="transform_to" value="lower case"/>

          </operator>

          <operator activated="true" class="text:filter_stopwords_english" compatibility="10.0.000" expanded="true" height="68" name="Filter Stopwords (English)" width="90" x="45" y="305"/>

          <operator activated="true" class="text:generate_n_grams_terms" compatibility="10.0.000" expanded="true" height="68" name="Generate n-Grams (Terms)" width="90" x="313" y="289">

            <parameter key="max_length" value="3"/>

          </operator>

          <operator activated="false" class="text:stem_porter" compatibility="10.0.000" expanded="true" height="68" name="Stem (Porter)" width="90" x="514" y="187"/>

          <operator activated="true" class="text:stem_snowball" compatibility="10.0.000" expanded="true" height="68" name="Stem (Snowball)" width="90" x="380" y="187">

            <parameter key="language" value="English"/>

          </operator>

          <operator activated="true" class="text:filter_by_length" compatibility="10.0.000" expanded="true" height="68" name="Filter Tokens (by Length)" width="90" x="514" y="34">

            <parameter key="min_chars" value="2"/>

            <parameter key="max_chars" value="9999"/>

          </operator>

          <connect from_port="document" to_op="Extract Content" to_port="document"/>

          <connect from_op="Extract Content" from_port="document" to_op="Tokenize" to_port="document"/>

          <connect from_op="Tokenize" from_port="document" to_op="Transform Cases" to_port="document"/>

          <connect from_op="Transform Cases" from_port="document" to_op="Filter Stopwords (English)" to_port="document"/>

          <connect from_op="Filter Stopwords (English)" from_port="document" to_op="Generate n-Grams (Terms)" to_port="document"/>

          <connect from_op="Generate n-Grams (Terms)" from_port="document" to_op="Stem (Snowball)" to_port="document"/>

          <connect from_op="Stem (Snowball)" from_port="document" to_op="Filter Tokens (by Length)" to_port="document"/>

          <connect from_op="Filter Tokens (by Length)" from_port="document" to_port="document 1"/>

          <portSpacing port="source_document" spacing="0"/>

          <portSpacing port="sink_document 1" spacing="0"/>

          <portSpacing port="sink_document 2" spacing="0"/>

          <description align="center" color="yellow" colored="false" height="50" resized="true" width="93" x="389" y="54">&amp;#25490;&amp;#38500;&amp;#25481;&amp;#20004;&amp;#20010;&amp;#23383;&amp;#30340;</description>

          <description align="center" color="yellow" colored="false" height="69" resized="true" width="137" x="627" y="210">stai&amp;#23601;&amp;#26159;stay&lt;br/&gt;</description>

          <description align="center" color="yellow" colored="false" height="105" resized="false" width="180" x="183" y="101">Type your comment</description>

        </process>

      </operator>

      <operator activated="false" class="text:data_to_documents" compatibility="10.0.000" expanded="true" height="68" name="Data to Documents" origin="GENERATED_TRAINING" width="90" x="112" y="136">

        <parameter key="select_attributes_and_weights" value="false"/>

        <list key="specify_weights"/>

      </operator>

      <operator activated="true" class="singular_value_decomposition" compatibility="10.3.000" expanded="true" height="103" name="SVD" width="90" x="313" y="238">

        <parameter key="dimensionality_reduction" value="fixed number"/>

        <parameter key="percentage_threshold" value="0.95"/>

        <parameter key="dimensions" value="50"/>

      </operator>

      <operator activated="false" class="principal_component_analysis" compatibility="10.3.000" expanded="true" height="103" name="PCA" width="90" x="112" y="238">

        <parameter key="dimensionality_reduction" value="keep variance"/>

        <parameter key="variance_threshold" value="0.95"/>

        <parameter key="number_of_components" value="1"/>

      </operator>

      <connect from_port="input 1" to_op="Read Excel" to_port="file"/>

      <connect from_op="Read Excel" from_port="output" to_op="Nominal to Text" to_port="example set input"/>

      <connect from_op="Nominal to Text" from_port="example set output" to_op="Process Documents from Data" to_port="example set"/>

      <connect from_op="Process Documents from Data" from_port="example set" to_op="SVD" to_port="example set input"/>

      <connect from_op="SVD" from_port="example set output" to_port="result 1"/>

      <connect from_op="SVD" from_port="original" to_port="result 2"/>

      <connect from_op="SVD" from_port="preprocessing model" to_port="result 3"/>

      <portSpacing port="source_input 1" spacing="0"/>

      <portSpacing port="source_input 2" spacing="0"/>

      <portSpacing port="sink_result 1" spacing="0"/>

      <portSpacing port="sink_result 2" spacing="0"/>

      <portSpacing port="sink_result 3" spacing="0"/>

      <portSpacing port="sink_result 4" spacing="0"/>

    </process>

  </operator>

</process>

rjones13 · December 2023

Hi @ytu,

Does this article help answer some of your questions? https://community.rapidminer.com/discussion/54552/about-singular-value-decomposition

Best,

Roland

Howdy, Stranger!

Quick Links

Categories

Altair RapidMiner Community

GET HELP. LEARN BEST PRACTICES. NETWORK WITH YOUR PEERS.

the explanation of results of Singular Value Decomposition

Answers