忍者ブログ
Slic3rの設定についてまとめてます。Slic3rの日本語版が見当たらなかったので、使い方をまとめました。 最近はC#のメモ帳代わりになってます。

機械学習の学習日記 | Microsoft Azure Machine Learning サンプル2

スポンサーリンク
Microsoft Azure Machine Learning サンプル2をなぞってみた。
このサンプルは欠損したデータへの処理を行いその結果の統計と線形相関を出力しているサンプルのようです。

1. サンプルを開く

EXPERIMENTS > SAMPLES > Sample 2 : xxx を開く。
Save asで保存する。通常サンプルは閲覧専用で、ポップアップで表示される詳細も見れなくなっています。保存しておくと編集可能となり、
これを参考に実際にExperimentを作ってみる。


2. 作業用Experimentの作成しReaderモジュールを配置する。

Data Input and Output > Reader をキャンバスに配置する。
読み込みさきはサンプルデータと同じにしました。



3. データを編集する。

データの編集には、Transformation > Manipulation > Metadata Editor を使用します。
 
Metadata Editorは列の属性を変更するモジュールです。

Col1列を編集

Col1列をInteger型のカテゴリとして指定し、列タイトルを「symboling」に変更します。
この処理で、Col1列はsymboling列に名前が変更され、整数型のカテゴリとなります。

Col2を編集

さらにMetadata Editorを追加し、Col2を編集します。

Col2列をInteger型の非カテゴリとして指定し、列タイトルを「normalized-losses」に変更します。
この処理で、Col2列はnormalized-losses列に名前が変更され、整数型の非カテゴリとなります。

Col26を編集

同様に、Col26を編集します。

Col26列をInteger型の非カテゴリとして指定し、列タイトルを「price」に変更します。
この処理で、Col26列はprice列に名前が変更され、整数型の非カテゴリとなります。



4.欠損しているデータの処理を行う。

さて、ここからが本題。
「3. データを編集する。」で編集した列のうち、「normalized-losses」と「price」には欠損したデータがあります。
欠損している要素に対して3つの方法で処理を行います。
余談

この記事は少しづつモジュールの動作を確認しながら何日もかけて書いているのです。調べ始めた当初は、Missing Values Scrubberモジュールで欠損データを処理していたのですが、調べ終わったころにサンプルのExperimentが更新されていてClean Missing Dataモジュールに変わっていました。
サンプルのExperimentも結構頻繁に変更されているようです。

Data Transformation > Manipulation > Clean Missing Data を配置する。

Clean Missing Dataの詳細についてはこちら。

String型の列以外の列の欠損データを列の平均値で補う。

次のようにプロパティを設定しString型以外の欠損データを平均値で補います。 

String型の列以外の列の欠損データを列の最頻値で補う。

次のようにプロパティを設定しString型以外の欠損データを最頻値で補います。 

String型の列以外の列の欠損データを列の0で補う。

次のようにプロパティを設定しString型以外の欠損データを0で補います。

5.統計情報を取得する。

Statistical Functions > Descriptive Statistics を Clean Missing Data の左側出力ポートに接続します。
Descriptive Statistics モジュールについてはこちら

6.線形相関を取得する。

Statistical Functions > Linear Correlation を Clean Missing Data の左側出力ポートに接続します。
Linear Correlation モジュールについてはこちら


VisualizeでDescriptive StatisticsLinear Correlationでかくにんしたらおしまい。


関連記事