忍者ブログ
Slic3rの設定についてまとめてます。Slic3rの日本語版が見当たらなかったので、使い方をまとめました。 最近はC#のメモ帳代わりになってます。

機械学習の学習日記 | Microsoft Azure Machine Learning / Clean Missing Data モジュール

スポンサーリンク
Microsoft Azure Machine Learning (Azure ML)の Clean Missing Data モジュールについて。

Data Transformation > Manipulation > Clean Missing Data 
欠損しているデータの処理を行います。

結構わからないところが多いです。オフィシャルの資料が見つかったら書き直します。



Selected columns プロパティ

編集を行う対象となる列を選択する。
Select Columns プロパティの詳細はこちら

Minimum missing value ratio プロパティ

わからん。とりあえず0

Maximum missing value ratio プロパティ

わからん。とりあえず1

Cleaning mode プロパティ

Replace using MICER

「Multiple Imputation by Chained Equations」という方法で統計的に偏りの無いように欠損データを置き換えます。

Custom substitution value

要素を指定したデータに置き換えます。

Replace with mean

列の平均値(mea)で置き換えます。


Replace with median

列の中央値(median)で置き換えます。


Replace with mode

列の最頻値(mode)で置き換えます。


Remove entire row

欠損している行を削除します。

Remove entire column

欠損している列を削除します。

Replace using probabilistic PCA

確率的主成分分析で置き換えます。

Cols with all missing values プロパティ

すべての要素が欠損している列を維持するか、削除するかを指定します。
Propagate:列を維持します。
RemoveColumns:列を削除します。

Replacement value プロパティ

Custom substitution valueの場合。
欠損しているデータを設定した値で置き換えます。
整数列に対して小数点付きのデータを指定した場合、近い整数が設定されます。

Number of iterations プロパティ

「Multiple Imputation by Chained Equations」のパラメータ?
試行回数?
1~10を設定する。

Number of iterations for PCA prediction プロパティ

確率的主成分分析のパラメータ?

Generate missing value indicator column プロパティ

欠損した要素を編集したかどうかの列を新たに追加するか否かを選択します。
例えば下のデータセットに対して欠損要素を平均値で置き換えます。
nomalized losses の列に欠損した要素があります。

MV indicator column を Onに設定しておくと、次のように新しい列が追加されます。
nomalized losses is Missing の列が追加され、欠損要素を補ったか否かの情報が追加されます。


出力ポート

左側:出力ポートが欠損データが補われているポート。
右側:不明


関連記事