忍者ブログ
Slic3rの設定についてまとめてます。Slic3rの日本語版が見当たらなかったので、使い方をまとめました。 最近はC#のメモ帳代わりになってます。

機械学習の学習日記 | Microsoft Azure Machine Learning サンプル1

スポンサーリンク
Microsoft Azure Machine Learning サンプル1をなぞってみた。

このサンプルはデータソースの読み取りについてのサンプルのようです。

1. サンプルを開く

EXPERIMENTS > SAMPLES > Sample 1 : xxx を開く。
これを参考に実際にExperimentを作ってみる。

2. 作業用Experimentの作成

別タブで作業用Experimentを作成する。
Experimentの新規作成は「機械学習の学習日記 | チュートリアル「簡単な実験の作成」 1.データを取得する。」の「1.Experimentを新規作成して名前を付ける。」を参照。

3. Readerモジュールを配置する。

Data Input and Output > Reader をキャンバスに配置する。


4.ReaderのData sourceプロパティについて

Readerについての公式サイトはこちら

まずは、Data source 。
Data source で指定可能な項目は以下の通り。(Data source or sink)

Web URL via HTTP
 HTTP経由のWebURL。
 普通に指定したURLを読み込むってとこでしょうか。今回これで動かしてみます。
Hive Query
 Hiveクリエ。
 Hiveはオープンソースの大規模分散計算フレームワーク上の環境のようです。使用する事があればそのときに調べてみます。
Azure SQL Database
 Microsoft Azure SQL データベース。
 Azure上のデータベースサービスを使用する場合に指定する。

Azure Table
 Microsoft Azure テーブル。
 Azure上のテーブルサービスを使用する場合に指定する。
 Azureのテーブルサービスについては、こちら

Azure Blob Storage
 Azure上のBLOBストレージを使用する場合に指定する。
 AzureのBLOBストレージサービスについては、こちら

Data Feed Provider
 不明。データフィードはこれでしょうか?

Azureからデータを取得する場合の詳細について。
Webからデータを取得する場合の詳細について。

Web URL via HTTPを選択します。以下Web URL via HTTP選択時のプロパティについての調査。

5.ReaderのURLプロパティ

 これは、普通にデータのURLを指定すればよさそう。

6.ReaderのData formatプロパティ

 Data formatで指定可能な項目は以下の通り。

CSV
 カンマ区切りの一般的なCSVデータ。

TSV
 タブ区切りのデータ。

ARFF
 WEKAという機械学習用のフリーソフトで使用可能なファイル形式。この形式のサンプルデータは結構あるようです。今回はこのファイルフォーマットを読み込むようにしてみようと思います。CSV,TSVでは型の指定は行われておらず、Readerで推測するのに対して、ARFFでは、ファイル内で型の指定を行っています。
 んー。Wekaのサンプルデータを読み込もうとしたけど、うまく読み込めなかった。
 csvデータを読み込むことにしました。
ARFFファイル読めた。小文字だとダメだったのかな。詳細はReaderモジュールの方で。


SvmLight
 Perl の機械学習で使用されていた形式のようです。

7.ReaderのCSV or TSV has header rowプロパティ

 CSV,TSVを読み取る際に、先頭に列名称の記述された行があるか?の設定。
 列タイトルがあれば✔する。

8.ファイルを読み込む

 んー。OneDriveにアップロードして読み込んでみたけどうまく読み込めていなかった。
同じデータをFTPにアップロードしたらうまく読み込めた。(ARFFはやっぱりダメだったな)
 とにかく、列タイトル付きのCSVデータをFTPにアップロードしておいて、読み込んでみました。


読み込んだ結果

9.統計情報を出力

Statistical Functions > Descriptive Statistics をキャンバスに配置し、 Readerの出力ポートに接続する。

単純に統計情報を集めているだけのようで、特に設定するデータは無い。
出力結果はこんな感じ

各列に対して以下の統計を出力している。
記述内容はこんな感じらしい。

Count : すべての行の数
Unique value count : 一意値の数
Missing value count : 読み取れない行数
Minimum value : 最小値
Maximum value : 最大値
Range : 範囲
Mean : 平均
Mean deviation : 平均偏差
Median : 中央値
Mode :モード(最頻値)
Sample variance : 分散
Sample standard deviation : 標準偏差
Sample skewness : 歪度
Sample kurtosis : 尖度
1st Quartile : 1/4
3rd Quartile : 3/4
0.5% percentile : 0.5%
1% percentile : 1%
5% percentile : 5%
95% percentile : 95%
99% percentile : 99%
99.5% percentile : 99.5%

こんな感じでした。
Sample1では外部ファイルを読み込んで、読み込んだデータの統計を取っている。


関連記事