モデルタイプの選択
データと選択に基づいて、関連する機械学習モデルが表示されます。複数のモデルを選択すると、結果にはパフォーマンス比較が含まれます。画面下部のRunボタンをクリックする前に、少なくとも1つのモデルを選択する必要があります。
データセットによっては、実行時間の長期化を避けるため、一部のモデルが選択解除される場合があります。待っても構わない場合は、Runを押す前にこれらのモデルを含めてください。
Execution
Auto Modelは、すべての計算をマシン上でローカルに実行できます。以下の実行パラメータがあります。
- Folder for Storing Results:このフォルダーは、入力データおよび実行されたすべてのAuto Modelプロセスと結果を保存するために使用されます。このフォルダーはリポジトリのルートにすることはできません。空のフォルダーを使用することもお勧めします。リポジトリツリー内で右クリックし、コンテキストメニューから対応する項目を選択することで、新しいフォルダーを作成できます。
Models
分類問題であり、以下のモデルが利用可能です。
- Naive Bayes: ベイズの定理に基づいたシンプルで高速な確率的分類器
- Generalized Linear Model: 線形回帰モデルの一般化
- Logistic Regression: 広く使用されている統計的手法
- Fast Large Margin: 線形大規模マージン手法の高速版(Support Vector Machineを参照)
- Deep Learning: 非線形関係を学習するための多層ニューラルネットワーク
- Decision Tree: 理解しやすいシンプルなツリー状モデルを見つけます
- Random Forest: 複数のrandomizedツリーのアンサンブル
- Gradient Boosted Trees:決定木アンサンブルを使用する強力だが複雑なモデル
- Support Vector Machine: 特に非線形関係に強力だが比較的速いモデル
Data Preparation
- Extract Data Information: 日付列から季節情報を抽出するか、代わりに日付列を無視するかどうか。有効化すると、Auto Modelは日付列からnumericalな特徴を抽出し、日付間の差分と今日までの差分も計算します。
- Extract Text Information: テキスト列からnumerical情報を抽出するかどうか(前の画面でテキスト度が85%を超えているすべての列)。必要に応じて、他の列を削除したり追加したりできます。抽出される特徴を増やすと、データのより微妙なパターンを特定するのに役立ちますが、モデリング時間が長くなります。さらに、各テキスト列の一般的なsentimentとlanguageも抽出できます。ただし、一般的なsentiment分析は、多くの場合、方向性としては正しい結果しか得られず、精度に関しては特定のドメインベースのモデルとは比較できないことに注意してください。
- Automatic Feature Selection: 最適な列のサブセットと、複雑さと精度の間のすべての最適なトレードオフを特定します。
- Automatic Feature Generation: 特徴選択に加えて新しい列を生成します。
自動特徴量エンジニアリングは、異なる特徴セットのパフォーマンスを計算するためにsplit validationを使用する多目的進化的最適化アプローチに基づいています。これは、特徴セットの複雑さとモデルエラーを同時に減らそうとします。
Column Analysis
- Correlations between Columns: 列間の相関を示す行列
- Importance of Columns: ターゲット列の値に対する各元の入力列のグローバルな重要度を計算します。ターゲット列との相関を重要度値として使用します。
- Explain Predictions:Auto Modelは、テストセットおよびターゲット列に欠損値があるすべての行の予測を計算します。このパラメータがチェックされている場合、Auto Modelはさらに、各特定のモデルの各行の予測に対してどの列の値が最も大きな影響を与えたかを計算します。Auto Modelは、特定のモデルのすべての行における列の重要度に基づいてグローバルな重みも計算します。
First Time?
Titanicデータセットは小さいです。結果として、すべてのモデルが選択されています。これらの設定を維持してRunを押すと、結果が得られます。
Background
自動特徴量エンジニアリング技術に関する詳細情報はこちらで確認できます。
分類器に関する詳細情報は、以下のAltair RapidMinerドキュメントへのリンクで提供されています。