モデルタイプを選択
データと選択内容に基づいて、関連する機械学習モデルが表示されます。複数のモデルを選択すると、結果にパフォーマンス比較が含まれます。画面下部の Run ボタンをクリックする前に、少なくとも1つのモデルを選択する必要があります。
データセットによっては、実行時間の長期化を避けるために一部のモデルが選択解除される場合があります。待機しても問題ない場合は、 Run を押す前にこれらのモデルを含めてください。
実行
Auto Modelは、すべての計算をローカルマシンで実行できます。これらの実行パラメータは次のとおりです。
- Folder for Storing Results:このフォルダは、入力データと実行されたすべてのAuto Modelプロセスおよび結果を保存するために使用されます。このフォルダはリポジトリのルートにすることはできません。空のフォルダを使用することをお勧めします。リポジトリツリー内で右クリックし、コンテキストメニューから対応する項目を選択することで、新しいフォルダを作成できます。
モデル
回帰問題の場合、以下のモデルが利用可能です。
- Generalized Linear Model: 線形回帰モデルの一般化
- Deep Learning: 非線形関係を学習するための多層ニューラルネットワーク
- Decision Tree: 理解しやすいシンプルなツリー状モデルを見つけます
- Random Forest: 複数のランダム化されたツリーのアンサンブル
- Gradient Boosted Trees: 決定木のアンサンブルを使用する強力だが複雑なモデル
- Support Vector Machine: 特に非線形関係に強力だが比較的速いモデル
データ準備
- Extract Data Information: 日付列から季節情報を抽出するか、または日付列を無視するか。アクティブ化すると、Auto Modelは日付列から数値特徴を抽出し、日付間の差分と今日までの差分も計算します。
- Extract Text Information: テキスト列(前の画面でテキスト性が85%を超えるすべての列)から数値情報を抽出するかどうか。必要に応じて、他の列を削除または追加できます。抽出される特徴が多いほど、データ内のより微妙なパターンを特定するのに役立ちますが、モデリング時間が長くなります。さらに、各テキスト列の一般的な感情と言語も抽出できます。ただし、一般的な感情分析は多くの場合、方向的に正しい結果しか得られず、精度に関しては特定のドメインベースのモデルとは比較できないことに注意してください。
- Automatic Feature Selection: 最適な列のサブセットと、複雑さと精度の間のすべての最適なトレードオフを識別します
- Automatic Feature Generation: 特徴選択に加えて新しい列を生成します
自動特徴量エンジニアリングは、異なる特徴量セットのパフォーマンスを計算するために分割検証を使用する多目的進化的最適化アプローチに基づいています。これは、特徴量セットの複雑さとモデルエラーを同時に削減しようとします。
列分析
- Correlations between Columns: 列間の相関を示す行列
- Importance of Columns: ターゲット列の値に対する各元の入力列のグローバルな重要度を計算します。重要度の値としてターゲット列との相関を使用します。
- Explain Predictions:Auto Modelは、テストセットの予測と、ターゲット列に欠損値があるすべての行の予測を計算します。このパラメータがチェックされている場合、Auto Modelは、各特定のモデルの各行の予測に対してどの列値が最も大きな影響を与えたかをさらに計算します。Auto Modelは、特定のモデルのすべての行における列の重要度に基づいてグローバルウェイトも計算します。
背景
自動特徴量エンジニアリング技術に関する詳細はこちらで確認できます。
以下のAltair RapidMinerドキュメントへのリンクは、回帰学習器に関する詳細情報を提供します。