結果:分類
ここはAuto Modelの最終ステップで、生成されたモデルを他の結果と一緒に確認できます。出力はデータと選択内容によって異なります。例えば、相関関係の計算や決定木を無効にした場合、それらの結果は表示されません。特定の問題タイプでのみ表示される結果もあります。例えば、リフトチャートは2クラス問題でのみ利用できます。
結果はバックグラウンドで計算されることに注意してください。ただし、結果が完成したらすぐに確認を開始できます。画面下部の停止ボタンを押すと、バックグラウンド実行を停止できます。実行が停止したときに完了していない計算は利用できません。実行が完了した後、または停止した後でも、戻って変更を加えることができます。
私たちAltair RapidMinerはブラックボックスを信用しません。そのため、モデルと関連するすべての結果を作成したプロセスをいつでも開くことができます。結果をクリックし、画面上部のプロセスを開くをクリックするだけです。これにより、必要なデータ前処理とモデル最適化を実行するプロセスが表示されます。このプロセスをモデルのデプロイに、またはさらなる最適化の出発点として使用できます。
以下に、可能な結果について詳しく説明します。
比較
2つ以上のモデルを選択した場合、このセクションで簡単な比較ができます。
- 概要: モデルの精度と実行時間を示します。
- ROC比較: すべてのモデルのROC曲線が1つのチャートにまとめて表示されます。曲線が左上隅に近いほど、モデルの性能が良いことを示します。2クラス問題の場合にのみ表示されます。
モデル
結果メニューの他のすべてのセクションはモデル専用です。各モデルには独自のセクションがあり、一般的に以下の項目が提供されます。
- Model: 可能であれば、モデルのグラフィック表示を示します。
- Weights: この特定のモデルの予測に一般的に最も影響を与える列を示します。 重みは、前の画面で「予測の説明」パラメータが選択されている場合にのみ表示されます。
- Simulator: モデルへの入力を変更し、出力を表示するための使いやすいリアルタイムインターフェースを提供します。これらの入力に対する予測、確信度、および説明を表示します。
- Performance: 分類問題のタイプに応じて、モデルの予測精度とその他のパフォーマンス基準をリスト表示します。パフォーマンスは、実行されたモデル最適化には使用されていない40%のホールドアウトセットで計算されます。このホールドアウトセットは、7つの排他的なサブセットのパフォーマンスを計算する多ホールドアウトセット検証の入力として使用されます。最大と最高のパフォーマンスは削除され、残りの5つのパフォーマンスの平均がここに報告されます。この検証は完全なクロスバリデーションほど徹底的ではありませんが、このアプローチは実行時間とモデル検証の品質の間の良いバランスをとっています。
- リフトチャート: モデルで得られた結果とモデルなしで得られた結果の比率を計算することで、モデルの有効性を示します。2クラス問題の場合にのみ作成されます。
- 最適パラメータ: 異なるパラメータ設定におけるモデルのパフォーマンスを示します。自動的に最適化されるモデルの場合にのみ作成されます。
- 特徴量セット: 特徴量エンジニアリングが有効になっている場合にのみ表示されます。特徴量セットの複雑さとモデルの精度の間のすべての最適なトレードオフを示します。トレードオフプロット内の任意の点を選択すると、下部に特定の特徴量セットが表示されます。
- 予測: ターゲット列に欠損値がある各行と40%のホールドアウトセットに対して、予測とその予測の説明を提供します。説明は、前の画面で「予測の説明」パラメータが選択されている場合にのみ表示されます。
一般
このセクションでは、モデルに依存しない一般的な情報が表示されます。
- Data: モデリングのために変換された後のデータセット。これは、すべてのモデリング手法と自動特徴量エンジニアリングの入力データです。モデルは、このデータの一部のみを使用したり、追加の列を生成したりする場合があります。
- Text: テキストデータからの特徴量抽出が有効になっている場合にのみ表示されます。分析に使用されるテキスト列の単語がテーブルとして、またワードクラウドとして表示されます。さらに、これらの単語が強調表示されたすべてのトレーニングおよびスコアリングドキュメントを確認できます。最後に、感情または言語の計算を有効にした場合は、すべてのテキスト列のこれらの値の分布も確認できます。
- Weights by Correlation: モデリングアルゴリズムや潜在的な特徴量エンジニアリングとは独立して、ターゲット列の値に対する各元の入力列のグローバルな重要度。重みは、予測のための列とターゲット列の相関に基づいています。対照的に、モデル固有の重みは、各特定のモデルの予測に一般的に最も影響を与える列を示しています。
- Correlations: 列間の相関を示す行列。
初めてですか?
ここまでTitanicデータセットに従ってきた場合、上記で説明したほとんどの結果が得られます。「比較」グループの概要を確認すると、Gradient Boosted Treesが最も正確な予測を生成しましたが、モデルの生成には長い時間がかかったことがわかります。Deep Learningモデルもほぼ同じくらい優れていましたが、はるかに迅速に生成されました。この場合、実行時間が速いため、設定や特徴量セットをより迅速に最適化できるため、Deep Learningを使用することをお勧めします。他の結果を確認するか、Deep Learningモデルを選択してプロセスを開くをクリックし、データがどのように変換され、モデルがどのように作成されたかを確認してください。