Results:Regression
これはAuto Modelの最終ステップで、生成されたモデルを他の結果と一緒に確認できます。出力はデータと選択内容によって異なります。例えば、相関関係の計算や決定木を無効にした場合、それらの結果は表示されません。
結果はバックグラウンドで計算されることに注意してください。ただし、結果が完了したらすぐに確認を開始できます。画面下部の停止ボタンを押すと、バックグラウンド実行を停止できます。実行が停止したときに完了していない計算は利用できません。実行が終了した後、または停止した後でも、戻って変更を加えることができます。
私たちAltair RapidMinerはブラックボックスを信用しません。そのため、モデルと関連するすべての結果を作成したプロセスをいつでも開くことができます。結果をクリックし、画面上部のプロセスを開くをクリックするだけです。これにより、必要なデータ前処理とモデル最適化を実行するプロセスが表示されます。このプロセスをモデルのデプロイに、またはさらなる最適化の出発点として使用できます。
以下に、可能な結果について詳しく説明します。
比較
2つ以上のモデルを選択した場合、このセクションで簡単な比較ができます。
モデル
結果メニューの他のすべてのセクションはモデル専用です。各モデルには独自のセクションがあり、一般的に以下の項目が提供されます。
- モデル: 可能であれば、モデルのグラフィック表示を示します。
- 重み: この特定のモデルの予測に一般的に最も影響を与える列を示します。重みは、前の画面で「予測の説明」パラメータが選択されている場合にのみ表示されます。
- シミュレーター: モデルへの入力を変更し、出力を表示するための使いやすいリアルタイムインターフェースを提供します。 これらの入力に対する予測と説明を表示します。
- パフォーマンス: 分類問題のタイプに応じて、モデルの予測精度とその他のパフォーマンス基準をリスト表示します。 パフォーマンスは、実行されたモデル最適化には使用されていない40%のホールドアウトセットで計算されます。 このホールドアウトセットは、7つの排他的なサブセットのパフォーマンスを計算する多ホールドアウトセット検証の入力として使用されます。 最大と最高のパフォーマンスは削除され、残りの5つのパフォーマンスの平均がここに報告されます。 この検証は完全なクロスバリデーションほど徹底的ではありませんが、このアプローチは実行時間とモデル検証の品質の間の良いバランスをとっています。
- 最適パラメータ: 異なるパラメータ設定におけるモデルのパフォーマンスを示します。自動的に最適化されるモデルの場合にのみ作成されます。
- 特徴量セット: 特徴量エンジニアリングが有効になっている場合にのみ表示されます。特徴量セットの複雑さとモデルの精度の間のすべての最適なトレードオフを示します。 トレードオフプロット内の任意の点を選択すると、下部に特定の特徴量セットが表示されます。
- 予測: ターゲット列に欠損値がある各行と40%のホールドアウトセットに対して、予測とその予測の説明を提供します。 説明は、前の画面で「予測の説明」パラメータが選択されている場合にのみ表示されます。
- 予測チャート: 真の値が既知の40%の検証ケースについて、予測値と真の値をプロットで示します。プロット内の各点は、特定の予測とその真の値を表します。点がオレンジ色の線に近いほど、モデルの性能が良いことを示します。
一般
このセクションでは、モデルに依存しない一般的な情報が表示されます。
- データ: モデリングのために変換された後のデータセット。これは、すべてのモデリング手法と自動特徴量エンジニアリングの入力データです。モデルは、このデータの一部のみを使用したり、追加の列を生成したりする場合があります。
- テキスト: テキストデータからの特徴量抽出が有効になっている場合にのみ表示されます。分析に使用されるテキスト列の単語がテーブルとして、またワードクラウドとして表示されます。 さらに、これらの単語が強調表示されたすべてのトレーニングおよびスコアリングドキュメントを確認できます。 最後に、感情または言語の計算を有効にした場合は、すべてのテキスト列のこれらの値の分布も確認できます。
- 相関による重み: モデリングアルゴリズムや潜在的な特徴量エンジニアリングとは独立して、ターゲット列の値に対する各元の入力列のグローバルな重要度。重みは、予測のための列とターゲット列の相関に基づいています。対照的に、モデル固有の重みは、各特定のモデルの予測に一般的に最も影響を与える列を示しています。
- 相関: 列間の相関を示す行列。