モデルタイプを選択
データと選択内容に基づいて、関連する機械学習モデルが表示されます。複数のモデルを選択すると、結果にパフォーマンス比較が含まれます。画面下部の Run ボタンをクリックする前に、少なくとも1つのモデルを選択する必要があります。
データセットによっては、実行時間の長期化を避けるために一部のモデルが選択解除される場合があります。待機しても問題ない場合は、 Run を押す前にこれらのモデルを含めてください。
実行
Auto Modelは、すべての計算をローカルマシンで実行できます。実行パラメータは次のとおりです。
- Folder for Storing Results:このフォルダは、入力データと実行されたすべてのAuto Modelプロセスおよび結果を保存するために使用されます。このフォルダはリポジトリのルートにすることはできません。また、空のフォルダを使用することをお勧めします。リポジトリツリー内で右クリックし、コンテキストメニューから対応する項目を選択することで、新しいフォルダを作成できます。
モデル
クラスタリングの問題があり、以下のモデルが利用可能です。
- k-Means: 事前定義された数のクラスターを識別するために広く使用されているシンプルなクラスタリング手法
- x-Means: ヒューリスティックに基づいて正しいセントロイドの数を決定します
データ準備
- Extract Data Information: 日付列から季節情報を抽出するか、日付列を無視するか。アクティブ化すると、Auto Modelは日付列から数値特徴を抽出し、日付間の差分と今日までの差分も計算します。
- Extract Text Information: テキスト列(前の画面でテキスト性が85%を超えるすべての列)から数値情報を抽出するかどうか。より多くの特徴は、データ内のより微妙なパターンを特定するのに役立ちますが、モデリング時間が長くなります。さらに、各テキスト列の一般的な感情と言語も抽出できます。ただし、一般的な感情分析は多くの場合、方向的に正しい結果しか得られず、精度に関しては特定のドメインベースのモデルとは比較できないことに注意してください。
- Automatic Feature Selection: 最適な列のサブセットと、複雑さとクラスター品質の間のすべての最適なトレードオフを識別します。
列分析
- Correlations between Columns: 列間の相関関係を示す行列
背景
以下のAltair RapidMinerドキュメントへのリンクは、クラスタリング方法に関する詳細情報を提供します。
- k-Means
- x-Means:X-Meansは、ヒューリスティックに基づいて正しいセントロイドの数を決定するクラスタリングアルゴリズムです。最小限のセントロイドセットから開始し、より多くのセントロイドを使用することがデータに応じて意味があるかどうかを繰り返し探索します。クラスターが2つのサブクラスターに分割されるかどうかは、精度とモデルの複雑さのトレードオフのバランスをとるベイズ情報量基準(BIC)によって決定されます。