Select Task

完璧です。データセットを選択しましたね。次に、解決したい問題の種類を決定します。Nextをクリックする前に、上部の3つのタスクのいずれかを選択してください。以下にガイダンスを示します。

Auto Model - 分類

Auto Model - 分類

 

Auto Model - クラスタリングと外れ値

Auto Model - クラスタリングと外れ値

 

初めてですか?

前のステップでTitanicデータを選択した場合、ここでは「Passenger Class」や「Age」などの列名を持つテーブルが表示されます。このデータセットで良いアイデアは、乗客が事故を生き延びるかどうかを予測することです。そのためには、タスクとして Predict を選択し、ターゲットとして「Survived」というラベルの付いた最後の列を選択します。次に Next をクリックしてください。

背景

「背景」セクションでは、機械学習とAltair AI Studioに関するオプションの追加情報を提供しています。

予測

目標は、他の列の値に基づいて1つの列の値を予測することです。この一般的な方法は教師あり学習と呼ばれます。これは、モデルのトレーニングに使用されるデータには既知の結果があるためです。教師あり学習の領域では、ターゲットに応じて分類と回帰の2つの方法を区別します。

分類 は、ターゲット値がカテゴリの場合に使用されます。「結果はAかBか?」のような質問に答えます。頻繁に使用されるモデルには、決定木、勾配ブーストツリー、ニューラルネットワーク(ディープラーニング)などがあります。

回帰 は、ターゲット値が数値の場合に使用されます。時系列データの場合、これを「予測」と呼ぶこともあります。 「いくつ?」や「どのくらい?」のような質問に答えます。頻繁に使用されるモデルには、線形回帰とニューラルネットワーク(ディープラーニング)などがあります。

典型的なユースケース: 顧客離反予測、ダイレクトマーケティング、ネクストベストオファー、顧客生涯価値の予測、予知保全、歩留まり最適化など。

クラスター

目標は、互いに属する、ある意味で互いに近いデータポイントを特定し、明確なクラスターを作成することです。このプロセスは「セグメンテーション」と呼ばれることもあります。分類とは対照的に、クラスタリングは各ポイントをアルゴリズムによって識別されたグループに割り当てます。グループは事前に知られていません。k-Meansクラスタリングは最も頻繁に使用されるクラスタリング方法です。

典型的なユースケース: 顧客セグメンテーション、障害識別、トピック検出、クロスセルおよびアップセルなど。

外れ値

目標は、属さないデータポイントを特定することです。それらはある意味で他のすべてのポイントから離れており、識別可能なパターンに適合しません。これらのデータポイントは、異常なイベントに関する洞察を与えるために関心がある場合があります。その他の場合、さらなる分析を行う前にデータからそれらを削除したい場合があります。距離ベースの外れ値検出と局所外れ値因子は頻繁に使用される方法です。

典型的なユースケース: リスク軽減、不正検出、予知保全など。