ここでは、データの品質、特に各データ列の品質に焦点を当てています。価値の低いデータ列(属性)を破棄することを検討してもよいでしょう。
どの属性が価値があり、どれが無価値かをどうやって知るのでしょうか?重要な点は、パターンを探しているということです。データにいくつかのバリエーションと識別可能なパターンがなければ、そのデータは役に立たない可能性が高いです。注意すべき点の概要(詳細は以下)には、次のものが含まれます。
意思決定を助けるために、色分けされたステータスバブル(赤 / 黄 / 緑)で属性値を表示します。詳細は品質バー(C / I / S / M / T)で提供されます。一般的に、少なくとも赤いステータスバブルが付いている属性は選択解除することをお勧めします。機械学習モデルの入力には、選択された属性のみが含まれます。

個別にクリックして属性の選択を解除できます。または、画面上部の赤の選択解除または黄色の選択解除とマークされたボタンをクリックして、属性のグループの選択を解除できます。
例えば、Titanicデータには問題のある列がいくつかあり、削除すべきです。「名前」と「チケット番号」の属性は各乗客固有のもので、IDに相当し、機械学習はそれらから何も学習できません。これらの属性は、IDらしさ(I)を示す大きな青いバーを持ち、結果として赤いステータスバブルが付いています。「客室」情報はほとんどの場合に欠損(M)しており(赤いバー)、これも削除すべきです。
「救命ボート」だけが黄色のステータスバブルを持つ属性です。これは、ターゲット属性である「生存」と非常に高い相関(C)があります。高い相関は望ましい場合もありますが、この場合は問題です。機械学習モデルは、人が救命ボートに乗ったから生存したとすぐに発見するでしょうが、それはすでにわかっていることです!「救命ボート」と「生存」は実質的に同義なので、「救命ボート」属性を削除し、モデルに生存の根本的な理由を発見させる方が良いでしょう。
要約すると、赤いステータスバブルが付いているすべての属性をデータから削除すべきです。そしてこの場合、黄色のステータスバブルが付いている属性も削除すべきです。手動で選択解除するか、赤の選択解除と黄色の選択解除をクリックして削除できます。次に次へをクリックしてください。
「背景」セクションでは、機械学習とAltair AI Studioに関するオプションの追加情報を提供しています。
色付きのステータスバブルは、データ列の品質インジケーターを提供します。
ステータスバブルの色は、各属性とともにバーとして表示される以下の品質測定に基づいています。
一般的に、欠損、安定性、IDらしさの値が低い属性を推奨します。 場合によっては、テキスト列を保持したい場合もあります。 相関が高い列は通常推奨されますが、予測したいデータとの直接的な因果関係のために高い相関がある場合は推奨されません。