回帰問題を解いていますね。値の分布がヒストグラムで表示されます。
これが本当に予測したいもので、すべて問題なければ、画面下部の次へをクリックしてください。
正確な数値(例えば、華氏83.7度)の計算には興味がなく、値が「寒い」か「暑い」かを知りたい場合は、ターゲット列の数値をカテゴリ値に変換できます。
Turn into Classification を選択すると、回帰問題が分類問題に変換されます。作成するクラスの数と、クラスを構築する方法(各クラスでデータポイント数が等しいか、または数値範囲が等しいか)を指定できます。選択したクラスの境界がヒストグラムに表示されることに注意してください。
クラスが2つしかない場合は、どちらのクラスが最も関心のあるクラスであるかを選択できます。そのクラスに対する各モデルのパフォーマンス指標(後で結果と一緒に表示されます)が示されます。
「背景」セクションでは、機械学習とAltair AI Studioに関するオプションの追加情報を提供しています。
数値をカテゴリ値に変換するプロセスを「離散化」と呼びます。最も頻繁に使用される2つのアプローチを以下に説明します。
最初のオプションはビン化で、すべて同じサイズのユーザー指定の数のビンを作成します。データが0から100の間の値をカバーし、10個のビンを作成する場合、ビンは0-10、10-20、20-30などの範囲をカバーします。各ビン内のデータポイントの数が異なる場合があることに注意してください。
2番目のオプションは頻度による離散化で、これもユーザー指定の数のビンを使用します。このアルゴリズムは、(ほぼ)同じ数のデータポイントを含むビンを作成します。その結果、ビンは通常、不均一な範囲を持つことになります。例えば、データポイントが0から100の間の値を持つと仮定し、値の50%が0から10の間で、2つのクラスに頻度で離散化したいとします。この場合、0-10の範囲と10-100の範囲の2つのビンが得られます。どちらのビンにもデータポイントの50%が含まれます。