Cleansing Data
データクレンジングは、予測モデリングのためにデータを適切な形にするための非常に重要な段階です。混乱した情報しか提供されない場合、高品質のモデルを期待することはできません。機械学習における典型的なデータの問題としては、欠損値、非標準化された入力列、または重複が挙げられます。このオペレータのグループは、これらの問題すべてに対し、さらに多くの解決策を提供します。また、データをより良い状態にするための迅速な方法も提供します。私たちはこれを自動クレンジングと呼んでいます。
ビデオ:Turbo Prepでのデータクレンジング
Turbo Prepでデータクレンジングがどのように機能するかについて理解を深めるために、以下の短い紹介ビデオをご覧ください。
一般情報
Turbo Prepにおける全ての変換は同じ方法で機能します。
- 変換を適用したい1つまたは複数の列を選択し、
- 左のリストから適用可能な変換の1つを選択し、
- 必要に応じて変換の詳細を定義し、
- 最後に適用ボタンを押すか、Enterキーを押して適用します。
結果が気に入らない場合、元に戻すを押して最後のステップを元に戻すことができます。履歴を表示をクリックして、全ての変更を確認し、以前の状態に戻すこともできます。全ての望ましい変換を完了し、結果に満足したら、上部の緑色のクレンジングを確定ボタンを押す必要があります。これにより、それらの変更が確定され、メインビューに戻ります。しかし、現在のクレンジングセッションで行った全ての変更を破棄したい場合は、いつでもキャンセルを押すことができ、データに何も変更を加えることなく再びメインビューに戻ります。
自動クレンジング
データに適用したいデータクレンジングオペレータを正確に適用できます。しかし、時には、いくつかの一般的な修正を自動的に素早く適用する方が簡単な場合もあります。その後機械で列のいずれかを予測したいかどうかを指定できます(もしあれば)。タイプ変換とデータ変換に関するいくつかの簡単な選択を行った後、自動クレンジングは以下のステップを自動的に実行します。
- 低品質の列を削除、
- 欠損値を置換、
- ダミーエンコーディング(数値が望ましい場合)、
- 離散化(nominalが望ましい場合)、
- PCA(numericalのみ、オプション)、および
- 正規化(numericalのみ、オプション)。
列の選択
列をクリックして選択できます。追加の列をクリックしながらCtrlキーを押すと、複数の列を同時に選択できます。列の選択を解除したい場合、Ctrlキーも押します。最後に選択した列から始まる列の範囲を選択したい場合、目的の範囲の最後の列をクリックしながらShiftキーを押します。同じタイプの全ての列を選択したい場合、列をクリックしながらAltキーを押すだけです。列自体と、同じタイプの他の全ての列が選択されます。最後に、全ての列を選択するには、CtrlキーとAキーを押すだけです。
クレンジングオペレータの詳細
以下のリストは、利用可能なクレンジングオペレータと、その主なパラメータ(もしあれば)の意味の概要を示します。
- 自動クレンジング:データを自動的にクリーンアップし、機械学習のために準備します。詳細については上記を参照してください。
- 低品質の削除:特定の品質閾値(例:欠損値が多すぎる、IDのように振る舞うなど)を満たさない全ての列を削除します。品質測定に関する詳細は下記を参照してください。
- 相関の高い列の削除:データセット内の他の列と高い相関を持つ全ての列を削除します。高い相関のグループ内では常に1つの列を保持します。
- 欠損値の置換:欠損値を置換します。numerical列の欠損値は、多くの場合、その列の平均値または0で置換されます。categorical列の欠損値は、多くの場合、最も頻繁な値(「モード」と呼ばれる)または特別な値(例:単語「MISSING」)で置換されます。
- 正規化:選択された全てのnumerical列がおおよそ同じスケールになるようにします。
- 離散化:numerical列をcategorical列に変換します。値は、各カテゴリがおおよそ同じ範囲を持つように、またはおおよそ同じ数のアイテムを持つように、指定された数のカテゴリに分類できます。
- ダミーエンコーディング:元の列の可能な値ごとに新しい列を作成することで、categorical列をnumerical列に変換します。元の値を持つ列は1になり、それ以外は0になります。
- PCA:主成分分析は、データの分散を保持しながら、元のnumerical列の線形結合である少数のnumerical列を作成することで、numerical列の数を削減する一般的な方法です。
- 重複行の削除:選択された列のセットについて、2つの行が同じ値の組み合わせを持たないようにします。
品質測定
AI Studioは、典型的なデータ品質の問題を一目で確認できる独自の機能を提供します。それらは下記に指定された色でエンコードされます。例:欠損値や無限値は赤です。これらの品質測定値がどのように計算され、何を意味するかの詳細は以下の通りです。
- Missing(赤):この列の欠損値の数を行数で割ったものです。
- Infinite(赤):この列の無限値の数を行数で割ったものです。
- ID-ness(青):この列の異なる値の数を行数で割ったものです。
- Stability(灰色):この列の最も頻繁な非欠損値のカウントを行数で割ったものです。
- Valid(緑):この列の値のうち、欠損、無限、ID、または安定としてカウントされない値の割合です。