Cleansing Data

データクレンジングは、予測モデリングのためにデータを適切な形にするための非常に重要な段階です。混乱した情報しか提供されない場合、高品質のモデルを期待することはできません。機械学習における典型的なデータの問題としては、欠損値、非標準化された入力列、または重複が挙げられます。このオペレータのグループは、これらの問題すべてに対し、さらに多くの解決策を提供します。また、データをより良い状態にするための迅速な方法も提供します。私たちはこれを自動クレンジングと呼んでいます。

ビデオ:Turbo Prepでのデータクレンジング

Turbo Prepでデータクレンジングがどのように機能するかについて理解を深めるために、以下の短い紹介ビデオをご覧ください。

Turbo Prep - データクレンジング

一般情報

Turbo Prepにおける全ての変換は同じ方法で機能します。

  1. 変換を適用したい1つまたは複数の列を選択し、
  2. 左のリストから適用可能な変換の1つを選択し、
  3. 必要に応じて変換の詳細を定義し、
  4. 最後に適用ボタンを押すか、Enterキーを押して適用します。

結果が気に入らない場合、元に戻すを押して最後のステップを元に戻すことができます。履歴を表示をクリックして、全ての変更を確認し、以前の状態に戻すこともできます。全ての望ましい変換を完了し、結果に満足したら、上部の緑色のクレンジングを確定ボタンを押す必要があります。これにより、それらの変更が確定され、メインビューに戻ります。しかし、現在のクレンジングセッションで行った全ての変更を破棄したい場合は、いつでもキャンセルを押すことができ、データに何も変更を加えることなく再びメインビューに戻ります。

自動クレンジング

データに適用したいデータクレンジングオペレータを正確に適用できます。しかし、時には、いくつかの一般的な修正を自動的に素早く適用する方が簡単な場合もあります。その後機械で列のいずれかを予測したいかどうかを指定できます(もしあれば)。タイプ変換とデータ変換に関するいくつかの簡単な選択を行った後、自動クレンジングは以下のステップを自動的に実行します。

  1. 低品質の列を削除、
  2. 欠損値を置換、
  3. ダミーエンコーディング(数値が望ましい場合)、
  4. 離散化(nominalが望ましい場合)、
  5. PCA(numericalのみ、オプション)、および
  6. 正規化(numericalのみ、オプション)。

列の選択

列をクリックして選択できます。追加の列をクリックしながらCtrlキーを押すと、複数の列を同時に選択できます。列の選択を解除したい場合、Ctrlキーも押します。最後に選択した列から始まる列の範囲を選択したい場合、目的の範囲の最後の列をクリックしながらShiftキーを押します。同じタイプの全ての列を選択したい場合、列をクリックしながらAltキーを押すだけです。列自体と、同じタイプの他の全ての列が選択されます。最後に、全ての列を選択するには、CtrlキーとAキーを押すだけです。

クレンジングオペレータの詳細

以下のリストは、利用可能なクレンジングオペレータと、その主なパラメータ(もしあれば)の意味の概要を示します。

品質測定

AI Studioは、典型的なデータ品質の問題を一目で確認できる独自の機能を提供します。それらは下記に指定された色でエンコードされます。例:欠損値や無限値は赤です。これらの品質測定値がどのように計算され、何を意味するかの詳細は以下の通りです。