Transforming Data
変換は最も基本的なデータオペレーションであるだけでなく、最も頻繁に使用されるオペレーションでもあります。アクションが変換グループに分類されるのは、機械学習のためにデータをクリーンアップせず(Cleansing)、複数のデータセットでオペレートせず(Merge)、またはデータを構造的に変更しない(GenerateおよびPivot)場合です。変換には、列の名前変更、フィルタリング、型変換などの重要なオペレーションが含まれます。
Introduction Video
Turbo Prepがどのように機能するかを理解するために、以下の短い紹介ビデオをご覧ください。
General Information
Turbo Prepのすべての変換は同じ方法で機能します。
- 変換を適用したい1つまたは複数の列を選択し、
- 左のリストから適用可能な変換の1つを選択し、
- 必要に応じて変換の詳細を定義し、
- 最後にApplyボタンを押すか、Enterキーを押して適用します。
結果が気に入らない場合は、Undoを押して最後のステップを元に戻すことができます。また、Show Historyをクリックして、すべての変更を確認し、以前の状態に戻すこともできます。変換を行い、結果に満足したら、上部の緑色のCommit Transformationボタンを押す必要があります。変更が確定され、メインビューに戻ります。または、Cancelを押して、変換セッション中に行ったすべての変更を破棄し、メインビューに戻ることもできます。
Selecting Columns
- 列をクリックして選択します。
- Ctrlキーを押しながらクリックすると、複数の列を選択できます。
- Shiftキーを押しながらクリックすると、範囲内のすべての列を選択できます。
- Altキーを押しながらクリックすると、同じタイプのすべての列を選択できます。
- Ctrl-Aを押すと、すべての列を選択できます。
- Ctrlキーを押しながらクリックすると、列の選択を解除できます。
Details of Transformations
以下のリストは、利用可能な変換とその主なパラメータ(もしあれば)の概要を示します。
- Rename:列に新しい名前を付けます。パイプ記号("|")は名前の一部として許可されません。各名前はデータセット内で一意である必要があり、数学記号などの特殊文字は避けるようにしてください。一度に1つの列の名前を変更できます。
- Change Type:列の元のタイプに応じて、列のタイプを新しいタイプに変換できます。例えば、numerical値をcategoryに変換したり、日付からnumerical情報を抽出したりできます。選択されたすべての列は同じタイプである必要があります。
- Remove:選択されたすべての列をデータセットから削除します。
- Copy: 選択された列のコピーを新しい名前で作成します。有効な名前の詳細については、Renameのコメントを参照してください。
- Filter:指定されたフィルター条件を満たす行のみを保持します。すべてのフィルターは肯定的です。つまり、保持したい行のプロパティを定義します。Filter関数を複数回適用することで、複数のフィルターを組み合わせることができます(論理AND)。複数の条件のうち1つ以上が満たされるフィルターを適用したい場合は、まずGenerateグループでいわゆるインジケーター列を生成し、その列でフィルタリングする必要があります。
- Range:データセット内の指定された行範囲のみを保持します。
- Sample:データセット内の指定されたサイズのランダムサンプルのみを保持します。
- Sort:この列について、データセットを昇順または降順にソートします。これらの列に対してこの変換を連続して複数回適用することで、複数の列に関してソートできます。
- Replace:選択された列の値を指定された置換で置き換えます(部分的に)。単純な置換を実行することも、必要に応じて正規表現を使用することもできます。
- Split:選択された列の値を、指定された区切り文字に基づいて複数の部分に分割します。区切り文字を定義するために、正規表現を使用することもできます。
Quality Measures
AI Studioは、一般的なデータ品質の問題を一目で確認できるユニークな方法を提供します。それらは以下で指定された色でエンコードされており、例えば欠損値や無限値は赤で表示されます。これらの品質測定がどのように計算され、何を意味するかの詳細は以下の通りです。
- Missing (red):この列の欠損値の数を行数で割ったものです。
- Infinite (red):この列の無限値の数を行数で割ったものです。
- ID-ness (blue):この列の異なる値の数を行数で割ったものです。
- Stability (gray):この列の最も頻繁な非欠損値の数を行数で割ったものです。
- Valid (green):この列の値のうち、missing、infinite、ID、またはstableとしてカウントされない値の割合。