Generating New Columns

既存の列に基づいて新しい列を生成したい場合は、「生成」グループがその場所です。新しい列を生成することは、特徴量エンジニアリングの一部として役立つ場合があります。これは、複数の列間の相互作用を表現する良い方法であり、機械学習モデルが潜在的なパターンを見つけるのに役立ちます。たとえば、2つの列の値を乗算したり、if文を含む複雑な数式を生成したりできます。後者は、いわゆるインジケータ列を生成するのにも役立ちます。これは、後で複雑な条件を満たさない行をフィルタリングするために使用できます。

以下のテキストでは、すべての生成関数を詳細に説明しています。画面の最後には、データの操作方法を示す5分間のビデオもあります。

一般情報

Turbo Prepで新しい列を生成する方法は常に同じです。

  1. 新しい列の名前を定義します(既存の名前は使用できず、特殊文字は避けるべきです)。
  2. 新しい列の数式を定義します。左から列を、右から関数をドラッグするか、単に入力します。
  3. 数式が構文的に正しい場合、下部でプレビューを更新する必要があります。

指定した数式がデータで本当に機能することを確認するために、プレビューを計算する必要があります。機能する場合、計算された列が使用された列とともに下部に表示されます。そうでない場合はエラーが表示されます。

プレビューを作成し、結果に満足したら、上部にある緑色の生成を確定ボタンを押す必要があります。変更が確定され、メインビューに戻ります。あるいは、キャンセルを押して、生成セッション中に行ったすべての変更を破棄し、メインビューに戻ることもできます。最初からやり直して現在の名前と数式を削除したい場合は、すべてクリアを押すこともできます。

列の追加

画面の左側には、利用可能なすべての列のリストがあります。各列は、その名前と列の型とともに表示されます。上部のボタンを押すとリストをアルファベット順にソートできます。それ以外の場合、列はテーブル内の順序で表示されます。リストの上部に検索テキストを入力して、列のリストをフィルタリングすることもできます。

数式に列を追加するには、左側のリストから列をドラッグして、数式フィールドにドロップするだけです。既存のテキストの上にカーソルをドラッグすることで、ドロップの正確な場所を指定できます。カーソル記号は、列名が数式内のどこにドロップされるかを正確に示します。

重要:列名は常に括弧「[」と「]」で囲む必要があります。これにより、列名内の空白や記号が数式の一部である記号と混同されることを防ぎます。

関数と定数の追加

画面の右側には、利用可能なすべての関数と定数のリストがあります。列と同様に、リストの上部に検索テキストを入力して関数を検索できます。関数をクリックすると関数の詳細情報が表示され、定数も同様です。関数または定数をダブルクリックすると、数式領域の現在のカーソル位置に追加されます。あるいは、カーソルを使用して、目的の位置にドラッグ&ドロップすることもできます。

数式のコンテキストメニュー

数式ウィンドウ内で右クリックし、コンテキストメニューから目的の要素を選択して、列、関数、または定数を追加することもできます。要素はカーソルの位置に追加されます。

紹介ビデオ

Turbo Prepがどのように機能するかを理解するために、以下の短い紹介ビデオをご覧ください。

Turbo Prep - はじめに