Merging Data

2つ以上のデータセットを結合したい場合は、マージグループが提供するオペレータが必要です。開始するには、関連するすべてのデータセットをTurbo Prepにロードしたことを確認してください。

ビデオ:Turbo Prepでのマージ

Turbo Prepでのマージの仕組みについて理解を深めるために、以下の短い紹介ビデオをご覧ください。

Turbo Prep - マージ

一般情報

Turbo Prepでのすべてのマージオペレータは同じ方法で機能します。

  1. まず、現在のデータセットと結合したい2番目のデータセットを選択し、
  2. 次にマージのタイプを指定します(詳細については下記を参照)。
  3. タイプによっては、追加の設定を指定する必要がある場合があります。
  4. データは変更ごとに更新されるため、目的の結果が得られたか確認できます。

マージオペレータを定義し、結果に満足したら、上部にある緑色のマージを確定ボタンを押す必要があります。変更が確定され、メインビューに戻ります。あるいは、キャンセルを押して、マージセッション中に行ったすべての変更を破棄し、メインビューに戻ることもできます。

マージタイプ

2つのデータセットをマージする主要な機能は、結合と追加です。結合は、2つのデータセットをマージする特別な方法です。結合のタイプとデータセットのプロパティに応じて、結合されたデータは元のデータセットのいずれかと同じ行数を持つ場合もあれば、持たない場合もあります。いずれの場合も、両方のデータセットの列が新しいテーブルに結合されます。結合について詳しく知りたい場合は、以下の記事を参照してください。Wikipediaの結合.

2つのデータセットに応じて、以下のマージタイプが利用できる場合があります。

  1. Inner:{b}データセットに対して内部結合を実行します。キー列(下記参照)に両方のテーブルで一致する値を持つすべての行を含む新しいデータを作成します。
  2. Outer:{b}データセットに対して外部結合を実行します。キー列(下記参照)に最初のデータセットまたは2番目のデータセットのいずれかで一致する値を持つすべての行を含む新しいデータを作成します。
  3. Left:{b}データセットに対して左結合を実行します。最初のデータセットのすべての行と、キー列が一致する2番目のデータセットの情報(下記参照)を含む新しいデータを作成します。
  4. Right:{b}データセットに対して右結合を実行します。2番目のデータセットのすべての行と、キー列が一致する最初のデータセットの情報(下記参照)を含む新しいデータを作成します。
  5. Append:{b}両方のデータセットがまったく同じ列と列型を持つ場合にのみ利用可能です。2番目のデータセットの行は、単に最初のセットの行に追加されます。

重複列の削除

両方のデータセットの一部の列が同じ名前を持つ場合があります。それらが同じデータも含む場合、それらのうち1つだけを保持する必要があります。そのような場合は、重複列の削除を選択する必要があります。そうしないと、重複列は保持され、名前に追加でマークされます。

結合キー

AI Studioでは、結合を実行する場合、少なくとも1組の結合キーを指定する必要があります。これらの組は、2つのデータテーブルのそれぞれから1つの列で構成されます。2つのテーブルの行は、すべての結合キーの組に対して同じ値を持つ場合に結合されます。したがって、適切なキーの組を選択することは、望ましい結果を得るために非常に重要です。

データに結合キーとして使用できる列がない場合、各テーブルの行番号に基づいて新しいキー列を生成できます。 Use Row Numbers as Keys チェックボックスを選択するだけです。これは、両方のデータセットが同じ数の行を持ち、同じエンティティを表す場合に特に役立ちます。ただし、2つのテーブルで行数が異なる場合、結果は予測不能になるため、その場合は警告が表示されます。

行番号に基づいて新しいキーを生成しない場合、少なくとも1組の結合キーを指定する必要があります。元のデータセットの各キー列に対して、結合するデータの対応するキー列を選択する必要があります。結合キーの組のリストの上部にある Add Join Keys ボタンをクリックすると、追加の結合キーの組を追加できます。組の横にあるゴミ箱の記号をクリックすると、キーの組を削除できます。ただし、少なくとも1組の結合キーを残しておく必要があることに注意してください。

重要: {b} 結合キーの組は同じ列型である必要があります。

つまり、最初のキーが整数型の場合、2番目の列も整数型である必要があります。

マッチファクターとID-nessAI Studioは、結合キーの組の定義を簡素化するためのいくつかのインテリジェントなヘルパーメソッドを提供します。各組は2つの選択ボックスで表示されます。最初のボックスは現在のデータセットから列を選択し、最初に使用する必要があります。この最初の選択ボックスを開くと、各列名に青いバーが追加されていることがわかります。この青いバーは、AI Studioの他の場所でも見られるように、列のID-nessを表しています。一般に、ID-nessが高い列は結合キーとしてより頻繁に使用されるため、AI Studioはそのような列を選択ボックスの上部に表示します。

 

最初のデータセットの結合キー列を選択したら、結合したい2番目のデータセットの列の選択に進むことができます。最初のキー列と同じ列型を持つ列のみが選択可能であり、その他の列は表示されません。さらに、AI Studioは各列について2つの情報を示します。つまり、2つの列がどれだけ一致するか、および列のID-nessです。マッチファクターは各列名の前にパーセンテージで表示されます。ID-nessは、名前の下に青いバーで表示されます。

 

マッチファクターが100%ということは、両方の列が正確に同じ値、またはnumerical列や日付列の場合は同じ値分布を提供することを意味します。マッチファクターが0%ということは、列が値を共有しないか、値分布の一部を共有しないことを意味します。AI Studioは、マッチファクターが最も高い列を選択リストの上部にソートします。2つの値が同じマッチファクターを持つ場合、ID-nessが高い方が最初に表示されます。