結合は、2つのデータセットをマージする特殊な形式です。結合のタイプとデータセットのプロパティに応じて、結合されたデータは元のデータセットのいずれかと同じ行数を持つ場合もあれば、2つのデータセット間で複数の行の組み合わせが生成され、通常は異なる行数になる場合もあります。いずれの場合も、両方のデータセットの列が新しいテーブルに結合されます。結合について詳しく知りたい場合は、こちらの記事を参照してください。Wikipediaの結合
AI Studioでは、少なくとも1組の結合キーを指定する必要があります。これらの組は、2つのデータテーブルのそれぞれから1つの列で構成されます。2つのテーブルの行は、指定されたすべての結合キーの組に対して同じ値を提供する場合に互いに結合されます。したがって、適切なキーの組を選択することは、望ましい結果を得るために非常に重要です。
データに結合キーとして使用できる列がない場合、各テーブルの行番号に基づいて新しいキー列を生成できます。これは、両方のデータセットが同じ数の行を持ち、それぞれ同じエンティティを表す場合に特に役立ちます。ただし、両方のテーブルで行数が異なる場合、結果は予測不能になることが多いため、この場合は警告が表示されます。
行番号に基づいて新しいキーを生成しない場合、少なくとも1組の結合キーを指定する必要があります。元のデータセットの各キー列に対して、結合するデータの対応するキー列を選択する必要があります。結合キーの組のリストの上部にある結合キーの追加ボタンをクリックすると、追加の結合キーの組を追加できます。組の横にあるゴミ箱の記号をクリックすると、キーの組を削除できます。ただし、少なくとも1組の結合キーを残しておく必要があることに注意してください。
重要: 結合キーの組は同じ列型である必要があります。つまり、最初のキーが整数型の場合、2番目の列も整数型である必要があります。
AI Studioは、結合キーの組の定義を簡素化するためのいくつかのインテリジェントなヘルパーメソッドを提供します。各組は2つの選択ボックスで表示されます。最初のボックスは現在のデータセットから列を選択し、最初に使用する必要があります。この最初の選択ボックスを開くと、各列名に青いバーが追加されていることがわかります。この青いバーは、AI Studioの他の場所でも見られるように、列のID-nessを表しています。一般に、ID-nessが高い列は結合キーとしてより頻繁に使用されるため、AI Studioはそのような列を選択ボックスの上部に表示します。

最初のデータセットの結合キー列を選択したら、結合したい2番目のデータセットの列の選択に進むことができます。この時点では、最初のキー列と同じ列型を持つ列のみが選択可能であり、その他の列は表示されません。さらに、AI Studioは各列について2つの情報を示します。つまり、2つの列がどれだけ一致するか、および列のID-nessです。マッチファクターは各列名の前にパーセンテージで表示されます。ID-nessは、名前の下に青いバーで表示されます。

マッチファクターが100%ということは、両方の列が正確に同じ値、またはnumerical列や日付列の場合は同じ値分布を提供することを意味します。マッチファクターが0%ということは、列が値を共有しないか、値分布の一部を共有しないことを意味します。AI Studioは、マッチファクターが最も高い列を選択リストの上部にソートします。2つの値が同じマッチファクターを持つ場合、ID-nessが高い方が最初に表示されます。