조인 키

조인은 두 데이터 세트를 병합하는 특별한 형태입니다. 조인 유형과 데이터 세트의 특성에 따라, 결합된 데이터는 원본 데이터 세트 중 하나와 동일한 행 수를 가질 수도 있고, 두 데이터 세트 간의 여러 행 조합이 생성되어 일반적으로 다른 행 수로 이어질 수도 있습니다. 어떤 경우든, 두 데이터 세트의 열은 새 테이블로 결합됩니다. 조인에 대해 더 자세히 알고 싶다면 다음 글을 참조하세요: 위키피디아의 조인.

AI Studio에서는 최소한 하나의 조인 키 쌍을 지정해야 합니다. 이 쌍은 두 데이터 테이블에서 각각 하나의 열로 구성됩니다. 두 테이블의 행은 지정된 모든 조인 키 쌍에 대해 동일한 값을 제공하는 경우 서로 결합됩니다. 따라서 적절한 키 쌍을 선택하는 것은 원하는 결과를 얻기 위해 매우 중요합니다.

데이터에 조인 키로 사용할 수 있는 열이 없는 경우, 각 테이블의 행 번호를 기반으로 새 키 열을 생성할 수 있습니다. 이는 특히 두 데이터 세트가 각각 동일한 엔티티를 나타내는 동일한 행 수를 가질 때 유용합니다. 그러나 두 테이블의 행 수가 다른 경우 결과가 예측 불가능한 경우가 많아 이 경우 경고가 표시됩니다.

행 번호를 기반으로 새 키를 생성하지 않는 경우, 최소한 하나의 조인 키 쌍을 지정해야 합니다. 원본 데이터 세트의 각 키 열에 대해 병합할 데이터의 해당 키 열을 선택해야 합니다. 조인 키 쌍 목록 상단에 있는 조인 키 추가 버튼을 클릭하여 추가 조인 키 쌍을 추가할 수 있습니다. 쌍 옆에 있는 휴지통 기호를 클릭하여 키 쌍을 제거할 수 있습니다. 단, 최소한 하나의 조인 키 쌍은 남겨두어야 합니다.

중요: 조인 키 쌍은 동일한 열 유형을 가져야 합니다. 즉, 첫 번째 키가 정수 유형이면, 두 번째 열도 정수 유형이어야 합니다.

일치 요소와 ID성

AI Studio는 조인 키 쌍 정의를 단순화하기 위한 지능적인 도우미 방법을 제공합니다. 각 쌍은 두 개의 선택 상자와 함께 표시됩니다. 첫 번째 상자는 현재 데이터 세트에서 열을 선택하며 먼저 사용해야 합니다. 이 첫 번째 선택 상자를 열면 각 열 이름에 파란색 막대가 추가된 것을 볼 수 있습니다. 이 파란색 막대는 AI Studio의 다른 곳에서도 볼 수 있는 열의 ID성을 나타냅니다. 일반적으로, ID성이 높은 열이 조인 키로 더 자주 사용되므로 AI Studio는 이러한 열을 선택 상자 상단에 표시합니다:

 

첫 번째 데이터 세트의 조인 키 열을 선택한 후, 병합하려는 두 번째 데이터 세트의 열을 선택할 수 있습니다. 첫 번째 키 열과 동일한 열 유형을 가진 열만 선택할 수 있으므로 다른 열은 표시되지 않습니다. 또한, AI Studio는 각 열에 대해 두 가지 정보를 보여줍니다: 두 열이 얼마나 잘 일치하는지와 열의 ID성입니다. 일치 요소는 각 열 이름 앞에 백분율로 표시됩니다. ID성은 다시 이름 아래에 파란색 막대로 표시됩니다:

 

100%의 일치 요소는 두 열이 정확히 동일한 값을 제공하거나 수치 또는 날짜 열의 경우 동일한 값 분포를 제공함을 의미합니다. 0%의 일치 요소는 열이 값이나 값 분포의 일부를 공유하지 않음을 의미합니다. AI Studio는 일치 요소가 가장 높은 열을 선택 목록 상단에 정렬합니다. 두 값의 일치 요소가 동일한 경우, ID성이 높은 것이 먼저 표시됩니다.