두 개 이상의 데이터 세트를 결합하려면 병합 그룹에서 제공하는 작업이 필요합니다. 시작하려면 관련된 모든 데이터 세트를 Turbo Prep에 로드했는지 확인하세요.
Turbo Prep에서 병합이 어떻게 작동하는지 알아보려면 아래의 짧은 소개 비디오를 시청하세요:
Turbo Prep의 모든 병합 작업은 동일한 방식으로 작동합니다:
병합 작업을 정의하고 결과에 만족하면 상단의 녹색 병합 확정 버튼을 눌러야 합니다. 변경 사항이 확인되고 메인 뷰로 돌아갑니다. 또는 취소를 눌러 병합 세션 중에 수행한 모든 변경 사항을 취소할 수 있으며, 그 후 메인 뷰로 돌아갑니다.
두 데이터 세트를 병합하는 주요 기능은 조인과 추가입니다. 조인은 두 데이터 세트를 병합하는 특별한 방법입니다. 조인 유형과 데이터 세트의 특성에 따라, 결합된 데이터는 원본 데이터 세트 중 하나와 동일한 행 수를 가질 수도 있고 그렇지 않을 수도 있습니다. 어떤 경우든, 두 데이터 세트의 열은 새 테이블로 결합됩니다. 조인에 대해 더 자세히 알고 싶다면 다음 글을 참조하세요: 위키피디아의 조인.
두 데이터 세트에 따라 다음과 같은 병합 유형을 사용할 수 있습니다:
때로는 두 데이터 세트의 일부 열이 동일한 이름을 가질 수 있습니다. 또한 동일한 데이터를 포함하는 경우, 그 중 하나만 유지하면 됩니다. 이러한 경우 중복 열 제거를 선택해야 합니다. 그렇지 않으면 중복 열이 유지되고 이름에 추가 표시가 됩니다.
AI Studio에서 조인을 수행하려면 최소한 하나의 조인 키 쌍을 지정해야 합니다. 이 쌍은 두 데이터 테이블에서 각각 하나의 열로 구성됩니다. 두 테이블의 행은 모든 조인 키 쌍에 대해 동일한 값을 가지는 경우 결합됩니다. 따라서 적절한 키 쌍을 선택하는 것은 원하는 결과를 얻기 위해 매우 중요합니다.
데이터에 조인 키로 사용할 수 있는 열이 없는 경우, 각 테이블의 행 번호를 기반으로 새 키 열을 생성할 수 있습니다. 행 번호를 키로 사용 체크박스를 선택하기만 하면 됩니다. 이는 특히 두 데이터 세트가 동일한 엔티티를 나타내는 동일한 행 수를 가질 때 유용합니다. 그러나 두 테이블의 행 수가 다른 경우 결과가 예측 불가능하며, 이 경우 경고가 표시됩니다.
행 번호를 기반으로 새 키를 생성하지 않는 경우, 최소한 하나의 조인 키 쌍을 지정해야 합니다. 원본 데이터 세트의 각 키 열에 대해 병합할 데이터의 해당 키 열을 선택해야 합니다. 조인 키 쌍 목록 상단에 있는 조인 키 추가 버튼을 클릭하여 추가 조인 키 쌍을 추가할 수 있습니다. 쌍 옆에 있는 휴지통 기호를 클릭하여 키 쌍을 제거할 수 있습니다. 단, 최소한 하나의 조인 키 쌍은 남겨두어야 합니다.
중요: 조인 키 쌍은 동일한 열 유형을 가져야 합니다. 즉, 첫 번째 키가 정수 유형이면, 두 번째 열도 정수 유형이어야 합니다.
AI Studio는 조인 키 쌍 정의를 단순화하기 위한 지능적인 도우미 방법을 제공합니다. 각 쌍은 두 개의 선택 상자와 함께 표시됩니다. 첫 번째 상자는 현재 데이터 세트에서 열을 선택하며 먼저 사용해야 합니다. 이 첫 번째 선택 상자를 열면 각 열 이름에 파란색 막대가 추가된 것을 볼 수 있습니다. 이 파란색 막대는 AI Studio의 다른 곳에서도 볼 수 있는 열의 ID성을 나타냅니다. 일반적으로, ID성이 높은 열이 조인 키로 더 자주 사용되므로 AI Studio는 이러한 열을 선택 상자 상단에 표시합니다:

첫 번째 데이터 세트의 조인 키 열을 선택한 후, 병합하려는 두 번째 데이터 세트의 열을 선택할 수 있습니다. 첫 번째 키 열과 동일한 열 유형을 가진 열만 선택할 수 있으므로 다른 열은 표시되지 않습니다. 또한, AI Studio는 각 열에 대해 두 가지 정보를 보여줍니다: 두 열이 얼마나 잘 일치하는지와 열의 ID성입니다. 일치 요소는 각 열 이름 앞에 백분율로 표시됩니다. ID성은 다시 이름 아래에 파란색 막대로 표시됩니다:

100%의 일치 요소는 두 열이 정확히 동일한 값을 제공하거나 숫자 또는 날짜 열의 경우 동일한 값 분포를 제공함을 의미합니다. 0%의 일치 요소는 열이 값이나 값 분포의 일부를 공유하지 않음을 의미합니다. AI Studio는 일치 요소가 가장 높은 열을 선택 목록의 맨 위에 정렬합니다. 두 값의 일치 요소가 동일한 경우, ID성이 높은 열이 먼저 표시됩니다.