데이터 변환
변환은 가장 기본적인 데이터 작업일 뿐만 아니라 가장 자주 사용되는 작업이기도 합니다.
머신 러닝을 위해 데이터를 정리하거나(정제), 여러 데이터 세트에 작업하거나(병합),
또는 데이터 구조를 변경하는(생성 및 피벗) 것이 아니라면 해당 작업은 변환 그룹에 속합니다.
변환에는 열 이름 바꾸기, 필터링, 유형 변환과 같은 중요한 작업이 포함됩니다.
소개 비디오
Turbo Prep의 작동 방식에 대한 아이디어를 얻으려면 아래의 짧은 소개 비디오를 시청하세요:
일반 정보
Turbo Prep의 모든 변환은 동일한 방식으로 작동합니다:
- 변환을 적용할 하나 또는 여러 열을 선택합니다,
- 왼쪽 목록에서 적용 가능한 변환 중 하나를 선택합니다,
- 필요한 경우 변환의 세부 사항을 정의합니다,
- 마지막으로 적용 버튼을 누르거나 Enter 키를 눌러 적용합니다.
결과가 마음에 들지 않으면 실행 취소를 눌러 마지막 단계를 되돌릴 수 있습니다. 또한 히스토리 표시를 클릭하여
모든 변경 사항을 확인하고 이전 상태로 롤백할 수 있습니다. 변환을 완료하고 결과에 만족하면 상단의 녹색 변환 확정
버튼을 눌러야 합니다. 변경 사항이 확인되고 메인 뷰로 돌아갑니다.
또는 취소를 눌러 변환 세션 중에 수행한 모든 변경 사항을 취소한 후 메인 뷰로 돌아갈 수 있습니다.
열 선택
- 열을 클릭하여 선택합니다.
- Ctrl 키를 누른 상태에서 클릭하여 여러 열을 선택합니다.
- Shift 키를 누른 상태에서 클릭하여 범위 내의 모든 열을 선택합니다.
- Alt 키를 누른 상태에서 클릭하여 동일한 유형의 모든 열을 선택합니다.
- Ctrl-A를 눌러 모든 열을 선택합니다.
- Ctrl 키를 누른 상태에서 클릭하여 열 선택을 취소합니다.
변환 세부 정보
다음 목록은 사용 가능한 변환과 주요 매개변수(있는 경우)에 대한 개요를 제공합니다:
- 이름 바꾸기: 열에 새 이름을 부여합니다. 파이프 기호("|")는 이름의 일부로 허용되지 않습니다.
각 이름은 데이터 세트 내에서 고유해야 하며 수학적 기호와 같은 특수 문자는 피하는 것이 좋습니다. 한 번에 하나의 열 이름만 바꿀 수 있습니다.
- 유형 변경: 열의 원래 유형에 따라 열의 유형을 새로운 유형으로 변환할 수 있습니다. 예를 들어 숫자를 범주로 바꾸거나 날짜에서 숫자 정보를 추출할 수 있습니다. 선택한 모든 열은 동일한 유형이어야 합니다.
- 제거: 선택한 모든 열을 데이터 세트에서 삭제합니다.
- 복사: 새 이름을 사용하여 선택한 열의 복사본을 만듭니다. 유효한 이름에 대한 자세한 내용은 이름 바꾸기에 대한 설명을 참조하세요.
- 필터: 지정된 필터 조건을 충족하는 행만 유지합니다. 모든 필터는 긍정적입니다. 즉, 유지하려는 행의 속성을 정의합니다. 필터 기능을 여러 번 적용하여 여러 필터를 결합할 수 있습니다(논리적 AND). 여러 기준 중 하나 이상이 충족되는 필터를 적용하려면 먼저 생성 그룹으로 소위 지표 열을 생성한 다음 이 열에 필터를 적용해야 합니다.
- 범위: 데이터 세트에서 지정된 행 범위만 유지합니다.
- 샘플: 데이터 세트에서 지정된 크기의 무작위 샘플만 유지합니다.
- 정렬: 이 열에 대해 오름차순 또는 내림차순으로 데이터 세트를 정렬합니다. 이 변환을 여러 열에 연속적으로 적용하여 여러 열을 기준으로 정렬할 수 있습니다.
- 대체: 선택한 열의 값(일부)을 지정된 대체 값으로 바꿉니다. 단순 대체를 수행하거나 원하는 경우 정규 표현식을 사용할 수 있습니다.
- 분할: 지정된 구분 문자를 기반으로 선택한 열의 값을 여러 부분으로 나눕니다. 정규 표현식을 사용하여 구분 문자를 정의할 수도 있습니다.
품질 측정
AI Studio는 일반적인 데이터 품질 문제를 한눈에 볼 수 있는 독특한 방법을 제공합니다. 이러한 문제는 아래에 지정된 색상으로 인코딩됩니다(예: 누락되거나 무한한 값은 빨간색). 다음은 이러한 품질 측정이 계산되는 방법과 의미에 대한 세부 정보입니다:
- 누락(빨간색): 이 열의 누락된 값 수를 행 수로 나눈 값입니다.
- 무한(빨간색): 이 열의 무한 값 수를 행 수로 나눈 값입니다.
- ID성(파란색): 이 열의 서로 다른 값 수를 행 수로 나눈 값입니다.
- 안정성(회색): 이 열에서 가장 빈번한 비누락 값의 개수를 행 수로 나눈 값입니다.
- 유효(녹색): 누락, 무한, ID 또는 안정적으로 계산되지 않는 이 열의 값 비율입니다.