데이터 정제

데이터 정제는 예측 모델링을 위해 데이터를 좋은 형태로 만드는 매우 중요한 단계입니다. 혼란스러운 정보만 제공한다면 고품질 모델을 기대할 수 없습니다. 기계 학습에서 일반적인 데이터 문제는 누락된 값, 표준화되지 않은 입력 열 또는 중복 등입니다. 이 작업 그룹은 이러한 모든 문제에 대한 해결책을 제공합니다. 또한 데이터를 더 나은 형태로 빠르게 만들 수 있는 방법을 제공합니다. 우리는 이것을 자동 정제라고 부릅니다.

비디오: Turbo Prep에서의 데이터 정제

아래의 짧은 소개 비디오를 시청하여 Turbo Prep에서 데이터 정제가 어떻게 작동하는지 알아보세요:

Turbo Prep - Data Cleansing

일반 정보

Turbo Prep의 모든 변환은 동일한 방식으로 작동합니다:

  1. 변환을 적용하려는 하나 또는 여러 열을 선택합니다,
  2. 왼쪽 목록에서 적용 가능한 변환 중 하나를 선택합니다,
  3. 필요한 경우 변환의 세부 사항을 정의합니다,
  4. 마지막으로 적용 버튼을 누르거나 Enter 키를 눌러 적용합니다.

결과가 마음에 들지 않으면 실행 취소를 눌러 마지막 단계를 되돌릴 수 있습니다. 또한 기록 표시를 클릭하여 모든 변경 사항을 확인하고 이전 상태로 롤백할 수 있습니다. 원하는 모든 변환을 수행하고 결과에 만족하면 상단의 녹색 정제 확정 버튼을 눌러야 합니다. 이렇게 하면 변경 사항이 확인되고 메인 뷰로 돌아갑니다. 하지만 현재 정제 세션에서 수행한 모든 변경 사항을 취소하려면 언제든지 취소를 누르면 데이터를 변경하지 않고 메인 뷰로 돌아갑니다.

자동 정제

원하는 데이터 정제 작업을 정확히 데이터에 적용할 수 있습니다. 하지만 때로는 일반적인 수정 사항을 자동으로 빠르게 적용하는 것이 더 간단합니다. 나중에 기계 학습으로 열 중 하나를 예측하고 싶은지 지정할 수 있습니다(있는 경우). 유형 변환 및 데이터 변환에 대한 몇 가지 간단한 선택을 한 후, 자동 정제는 다음 단계를 자동으로 수행합니다:

  1. 낮은 품질의 열 제거,
  2. 누락된 값 대체,
  3. 더미 인코딩(숫자가 필요한 경우),
  4. 이산화(명목형이 필요한 경우),
  5. PCA(숫자만, 선택 사항), 및
  6. 정규화(숫자만, 선택 사항).

열 선택

열을 클릭하여 선택할 수 있습니다. Ctrl 키를 누른 상태에서 추가 열을 클릭하여 여러 열을 동시에 선택할 수 있습니다. 열을 선택 해제하려면 Ctrl 키를 누른 상태에서 클릭합니다. 마지막으로 선택한 열부터 시작하여 열 범위를 선택하려면 Shift 키를 누른 상태에서 원하는 범위의 마지막 열을 클릭합니다. 동일한 유형의 모든 열을 선택하려면 Alt 키를 누른 상태에서 열을 클릭하면 됩니다. 해당 열과 동일한 유형의 다른 모든 열이 선택됩니다. 마지막으로, CtrlA 키를 눌러 모든 열을 선택할 수 있습니다.

정제 작업의 세부 사항

다음 목록은 사용 가능한 정제 작업과 주요 매개변수의 의미(있는 경우)에 대한 개요를 제공합니다:

품질 측정

AI Studio는 일반적인 데이터 품질 문제를 한눈에 볼 수 있는 독특한 방법을 제공합니다. 이러한 문제는 아래에 지정된 색상으로 인코딩됩니다(예: 누락되거나 무한한 값은 빨간색). 다음은 이러한 품질 측정이 계산되는 방법과 그 의미에 대한 세부 정보입니다: