여기서는 데이터의 품질, 특히 각 데이터 열의 품질에 집중합니다. 가치가 적은 데이터 열(속성)을 버리는 것을 고려할 수 있습니다.
어떤 속성이 가치가 있고, 어떤 속성이 쓸모없는지 어떻게 알 수 있을까요? 중요한 점은 패턴을 찾는 것입니다. 데이터에 변동이 없고 식별할 수 있는 패턴이 없다면, 데이터는 유용하지 않을 가능성이 큽니다. 주의해야 할 사항에 대한 간략한 요약(자세한 내용은 아래에 포함)은 다음과 같습니다:
결정을 내리는 데 도움이 되도록, 속성 값에 색상으로 구분된 상태 버블(빨간색 / 노란색 / 초록색)을 표시합니다. 품질 표시줄(C / I / S / M / T)에서 자세한 정보를 확인할 수 있습니다. 일반적으로, 빨간색 상태 버블을 가진 속성은 선택 해제하는 것이 좋습니다. 머신러닝 모델에 대한 입력은 선택된 속성만 포함됩니다.

개별적으로 속성을 선택 해제하려면 해당 속성을 클릭하면 됩니다. 또는 화면 상단에서 Deselect Red 또는 Deselect Yellow 버튼을 클릭하여 여러 속성을 한 번에 선택 해제할 수 있습니다.
예를 들어, Titanic 데이터에서 몇 가지 열은 문제가 있어야 하며 삭제해야 합니다. "Name"과 "Ticket Number"는 각 승객마다 고유하며, 머신러닝은 이들로부터 아무것도 배울 수 없습니다. 이러한 속성은 ID-ness (I)가 높은 파란색 표시줄을 가지고 있으며, 결과적으로 빨간색 상태 버블이 표시됩니다. "Cabin" 정보는 대부분 누락(M)되어 있으며 (빨간색 표시줄), 이 또한 제거해야 합니다.
"Lifeboat"은 유일하게 노란색 상태 버블을 가진 속성입니다. 이는 "Survived"라는 타겟 속성과 매우 높은 상관(C)을 가지고 있습니다. 상관관계가 높은 것이 때때로 바람직하지만, 이 경우에는 문제가 될 수 있습니다. 머신러닝 모델은 사람이 생존한 이유가 구명 보트에 탔기 때문이라는 것을 금방 알게 되겠지만, 이미 알고 있는 사실입니다! "Lifeboat"과 "Survived"는 사실상 동의어이므로, "Lifeboat" 속성은 제거하고 모델이 생존 이유를 찾아내도록 하는 것이 좋습니다.
요약하자면, 빨간색 상태 버블을 가진 모든 속성은 데이터를 삭제해야 합니다. 이 경우 노란색 상태 버블을 가진 속성도 제거해야 합니다. 이를 수동으로 선택 해제하거나 Deselect Red 및 Deselect Yellow를 클릭하여 선택 해제할 수 있습니다. 그 후 Next를 클릭하세요.
"배경" 섹션에서는 기계 학습 및 Altair AI Studio에 관한 선택적인 추가 정보를 제공합니다.
색상 상태 버블은 데이터 열의 품질을 나타내는 지표를 제공합니다.
상태 버블의 색상은 다음 품질 측정값을 기준으로 하며, 각 속성과 함께 표시된 표시줄로 볼 수 있습니다:
일반적으로, 누락, 안정성 및 ID-ness 값이 낮은 속성을 선호해야 합니다. 일부 경우 텍스트 열을 유지할 수도 있습니다. 상관 관계가 높은 열은 일반적으로 선호되지만, 상관 관계가 직접적인 원인과 결과 관계로 발생한 경우에는 제외해야 합니다.