타겟 준비

회귀 문제를 해결하고 있습니다. 히스토그램은 값의 분포를 보여줍니다.

예측하려는 것이 맞고, 모든 것이 정상이라면 화면 하단의 Next 버튼을 클릭하세요.

분류 문제로 전환

정확한 수치 값 계산(예: 83.7도 화씨)보다는 값이 "차가운"지 "뜨거운"지를 알고 싶다면, 타겟 열의 수치 값을 범주형 값으로 변환할 수 있습니다.

Turn into Classification을 선택하면 회귀 문제를 분류 문제로 변환할 수 있습니다. 원하는 클래스의 수와 클래스 생성 방법을 지정할 수 있습니다: 각 클래스에 데이터 포인트가 동일한 수가 있도록 하거나, 동일한 크기의 수치 범위로 설정할 수 있습니다. 선택한 클래스 경계는 히스토그램에 표시됩니다.

클래스가 두 개뿐인 경우, 가장 관심이 있는 클래스를 선택할 수 있습니다. 이후 각 모델의 성능 지표(이후 결과와 함께 표시)는 이 클래스에 대한 구체적인 성능을 보여줍니다.

배경

"배경" 섹션에서는 기계 학습과 Altair AI Studio에 대한 선택적인 추가 정보를 제공합니다.

이산화

수치 값을 범주형 값으로 변환하는 과정을 "이산화"라고 부릅니다. 가장 자주 사용되는 두 가지 접근 방식은 아래에 설명되어 있습니다.

첫 번째 옵션은 "빈(Binning)"으로, 사용자가 지정한 수의 동일한 크기를 가진 빈을 생성합니다. 예를 들어, 데이터가 0에서 100까지의 값을 커버하고 10개의 빈을 생성하면, 각 빈은 0-10, 10-20, 20-30 등과 같은 범위를 가집니다. 각 빈의 데이터 포인트 수는 다를 수 있습니다.

두 번째 옵션은 "빈도에 의한 이산화(Discretize by Frequency)"로, 역시 사용자가 지정한 수의 빈을 생성합니다. 이 알고리즘은 대체로 동일한 수의 데이터 포인트가 포함된 빈을 생성합니다. 그 결과, 빈의 범위는 대개 불균등할 수 있습니다. 예를 들어, 데이터 포인트가 0에서 100 사이의 값을 가지며, 0에서 10 사이에 50%의 값이 있고, 2개의 클래스로 이산화하려고 한다고 가정해 보면, 0-10 범위와 10-100 범위를 가진 두 개의 빈이 생성됩니다. 각 빈에는 데이터 포인트의 50%가 포함됩니다.