결과: 분류
Auto Model의 마지막 단계로, 생성된 모델과 다른 결과들을 확인할 수 있습니다.
출력은 데이터와 선택한 설정에 따라 달라집니다. 예를 들어, 상관 관계 계산이나 결정 트리 계산을 비활성화하면 해당 결과는 표시되지 않습니다.
또한, 다른 결과들은 특정 유형의 문제에 대해서만 표시될 수 있습니다. 예를 들어, Lift Chart는 두 클래스 문제에서만 사용할 수 있습니다.
결과는 백그라운드에서 계산됩니다. 하지만 계산이 완료된 결과부터 즉시 확인할 수 있습니다.
하단의 Stop 버튼을 눌러 백그라운드 실행을 중단할 수 있습니다.
실행을 중단할 때까지 완료되지 않은 계산은 결과로 제공되지 않습니다.
실행이 완료되거나 중단된 후에는 다시 돌아가 변경할 수 있습니다.
Altair RapidMiner는 블랙박스 접근을 지양합니다.
따라서 언제든지 모델과 관련된 결과를 생성한 프로세스를 열어볼 수 있습니다.
결과를 클릭한 다음 화면 상단의 Open Process를 클릭하면,
모든 필요한 데이터 전처리 및 모델 최적화를 수행한 프로세스를 볼 수 있습니다.
이 프로세스를 사용하여 모델을 배포하거나 추가 최적화의 출발점으로 삼을 수 있습니다.
이제 아래에서 가능한 결과들을 자세히 살펴보겠습니다.
비교
모델을 두 개 이상 선택한 경우, 이 섹션에서는 빠른 비교를 제공합니다.
- 개요: 모델의 정확도와 실행 시간을 보여줍니다.
- ROC 비교: 모든 모델의 ROC 곡선을 하나의 차트에 함께 표시합니다.
곡선이 왼쪽 위 모서리에 가까울수록 더 좋은 모델입니다. 이 차트는 이진 분류 문제에서만 표시됩니다.
모델
결과 메뉴의 다른 모든 섹션은 모델에 관한 내용입니다.
각 모델은 고유의 섹션을 가지며 일반적으로 아래 항목들을 제공합니다.
- 모델: 가능한 경우 모델의 시각화를 보여줍니다.
- 가중치: 특정 모델의 예측에 가장 큰 영향을 미치는 열을 보여줍니다.
가중치는 이전 화면에서 '예측 설명' 옵션을 선택한 경우에만 표시됩니다.
- 시뮬레이터: 모델에 대한 입력값을 실시간으로 쉽게 변경하고 출력을 확인할 수 있는 인터페이스를 제공합니다.
입력값에 대한 예측, 신뢰도, 설명을 보여줍니다.
- 성능: 분류 문제 유형에 따라 모델의 예측 정확도 및 기타 성능 기준을 나열합니다.
성능은 전체 데이터의 40%인 홀드아웃 세트에서 계산되며, 이 세트는 모델 최적화에 사용되지 않았습니다.
이 홀드아웃 세트는 7개의 분리된 하위 세트로 나뉘며, 그중 가장 낮은 성능과 가장 높은 성능을 제외한
나머지 5개의 평균 성능이 보고됩니다.
이 검증 방식은 전체 교차 검증만큼 철저하지는 않지만, 실행 시간과 검증 품질 사이의 균형을 이룹니다.
- 리프트 차트: 모델을 사용했을 때 얻은 결과와 모델 없이 얻은 결과의 비율을 계산하여
모델의 효과를 보여줍니다. 이진 분류 문제에서만 생성됩니다.
- 최적 파라미터: 다양한 파라미터 설정에 따른 모델 성능을 보여줍니다.
자동으로 최적화된 모델에 대해서만 생성됩니다.
- 특성 집합: 특성 엔지니어링이 활성화된 경우에만 표시됩니다.
특성 집합의 복잡성과 모델 정확도 간의 최적 절충점을 보여줍니다.
절충 플롯에서 임의의 점을 선택하면, 하단에서 해당 특성 집합을 확인할 수 있습니다.
- 예측: 대상 컬럼 값이 누락된 각 행과 40% 홀드아웃 세트에 대해 예측과 해당 예측의 설명을 제공합니다.
설명은 이전 화면에서 “예측 설명” 매개변수가 선택된 경우에만 표시됩니다.
일반
이 섹션은 모델과 무관한 일반 정보를 보여줍니다.
- 데이터: 모델링을 위해 변환된 데이터 세트입니다.
이는 모든 모델링 방법 및 자동 특성 엔지니어링의 입력 데이터입니다.
모델은 이 데이터의 일부만 사용하거나 추가 열을 생성할 수 있습니다.
- 텍스트: 텍스트 데이터에서 특성을 추출하는 기능이 활성화된 경우에만 표시됩니다.
분석에 사용된 텍스트 열의 단어들을 표와 워드 클라우드 형식으로 보여줍니다.
또한 이러한 단어들이 강조된 학습 및 예측 문서를 확인할 수 있습니다.
감정 분석 또는 언어 계산 기능이 활성화된 경우,
해당 텍스트 열 전체에 대한 값 분포도 확인할 수 있습니다.
- 상관 기반 가중치: 모델링 알고리즘 및 특성 엔지니어링과 무관하게,
원본 입력 열 각각이 목표 열 값에 대해 가지는 전반적인 중요도를 나타냅니다.
이 가중치는 열들과 목표 열 사이의 상관관계를 기반으로 계산됩니다.
반면, 모델별 가중치는 특정 모델의 예측에 일반적으로 가장 큰 영향을 미치는 열들을 보여줍니다.
- 상관관계: 열 간의 상관관계를 보여주는 행렬입니다.
처음이신가요?
지금까지 타이타닉 데이터 세트를 따라오셨다면 위에서 설명한 대부분의 결과를 얻을 수 있습니다.
비교 섹션에서 개요를 살펴보면 Gradient Boosted Trees가 가장 정확한 예측을 했지만
모델 생성에 시간이 오래 걸렸다는 것을 확인할 수 있습니다.
Deep Learning 모델도 거의 비슷한 정확도를 보였지만 훨씬 빠르게 생성되었습니다.
이 경우 빠른 실행 시간 덕분에 설정이나 특성 집합을 더 빠르게 최적화할 수 있으므로
Deep Learning 모델을 사용하는 것이 좋을 수 있습니다.
다른 결과들을 살펴보거나 Deep Learning 모델을 선택한 후
Open Process를 클릭하여 데이터가 어떻게 변환되었고
모델이 어떻게 생성되었는지 확인해보세요.