모델 유형 선택
데이터와 선택에 따라 관련 머신 러닝 모델이 표시됩니다.
둘 이상의 모델을 선택하면 결과에는 성능 비교가 포함됩니다.
화면 하단의 Run버튼을 클릭하기 전에 모델 중 하나 이상을 선택해야합니다.
데이터 세트에 따라 장기간 런타임을 피하기 위해 일부 모델이 선택 취소 될 수 있습니다.
기다릴 의향이 있다면, Run버튼을 누르기 전에 이러한 모델을 포함 시키십시오.
실행
Auto Model은 모든 계산을 사용 머신에서 로컬로 실행할 수 있습니다. 다음은 실행 매개 변수입니다:
- 결과 저장을 위한 폴더:이 폴더는 입력 데이터를 포함한
실행 된 모든 Auto Model 프로세스 및 결과를 저장하는 데 사용됩니다. 이 폴더는 리포지토리의 루트일 수 없습니다.
빈 폴더 사용을 추천드립니다.
리포지토리 트리에서 마우스 오른쪽 버튼을 클릭하고 컨텍스트 메뉴에서 해당 항목을 선택하여 새 폴더를 만들 수 있습니다.
모델
이상치를 식별하려면 다음 모델이 사용 가능합니다:
- 거리 기반 이상치 감지: 이웃과의 거리가 가장 큰 데이터 포인트들을 지정된 비율만큼 식별합니다.
- 지역 이상치 계수: 각 포인트의 이웃과 지역 밀도를 비교하여 이상치일 가능성을 평가합니다.
데이터 준비
- 데이터 정보 추출: 날짜 열에서 계절 정보를 추출할지 또는 날짜 열을 무시할지 결정합니다.
활성화되면, 자동 모델은 날짜 열에서 수치적 특성을 추출하고, 날짜들 간의 차이와 오늘 날짜와의 차이도 계산합니다.
- 텍스트 정보 추출: 텍스트 열에서 수치적 정보를 추출해야 하는지 결정합니다 (이전 화면에서 텍스트 비율이 85%를 넘는 모든 열).
더 많은 특성을 추출하면 데이터에서 더 미세한 패턴을 식별하는 데 도움이 될 수 있지만, 모델링 시간이 더 오래 걸릴 수 있습니다.
또한, 각 텍스트 열에 대해 일반적인 감정 분석과 언어를 추출할 수도 있습니다. 그러나 일반적인 감정 분석은 종종 방향성만 맞는 결과를
제공하며, 정확도 측면에서 특정 도메인 기반 모델과 비교할 수 없다는 점을 유의하십시오.
칼럼 분석
- 열 간의 상관 관계: 열 사이의 상관 관계를 보여주는 행렬
배경
아래 Altair Rapidminer 문서에서는 이상치 감지 알고리즘 대한 자세한 정보를 제공합니다: