모델 유형 선택
데이터와 선택에 따라 관련 머신 러닝 모델이 표시됩니다.
둘 이상의 모델을 선택하면 결과에는 성능 비교가 포함됩니다.
화면 하단의 Run버튼을 클릭하기 전에 모델 중 하나 이상을 선택해야합니다.
데이터 세트에 따라 장기간 런타임을 피하기 위해 일부 모델이 선택 취소 될 수 있습니다.
기다릴 의향이 있다면, Run버튼을 누르기 전에 이러한 모델을 포함 시키십시오.
실행
Auto Model은 모든 계산을 사용 머신에서 로컬로 실행할 수 있습니다. 다음은 실행 매개 변수입니다:
- 결과 저장을 위한 폴더:이 폴더는 입력 데이터를 포함한
실행 된 모든 Auto Model 프로세스 및 결과를 저장하는 데 사용됩니다. 이 폴더는 리포지토리의 루트일 수 없습니다.
빈 폴더 사용을 추천드립니다.
리포지토리 트리에서 마우스 오른쪽 버튼을 클릭하고 컨텍스트 메뉴에서 해당 항목을 선택하여 새 폴더를 만들 수 있습니다.
모델
클러스터링 문제이며, 다음 모델이 사용 가능합니다:
- k-평균: 사전 정의 된 클러스터 수를 식별하기 위한 널리 사용되는 간단한 클러스터링 방법
- x-평균: 휴리스틱 기반으로 올바른 중심점 수를 결정하는 방법
데이터 준비
- 데이터 정보 추출: 날짜 열에서 계절 정보를 추출할지 또는 날짜 열을 무시할지 결정합니다.
활성화되면, 자동 모델은 날짜 열에서 수치적 특성을 추출하고, 날짜들 간의 차이와 오늘 날짜와의 차이도 계산합니다.
- 텍스트 정보 추출: 텍스트 열에서 수치적 정보를 추출해야 하는지 결정합니다 (이전 화면에서 텍스트 비율이 85%를 넘는 모든 열).
더 많은 특성을 추출하면 데이터에서 더 미세한 패턴을 식별하는 데 도움이 될 수 있지만, 모델링 시간이 더 오래 걸릴 수 있습니다.
또한, 각 텍스트 열에 대해 일반적인 감정 분석과 언어를 추출할 수도 있습니다. 그러나 일반적인 감정 분석은 종종 방향성만 맞는 결과를
제공하며, 정확도 측면에서 특정 도메인 기반 모델과 비교할 수 없다는 점을 유의하십시오.
- 자동 기능 선택: 최적의 열 하위 집합과 복잡성과 클러스터 품질 간의 모든 최적 절충안을 식별합니다.
칼럼 분석
- 열 간의 상관 관계: 열 사이의 상관 관계를 보여주는 행렬
배경
아래 Altair Rapidminer 문서에서는 클러스터링에 대한 자세한 정보를 제공합니다:
- k-평균
- x-평균: X-평균은 중심점 수를 휴리스틱에 따라 자동으로 결정하는 클러스터링 알고리즘입니다.
최소 중심점 집합으로 시작한 후, 데이터를 기준으로 더 많은 중심점을 사용하는 것이 타당한지 반복적으로 탐색합니다.
클러스터가 두 개의 하위 클러스터로 분할되는지는 베이지안 정보 기준(BIC)에 의해 결정되며, 이는 정밀도와 모델 복잡성 간의 균형을 맞추는 역할을 합니다.