모델 유형 선택
데이터와 선택에 따라 관련 머신 러닝 모델이 표시됩니다.
둘 이상의 모델을 선택하면 결과에는 성능 비교가 포함됩니다.
화면 하단의 Run버튼을 클릭하기 전에 모델 중 하나 이상을 선택해야합니다.
데이터 세트에 따라 장기간 런타임을 피하기 위해 일부 모델이 선택 취소 될 수 있습니다.
기다릴 의향이 있다면, Run버튼을 누르기 전에 이러한 모델을 포함 시키십시오.
실행
Auto Model은 모든 계산을 사용 머신에서 로컬로 실행할 수 있습니다. 다음은 실행 매개 변수입니다:
- 결과 저장을 위한 폴더:이 폴더는 입력 데이터를 포함한
실행 된 모든 Auto Model 프로세스 및 결과를 저장하는 데 사용됩니다. 이 폴더는 리포지토리의 루트일 수 없습니다.
빈 폴더 사용을 추천드립니다.
리포지토리 트리에서 마우스 오른쪽 버튼을 클릭하고 컨텍스트 메뉴에서 해당 항목을 선택하여 새 폴더를 만들 수 있습니다.
모델
분류 문제이며, 다음 모델이 사용 가능합니다:
- 나이브 베이즈: 베이즈 정리를 기반으로 한 간단하고 빠른 확률적 분류기
- 일반화 선형 모델: 선형 회귀 모델의 일반화
- 로지스틱 회귀: 널리 사용되는 통계 방법
- 패스트 대형 마진: 선형 대형 마진 방법의 빠른 변형 (서포트 벡터 머신 참조)
- 딥러닝: 비선형 관계 학습을 위한 다층 신경망
- 의사 결정 트리: 이해하기 쉬운 단순한 트리 모델 찾기
- 랜덤 포레스트: 여러 개의 무작위 트리를 사용하는 앙상블
- 그라디언트 부스팅 트리: 결정 트리 앙상블을 사용하는 강력하지만 복잡한 모델
- 서포트 벡터 머신: 특히 비선형 관계에서 효과적인 강력하지만 상대적으로 빠른 모델
데이터 준비
- 데이터 정보 추출: 날짜 열에서 계절 정보를 추출할지 또는 날짜 열을 무시할지 결정합니다.
활성화되면, 자동 모델은 날짜 열에서 수치적 특성을 추출하고, 날짜들 간의 차이와 오늘 날짜와의 차이도 계산합니다.
- 텍스트 정보 추출: 텍스트 열에서 수치적 정보를 추출해야 하는지 결정합니다 (이전 화면에서 텍스트 비율이 85%를 넘는 모든 열).
원하면 다른 열을 제거하거나 추가할 수 있습니다. 더 많은 특성을 추출하면 데이터에서 더 미세한 패턴을 식별하는 데 도움이 될 수 있지만,
모델링 시간이 더 오래 걸릴 수 있습니다. 또한, 각 텍스트 열에 대해 일반적인 감정 분석과 언어를 추출할 수도 있습니다.
그러나 일반적인 감정 분석은 종종 방향성만 맞는 결과를 제공하며, 정확도 측면에서 특정 도메인 기반 모델과 비교할 수 없다는 점을 유의하십시오.
- 자동 특성 선택: 최적의 열 하위 집합과 복잡성과 정확성 간의 모든 최적 절충안을 식별합니다.
- 자동 특성 생성: 특성 선택 외에도 새로운 열을 생성합니다.
자동 특성 엔지니어링은 다양한 특성 집합의 성능을 평가하기 위해 분할 검증을 사용하는 다목적 진화 최적화 접근 방식에 기반합니다.
이 방법은 특성 집합의 복잡성과 모델 오류를 동시에 줄이려고 시도합니다.
칼럼 분석
- 열 간 상관 관계: 열 간의 상관관계를 보여주는 행렬
- 열의 중요도: 타겟 열의 값을 기준으로 원본 입력 열 각각의 전역 중요도를 계산합니다.
대상 열과의 상관관계를 중요도 값으로 사용합니다.
- 예측 설명: Auto Model은 테스트 세트와 타겟 열의 값이 누락된 모든 행에 대해 예측을 수행합니다.
이 매개변수가 선택되면, Auto Model은 각 모델이 각 행에 대해 예측할 때 어떤 열의 값이 가장 큰 영향을 미쳤는지도
추가로 계산합니다. 이후, Auto Model은 특정 모델에 대해 모든 행에서 열의 중요도를 기반으로 전역 가중치도 계산합니다.
처음이신가요?
타이타닉 데이터 세트는 작기 때문에, 모든 모델이 선택됩니다.
이 설정을 그대로 유지한 채 실행을 눌러 결과를 확인할 수 있습니다.
배경
자동 특성 엔지니어링 기법에 대한 자세한 정보는
이곳에서 확인할 수 있습니다.
아래 Altair Rapidminer 문서에서는 분류기에 대한 자세한 정보를 제공합니다: