작업 선택

데이터 세트를 선택하셨습니다. 이제 해결하고자 하는 문제 유형을 결정하셔야 합니다. 위의 세 가지 작업 중 하나를 선택한 후 Next를 클릭하세요. 아래는 안내입니다:

분류를 위한 자동 모델

자동 모델 - 분류

 

군집화 및 이상치를 위한 자동 모델

자동 모델 - 군집화 및 이상치

 

처음이신가요?

이전 단계에서 타이타닉 데이터를 선택하셨다면, 이제 "승객 클래스"와 "나이"와 같은 열 이름이 있는 표가 보일 것입니다. 이 데이터 세트의 좋은 아이디어는 승객이 사고에서 살아남을지 예측하는 것입니다. 이를 위해 예측을 작업으로 선택하고 마지막 열인 "Survived"를 선택하여 목표 열로 설정한 후 Next를 클릭하세요.

배경

"배경" 섹션에서는 머신 러닝과 Altair AI Studio에 대한 추가 정보를 제공합니다.

예측

목표는 다른 열의 값을 바탕으로 한 열의 값을 예측하는 것입니다. 이 일반적인 방법을 지도 학습이라고 하며, 모델을 훈련하는 데 사용되는 데이터에는 이미 알려진 결과가 있습니다. 지도 학습 내에서는 두 가지 방법을 구분합니다: 분류와 회귀, 목표에 따라 다릅니다.

분류는 목표 값이 범주형일 때 사용됩니다. "결과가 A일까 B일까?"와 같은 질문에 답합니다. 자주 사용되는 모델에는 결정 트리, 그래디언트 부스팅 트리, 신경망 (딥러닝) 등이 있습니다.

회귀는 목표 값이 숫자일 때 사용됩니다. 특히 시계열 데이터에서는 이를 "예측"이라고도 부릅니다. "얼마나 많은가?" 또는 "얼마나 큰가?"와 같은 질문에 답합니다. 자주 사용되는 모델에는 선형 회귀와 신경망 (딥러닝) 등이 있습니다.

일반적인 사용 사례: 이탈 예측, 직접 마케팅, 다음 최적 제안, 고객 생애 가치 예측, 예측 유지보수, 수익 최적화 등.

군집화

목표는 함께 속하는 데이터 포인트를 식별하고, 어떤 의미에서 서로 가까운 데이터를 그룹으로 나누는 것입니다. 이 과정을 "세분화"라고 부르기도 합니다. 분류와 달리 군집화는 알고리즘에 의해 각 데이터를 그룹으로 할당합니다; 그룹은 사전에 알려져 있지 않습니다. k-평균 군집화는 가장 자주 사용되는 군집화 방법입니다.

일반적인 사용 사례: 고객 세분화, 고장 식별, 주제 탐지, 교차 판매 및 업셀링 등.

이상치

목표는 속하지 않는 데이터 포인트를 식별하는 것입니다; 이들은 다른 모든 포인트와 멀리 떨어져 있으며, 식별 가능한 패턴에 맞지 않습니다. 때로는 이러한 데이터 포인트가 이상한 사건에 대한 통찰을 제공하기 때문에 관심을 가질 수 있습니다. 다른 경우에는 추가 분석을 수행하기 전에 데이터를 제거할 수도 있습니다. 거리 기반 이상치 탐지 및 지역 이상치 요인은 자주 사용되는 방법입니다.

일반적인 사용 사례: 위험 완화, 사기 탐지, 예측 유지보수 등.