본문 바로가기

분류2

KNN (K-Nearest Neighbors) 알고리즘 KNN (K-Nearest Neighbors)은 K명의 가장 가까운 이웃들을 보는 알고리즘이다. 예측을 하고 싶을 때 새로운 데이터에 잘 모를 때 그 주변을 살펴보는 개념이다. 새로운 데이터에 대해 유사도를 측정하여 유사도가 높은 그룹에 들어갈 수 있도록 만들어주면 새로운 데이터를 예측할 때 이 데이터에 대해서 클러스터의 데이터에 대해 새로운 데이터를 유추해 보자는 것이다. 분류와 회귀문제를 모두 다룰 수 있다. 분류 문제는 다수결로 class를 예측하고, 회귀문제를 풀때는 평균값을 결과값으로 예측한다. 통계적 가설이 없는 비모수 방식이며 instance-based 알고리즘이다. Train과 Test 세트로 데이터를 분리하지만 실제로 Train은 존재하지 않는 "게으른" 알고리즘이다. 구체적인 데이터를 .. 2023. 4. 16.
로지스틱 회귀분석 (Logistic Regression) 1. 분류 (Classification) 개요 회귀분석은 target value가 수치형 변수이다. 로지스틱 회귀분석은 Y 값에 수치형 값이 나타나긴 하지만 특정한 값을 예측하는 것이 아니라 classification 문제를 풀어준다. 대부분 2 분류 문제를 풀어준다. Supervised Learning의 일종으로 입력 데이터에 존재하는 Feature 값들과 label 값의 class 간의 관계를 학습하여 새로 관측된 데이터의 class를 예측하는 문제를 풀어준다. 다음과 같은 영역에 활용할 수 있다. 이메일 Spam 분류 고객 이탈 방지 어느 고객이 떠날 것인가? -> 떠날 위기에 있는 고객들 대상으로 고객 유지 마케팅 수행 이동통신회사, FedEx, 체이스은행, 위키피디아 등등 HR 직원 행동 예측 .. 2023. 4. 16.