본문 바로가기

overfitting2

특성공학 (Feature Engineering) 언더피팅 / 오버피팅 1. 특성 공학 (Feature Engineering, 피처 엔지니어링) 머신러닝의 기본적인 알고리즘은 Supervised, Unsupervised, Reinforcement가 있다. Supervised 알고리즘은 target value, 출력값을 갖는 데이터 세트를 분석할 때 사용하는 알고리즘이며, 결과값이 수치형이면 회귀, 범주형이면 분류로 나뉜다. Supervised 알고리즘에서 피처 엔지니어링은 현업에서 매우 중요하다. 피처 엔지니어링 개념이 최근들어 많이 이슈가 되고 있다. 실제로 일을 해본 사람들은 왜 중요한지 아는데, 처음 시작하는 사람은 알고리즘에만 집중한다. 알고리즘에 따라 데이터 변환이 종속되므로 알고리즘 특성을 잘 이해하고 있어야 전처리를 어떻게 할지 결정된다. 알고리즘을 이해했다고 .. 2023. 4. 20.
KNN (K-Nearest Neighbors) 알고리즘 KNN (K-Nearest Neighbors)은 K명의 가장 가까운 이웃들을 보는 알고리즘이다. 예측을 하고 싶을 때 새로운 데이터에 잘 모를 때 그 주변을 살펴보는 개념이다. 새로운 데이터에 대해 유사도를 측정하여 유사도가 높은 그룹에 들어갈 수 있도록 만들어주면 새로운 데이터를 예측할 때 이 데이터에 대해서 클러스터의 데이터에 대해 새로운 데이터를 유추해 보자는 것이다. 분류와 회귀문제를 모두 다룰 수 있다. 분류 문제는 다수결로 class를 예측하고, 회귀문제를 풀때는 평균값을 결과값으로 예측한다. 통계적 가설이 없는 비모수 방식이며 instance-based 알고리즘이다. Train과 Test 세트로 데이터를 분리하지만 실제로 Train은 존재하지 않는 "게으른" 알고리즘이다. 구체적인 데이터를 .. 2023. 4. 16.