본문 바로가기

데이터사이언스/머신러닝10

비계층적 군집분석 (Non-hierachical Clustering) 비계층적 군집분석(Non-hierachical Clustering)은 주어진 데이터를 k개의 군집으로 나눈다. 원하는 군집의 수 k는 사전에 지정 (알고 있다고 가정) 한다. k-평균 군집화 알고리즘은 군집의 중심이 되는 k개의 seed(씨드) 점들을 선택하여 그 seed 점과 거리가 가까운 개체들을 그룹화하는 방법이다. 알고리즘은 다음과 같다. K개의 중심점을 임의로 배치한다. 모든 자료와 K개의 중심점과 거리를 계산하여 가장 가까운 중심점의 군집으로 할당한다. 군집의 중심을 구한다. (평균을 구한다.) 정지규칙에 이를 때까지 2~3단계를 반복한다. - 군집의 변화가 없을때 - 중심점의 이동이 임계값 이하일 때 - 왜곡값(distortion, 각각의 클러스터의 거리제곱의 총합) 줄어들었다가 다시 늘어나.. 2023. 4. 24.
군집 분석 (Clustering) 비지도 학습 (Unsupervised Learing)은 입력 데이터에 Label 없이 데이터의 특성만으로 패턴을 찾는 학습 방법이다. 대부분은 지도학습이다. 비지도 학습을 사용하는 이유는 다음과 같다. 알려지지 않은 모든 종류의 패턴을 찾으려는 시도 범주화에 도움되는 특징과 패턴을 알아내는데 도움이 됨 새로운 데이터에 대한 실시간으로 처리 가능 Label이 되지 않는 데이터가 더 확보하기 쉬움. 라벨링에 비용과 시간이 많이 든다. 비지도 학습의 종류에는 Clustering, Association Rule, Dimension Reduction 등이 있다. Clustering (군집분석)은 계층적 군집분석과 비계층적 군집분석이 있다. Clustering은 주어진 입력값(들)을 바탕으로 유사한 값들로 데이터를.. 2023. 4. 23.
의사결정나무 (Decision Tree) 의사결정나무(Decision Tree)는 의사결정 규칙 (Decision Rule)을 나무구조로 도식화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류(Classification)하거나 예측(Regression)하는 계량적인 방법이다. 분류 또는 예측이 나무구조의 if ~ then 형태의 추론적으로 표현되기 때문에 다른 분석 방법에 비하여 이해와 설명이 쉽다. 의사결정나무의 구조와 용어는 다음과 같다. Root node (근노드) : 모든 자료를 포함하고 있는 의사결정나무의 출발점(꼭대기)으로 자료를 몇 개의 동질적인 그룹으로 나눔 Leaf node (잎노드) : 최종 결과를 나타내는 마디로 자료들은 더 이상 나누어지지 않음. Terminal node(단말노드)라고 함. 이 위치에 target val.. 2023. 4. 22.
특성공학 (Feature Engineering) 모델평가기법 1. Data Split과 모델 검증 언제 데이터를 나누는가? 충분히 큰 데이터 세트가 가용할 때이다. 데이터가 작으면 이 작업을 하기 어렵다. 충분히 크다는 것은 굉장히 추상적이다. 알고리즘이나 분석문제에 따라 다를 수 있다. 충분히 큰 데이터가 없을 때에는 교차확인(Cross Validation)을 고려한다. 왜 데이터를 나누는가? 학습에 사용되지 않는 데이터를 사용하여 예측을 수행함으로써 모델의 일반적인 성능에 대한 적절한 예측을 할 수 있다. 우리가 모델을 만들 때 일반적으로 Training, Test로 나눈다. 학습 데이터를 가지고 모델을 만들고 만든 모델을 가지고 이 모델을 평가해야 하는데 성능 평가 시 사용하는 데이터가 Test 데이터이다. 항상 모든 모델은 처음 보는 데이터를 가지고 평가를.. 2023. 4. 21.