본문 바로가기

분류 전체보기13

군집 분석 (Clustering) 비지도 학습 (Unsupervised Learing)은 입력 데이터에 Label 없이 데이터의 특성만으로 패턴을 찾는 학습 방법이다. 대부분은 지도학습이다. 비지도 학습을 사용하는 이유는 다음과 같다. 알려지지 않은 모든 종류의 패턴을 찾으려는 시도 범주화에 도움되는 특징과 패턴을 알아내는데 도움이 됨 새로운 데이터에 대한 실시간으로 처리 가능 Label이 되지 않는 데이터가 더 확보하기 쉬움. 라벨링에 비용과 시간이 많이 든다. 비지도 학습의 종류에는 Clustering, Association Rule, Dimension Reduction 등이 있다. Clustering (군집분석)은 계층적 군집분석과 비계층적 군집분석이 있다. Clustering은 주어진 입력값(들)을 바탕으로 유사한 값들로 데이터를.. 2023. 4. 23.
의사결정나무 (Decision Tree) 의사결정나무(Decision Tree)는 의사결정 규칙 (Decision Rule)을 나무구조로 도식화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류(Classification)하거나 예측(Regression)하는 계량적인 방법이다. 분류 또는 예측이 나무구조의 if ~ then 형태의 추론적으로 표현되기 때문에 다른 분석 방법에 비하여 이해와 설명이 쉽다. 의사결정나무의 구조와 용어는 다음과 같다. Root node (근노드) : 모든 자료를 포함하고 있는 의사결정나무의 출발점(꼭대기)으로 자료를 몇 개의 동질적인 그룹으로 나눔 Leaf node (잎노드) : 최종 결과를 나타내는 마디로 자료들은 더 이상 나누어지지 않음. Terminal node(단말노드)라고 함. 이 위치에 target val.. 2023. 4. 22.
특성공학 (Feature Engineering) 모델평가기법 1. Data Split과 모델 검증 언제 데이터를 나누는가? 충분히 큰 데이터 세트가 가용할 때이다. 데이터가 작으면 이 작업을 하기 어렵다. 충분히 크다는 것은 굉장히 추상적이다. 알고리즘이나 분석문제에 따라 다를 수 있다. 충분히 큰 데이터가 없을 때에는 교차확인(Cross Validation)을 고려한다. 왜 데이터를 나누는가? 학습에 사용되지 않는 데이터를 사용하여 예측을 수행함으로써 모델의 일반적인 성능에 대한 적절한 예측을 할 수 있다. 우리가 모델을 만들 때 일반적으로 Training, Test로 나눈다. 학습 데이터를 가지고 모델을 만들고 만든 모델을 가지고 이 모델을 평가해야 하는데 성능 평가 시 사용하는 데이터가 Test 데이터이다. 항상 모든 모델은 처음 보는 데이터를 가지고 평가를.. 2023. 4. 21.
머신러닝 (Machine Learning) 개요 및 유형 1. 머신러닝이란? 머신러닝(Machine Learning, 기계학습)이란 컴퓨터 프로그램의 데이터 처리 경험을 바탕으로 정보처리능력을 향상시키는 것, 혹은 이와 관련한 학문이다라고 정보통신용어 사전에 정의되어 있다. 자율주행자동차, 필기인식 등 알고리즘 개발이 어려운 분야에 적용이 가능하다. 머신러닝은 어느 시기에 누가 정의하느냐에 따라 다양한 정의가 있다. 아서 사무엘(Arthur Samuel, 1901~1990)은 이미 1959년에 머신러닝의 용어를 대중화시켰다. 실제로 알파고 나오기 이전부터 하나의 학문으로 존재했던 개념이다. 알파고가 몇 년 전에 이세돌 프로를 이겼을 때 실제로 바둑은 경우의 수가 굉장히 크기 때문에 대부분의 머신러닝 학자들은 아직은 사람 못 이기지 않나 생각했다. 경우의 수가 .. 2023. 4. 20.