데이터사이언스13 데이터 전처리_변환 (Transformation) 데이터 변환의 개념에는 모양변환이 있다. Pivot은 행, 열별 요약된 값으로 정렬해서 분석을 하고자 할 때 사용하는 것이고, Unpivot은 칼럼 형태로 되어 있는 것을 행형태로 바꿀 때 사용 (wide form -> long form) 하는 것이다. 파생변수는 이미 수집된 변수를 활용하여 새로운 변수를 생성하는 개념을 말한다. 여기서 중요한 것은 새로운 변수를 만드는 것이다. 일반적으로 데이터를 전처리한다라고 할 때 기존에 있는 데이터를 잘 정리하는 것도 있지만 파생변수를 만드는 것에 집중한다. 분석자가 특정조건을 만족하거나 특정함수에 의해 값을 만들어 의미를 부여한 변수로 주관적일 수 있으며 논리적 타당성을 갖추어 개발해야 한다. 예를 들어 주 구매매장, 구매 다양성을 얘기할 때, 많이 가는 매장이.. 2023. 4. 26. 데이터 전처리_통합 (Integration) 및 축소 (Reduction) 1. 통합 (Integration) 통합(Integration)의 개념에는 결합이 있다. 조인 혹은 결합은 두 개의 데이터를 하나로 합치는 것이다. 데이터베이스 용어로 얘기하면 관계형 DB에서는 모든 자료가 테이블에 들어있다. 테이블은 단순히 표이다. 조인은 두 개의 표를 하나로 합치는 것인데, 일반적으로는 두 개를 합칠 때 겹치는 부분이 있어야 하며, 이것은 기본적으로 똑같은 칼럼을 얘기한다. 기본적으로 왼쪽 테이블, 오른쪽 테이블이 있을때 어느 테이블을 기준으로 합치는 것에 따라 Left Join은 왼쪽 테이블을 기준으로 하여 왼쪽 테이블은 다 들어가고, Right Join은 오른쪽 테이블을 기준으로 하여 오른쪽 테이블이 다 들어간다. Full Excluding Join은 교집합만 빼고 다 들어가는 .. 2023. 4. 25. 데이터 전처리_데이터 클리닝 (Data Cleaning) 머신러닝은 데이터를 기반으로 예측, 추론, 분류, 학습을 하는데 사용하는 언어나 툴에 맞게 바꾸어야 한다. 우리가 수집한 원시 데이터가 사용할 프로그램, 툴에 딱 맞게 들어오면 좋겠지만 현실은 그렇지 않다. 데이터 분석가는 내가 사용하는 알고리즘 툴 언어에 맞게 데이터를 바꾸어주어야 한다. 데이터 전처리(Data Preprocessing)는 데이터 분석작업 전에 데이터를 분석하기 좋은 형태로 만드는 과정을 총징하는 개념이다. 실제 데이터 전처리에 많은 비용과 시간이 소요된다. 전처리를 어떻게 하느냐에 따라 성능은 많이 차이가 날 수 있다. 데이터의 품질은 분석결과의 출발점이 된다. 오리지널 데이터를 데이터 클리닝, 즉, 통합, 선택을 통해 분석할 수 있는 타깃 데이터를 만들어 놓고 이 데이터는 전처리를 .. 2023. 4. 24. 비계층적 군집분석 (Non-hierachical Clustering) 비계층적 군집분석(Non-hierachical Clustering)은 주어진 데이터를 k개의 군집으로 나눈다. 원하는 군집의 수 k는 사전에 지정 (알고 있다고 가정) 한다. k-평균 군집화 알고리즘은 군집의 중심이 되는 k개의 seed(씨드) 점들을 선택하여 그 seed 점과 거리가 가까운 개체들을 그룹화하는 방법이다. 알고리즘은 다음과 같다. K개의 중심점을 임의로 배치한다. 모든 자료와 K개의 중심점과 거리를 계산하여 가장 가까운 중심점의 군집으로 할당한다. 군집의 중심을 구한다. (평균을 구한다.) 정지규칙에 이를 때까지 2~3단계를 반복한다. - 군집의 변화가 없을때 - 중심점의 이동이 임계값 이하일 때 - 왜곡값(distortion, 각각의 클러스터의 거리제곱의 총합) 줄어들었다가 다시 늘어나.. 2023. 4. 24. 이전 1 2 3 4 다음