본문 바로가기
ML

데이터분석한다?

by AI미남홀란드 2022. 11. 7.
728x90

데이터는 크게 정형데이터와 비정형 데이터, 반정형 데이터가 있다.

이번 과정에서는 정형 데이터를 다룬다.

 

1. 정형데이터 : 형식과 구조가 정형화되어 있는 데이터, 연산이 가능한 데이터, 우리가 흔히 다루는 테이블 데이터를 생각하면 된다.

2. 비정형데이터 : 형식과 구조가 정형화되어 있지 않은 데이터 ex) 이미지(사진, 영상), 자연어(텍스트, 음성) 등이 있다.

3. 반정형 데이터 : 앞서 정의한 정형데이터의 형식을 준수하지 않는 형식으로 이루어진 데이터 ex) XML, HTML

 

첫번째 테이블 핸들링의 시작은 ooo이다 (뽑기)

- 전체 테이블에서 내가 필요한 일부만 뽑아내는 것이 핵심이다.

열뽑기 , 행뽑기(loc)

 

통상적으로 내가 원하는 데이터 부분행, 부분열이 되어 데이터 뽑기를 한다.

->선행하기 위해서는 , 부분열과 부분행을 뽑아내는 작업이 필요함

 

두번째 테이블 핸들링의 끝은 전처리(정제, 가공)이다 

1) 정제 : 결측치, 이상치 등을 삭제, 변형하여 불완전한 데이터를 분석 가능하도록 변형하는 작업이다.

2) 가공 : 데이터 조합, 선별, 생성을 통해 보다 나은 분석이 가능하다록 변형하는 작업이다.

 

* 파생변수 : 테이블에 빈공간 결과값이 없을때 고려하여 데이터를 넣는것을 파생변수라고 한다.

 

세번째 테이블 시각화는 3가지만 알면 된다  (plot 종류 , X값 , Y값)

Ex) 분기(x)별 매출액(y) 그래프, 어떤 plot종류? 3가지를 알려주어야한다.

plt.bar(x=분기, y= 매출액)

 

시각화 코드를 작성할때 필요한 정보는? (X, Y, plot 종류)

 

**시각화 공부방법 :

시각화 코드에 입력해야할 최소 정보 3가지 = 종류, X, Y(+ 색구분기준, 서브플롯 기분구준)

 

공부단계

1단계(Reading): 시각화 결과물을 먼저보고 위3(+2)가지 정보 생각한 다음, 코드 보기

           - 반드시, 위 핵심 3+2 정보에 관한 코드 위주로 보기

2단계(Writing) : 결과물 보고 3+2 정보에 대한 코드를 생각해보기

3단계 : 본인 스스로 그리고 싶은 결과물을 생각하고, 코드로 구현한다.

 

결과를 보고 추측, 코드를 작성해보는 습관 X, Y  모양이 무엇이지?하면서 생각비교를 하면서

 

네번째 기술통계와 추론통계로 나뉜다.

 

다섯번째 기술통계는 중심성 분석과 분산도 분석이 있다.

 

분위수 : quantile()

* pandas에서 IQR 함수나 4분위수 함수는 따로 지원하지 않으므로, 분위수 함수를 이용해 계산해야 한다.

 

분산도 계산의 이해

평균으로부터 얼마나 데이터들이 떨어져있는가? -> 분산, 표준편차
(X-m)^
중위값으로부터 얼마나 데이터들이 떨어져있는가 -> IQR

여섯번째 머신러닝은 추리통계 방법론 중 하나다.

추리통계란 쉽게 말해 일부인 표본집단을 이용해 모집단을 추론해내는 방법론이라고 볼 수 있다.

기의 발전에 따라 사용할 수 있는 표본집단의 수가 늘어난기 시작했고, 표본 수가 늘어남에 따라 대량의 데이터로부터 인사이트를 도출하는 데에 보다 적합한 머신러닝 기법이 널리 사용되기 시작했다.

 

일곱번째 머신러닝 만능주의에서 벗어나라

추리통계 기법에는 머신러닝 기법 외에도 다양한 기법이 있다. 머신러닝은 데이터로부터 기계가 직접 패턴을 찾아내는 방식이기 때문에 데이터에 대한 의존도가 높다. 즉, 데이터의 양과 질에 따라 성능이 많이 달라질 수 있다.

한편 우리가 수행하는 데이터 분석에서는 추리통계 기법을 이용하지 않고, 직접 인사이트를 도출하는 경우도 많이 있다. 반드시 추리통계 기법을 사용해야만 수준 높은 분석을 하는 것이 아니다.

 

 

728x90