티스토리 뷰

반응형

통계는 공부하면 할수록 어렵다. 다른 블로그들은 봐도 수학적 기호가 뭐 그래 많은지.... 잘 모르겠다. 그래서 내가 정리해 보기로 했다. 기본적으로 데이터 분석을 위해 통계학적 지식은 사용할 수 있을 정도로만 이해하면 된다. 따라서 담백하게 수학적 이해를 제외하고 핵심만 간단히 적어보겠다. 우리는 데이터 분석을 위해 qq plot를 사용하고 있고 어떻게 사용하면 되는지를 중점적으로 이야기해 보겠다.

 

 

 

Q-Q Plot

핵심부터 적어보자면 Q-Q Plot은 정규화를 검토하기 위한 그래프이다. 대략적으로 아래와 같이 생겼다.

 

https://en.wikipedia.org/wiki/Q%E2%80%93Q_plot#/media/File:Normal_exponential_qq.svg

위에서 우리는 점들직선을 볼 수 있다. 직선은 정규분포의 값이고, 점선은 우리가 가진 실제 데이터 값이다. 분석하는 방법은 다음과 같다.

 

  • 점선과 직선이 일치할수록, 데이터는 정규분포를 따른다.
  • 위의 그림처럼 점선과 직선이 일치하지 않으면 데이터는 정규분포를 따르지 않는다.

 

 

코드

사용법을 알았으니 작성법을 알아보자.

 

import matplotlib.pyplot as plt
import statsmodels.api as sm

sm.qqplot(raw_data, fit=True, line='45')

 

> raw_data 위치에 분석하고자 하는 칼럼을 넣어주면 된다.

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함