티스토리 뷰
반응형
통계는 공부하면 할수록 어렵다. 다른 블로그들은 봐도 수학적 기호가 뭐 그래 많은지.... 잘 모르겠다. 그래서 내가 정리해 보기로 했다. 기본적으로 데이터 분석을 위해 통계학적 지식은 사용할 수 있을 정도로만 이해하면 된다. 따라서 담백하게 수학적 이해를 제외하고 핵심만 간단히 적어보겠다. 우리는 데이터 분석을 위해 qq plot를 사용하고 있고 어떻게 사용하면 되는지를 중점적으로 이야기해 보겠다.
Q-Q Plot
핵심부터 적어보자면 Q-Q Plot은 정규화를 검토하기 위한 그래프이다. 대략적으로 아래와 같이 생겼다.
위에서 우리는 점들과 직선을 볼 수 있다. 직선은 정규분포의 값이고, 점선은 우리가 가진 실제 데이터 값이다. 분석하는 방법은 다음과 같다.
- 점선과 직선이 일치할수록, 데이터는 정규분포를 따른다.
- 위의 그림처럼 점선과 직선이 일치하지 않으면 데이터는 정규분포를 따르지 않는다.
코드
사용법을 알았으니 작성법을 알아보자.
import matplotlib.pyplot as plt
import statsmodels.api as sm
sm.qqplot(raw_data, fit=True, line='45')
> raw_data 위치에 분석하고자 하는 칼럼을 넣어주면 된다.
반응형
'데이터분석' 카테고리의 다른 글
의료데이터 분석하기 입문 (0) | 2021.04.28 |
---|---|
[데이터 분석] 비전공자를 위한 ACF(Autocorrelation Function) 설명하기 (0) | 2021.04.07 |
[데이터분석] 정규화 방법론(Regression, Ridge, Lasso) (0) | 2021.04.03 |
기초 통계 정리_통계량 (0) | 2021.03.30 |
기초 통계 정리_중심 통계량 (0) | 2021.03.26 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- error:0308010C:digital envelope routines::unsupported
- BFS
- pandas
- typescript
- useHistory 안됨
- 클라우데라
- login
- UserCreationForm
- react autoFocus
- react
- Python
- next.config.js
- Deque
- nextjs autoFocus
- logout
- read_csv
- 자연어처리
- NextJS
- 자료구조
- mongoDB
- DFS
- django
- useState
- Vue
- JavaScript
- vuejs
- Queue
- Express
- nodejs
- TensorFlow
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함