티스토리 뷰
데이터 분석의 가장 기초는 통계라고 할 수 있다. 오늘은 데이터 관점에서 중심 통계량, 변동 통계량, 형태 통계량, 관계 통계량에 대한 기초를 각각 알아보자.
중심 통계량
중심 통계량은 데이터의 중심경향을 나타내는 수치이다. 보통 데이터에서 결측치가 있는 경우에 데이터의 특징에 맞게 아래의 값중 골라서 NaN값 대신에 대체를 한다.
평균(Average)
표본데이터의 중심무게(산술평균, 기하평균, 조화평균, 가중평균)로 표현 할 수 있다.
산술 평균
우리가 보통 알고 있는 평균이라고 할 수 있다. 각각의 수를 모두 더한 후에 갯수로 나눠주는 것이다. 식을 보면 아래와 같다.
기하 평균
산술 평균과 다르게 값들을 모두 곱한 후에 갯수로 루트를 취한다.
조화 평균
각각의 값들의 역수에 대한 산술 평균의 역수라고 할 수 있다. 식은 아래와 같다.
가중 평균
가중 평균은 쉽게 말해서 각각의 값들에 중요도에 따라 가중치를 주어 평균을 한 것이라고 할 수 있다.
중앙값(Median)
중앙값은 순서대로 순위가 매겨진 그룹의 중간 숫자이다. 평균 값 대신에 중앙 값을 넣는 경우는 어느 경우 일까? 데이터가 1, 3, 5, 4, 6, 7, 9, 11, 2543456 라는 6개의 데이터가 있다고 가정해 보자. 이런 경우는 대부분의 값은 한자리 수인데, 하나만 비정상 적으로 큰 경우는 평균값을 사용하는 것보다는 중앙값을 결측치에 넣어주는 것이 좋다.
중앙값은 1, 3, 3, 6, 7, 8, 9의 값이 있으면, 중앙값은 6이다. 만약 1, 2, 3, 4, 5 , 6, 8, 9의 값들로 뚜렷한 중간 값이 없으면, 일반적으로 두 중간값의 평균으로 4.5를 쓰게 된다. 식으로 표현하면 아래와 같다.
최빈값(Mode)
최빈값이란 표본데이터 중 가장 빈번한 값을 의미한다. 데이터를 다루다 보면, 범주화된 데이터에서는 가장 많은 값을 가진 범주로 NaN값을 넣어주는게 좋을 경우가 있다. 이런 경우에 최빈값을 넣어준다. 예들 들면 1, 2, 3, 3, 4, 4, 4, 4, 4, 4, 5, 6의 값이 있다면 최빈값은 4가 된다.
'데이터분석' 카테고리의 다른 글
의료데이터 분석하기 입문 (0) | 2021.04.28 |
---|---|
[데이터 분석] 비전공자를 위한 ACF(Autocorrelation Function) 설명하기 (0) | 2021.04.07 |
[데이터분석] 비전공자를 위한 QQ-Plot 설명하기 (0) | 2021.04.05 |
[데이터분석] 정규화 방법론(Regression, Ridge, Lasso) (0) | 2021.04.03 |
기초 통계 정리_통계량 (0) | 2021.03.30 |
- Total
- Today
- Yesterday
- useHistory 안됨
- Vue
- pandas
- JavaScript
- NextJS
- react
- Express
- read_csv
- react autoFocus
- UserCreationForm
- BFS
- Deque
- nodejs
- error:0308010C:digital envelope routines::unsupported
- typescript
- DFS
- 클라우데라
- 자료구조
- login
- vuejs
- 자연어처리
- Queue
- next.config.js
- logout
- nextjs autoFocus
- mongoDB
- Python
- django
- TensorFlow
- useState
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |