티스토리 뷰

반응형

변동 통계량이란 데이터의 변동성을 나타내는 수치를 의미한다. 따라서 데이터 변동 통계량이란 데이터의 변동성을 나타내는 수치를 의미한다. 기본적인 통계량은 아래의 링크를 참고하자.

 

 

2021.03.26 - [데이터분석] - 기초 통계 정리_중심 통계량

 

 

 

변동 통계량

데이터의 변동성을 나타내는 수치로 데이터 분석의 기초이다. 따라서 헷갈리는 개념이 있다면 이해하고 넘어가자. 기본적으로 분산과 표준편차가 클 수록 넓게 퍼져있다는 것을 알 수 있다. 고등수학의 개념이므로 간단히 넘어가겠다.

 

  • 범위(Range): 최대값과 최솟값의 차이
  • 편차(Deviation): 관측값과 평균의 차이
  • 변동(Variation): 편차 제곱의 합
  • 분산(Variance): 편차 제곱의 합을 데이터의 수로 나눈 값
  • 표준편차(Standard Deviation): 산의 루트값을 의미한다.

 

 

형태 통계량

데이터의 분포형태와 왜곡을 나타내는 수치이다.

  • 왜도(Skewness): 평균을 중심으로 좌우로 데이터가 편향되어 있는 정도를 나타낸다. 분포가 왼쪽으로 치우친 모양을 positively skewed라고 하고, 오른쪽으로 치우친 모양을 negatively skewed라고 한다. 
  • 첨도(Kurtosis): 뾰족함 정도를 나타낸다. 데이터 분석에서는 뾰족하다는 것은 데이터가 좁게 퍼졌다는 것을 나타내고, 그 반대는 넓게 퍼져있는 것을 나타낸다.
  • 이상치(outliner): 오류로 판단하는 값이지만 기준이 불명확하다. 데이터의 상태와 상황에 따라서 이상치 값을 제거하거나 변경해 줘야 한다.

 

https://en.wikipedia.org/wiki/Skewness

 

 

관계 통계량

데이터 간의 관계를 나타내는 수치이다. 기본적으로 상관관계와 인과관계가 있다. 우리는 대부분 원인과 결과의 관계인 인과관계에 대한 이야기를 많이 한다. 그러나 통계학적으로는 인과관계를 해석하기란 쉽지 않다. 왜냐하면 수치적으로 표현하는 것 자체도 쉽지 않기 때문이다. 따라서 우리는 상관관계를 통해 통계분석을 진행한다. 정리하면, 데이터들의 관계가 선형 관계인지, 비선형 관계인지를 분석하는 것은 상관관계를 나타내는 것이지 인과관계를 나타내는 것이 아니라는 점을 인지하자.

 

 

  • 상관관계(Correlation): A변수의 변화와 B변수의 변화 방향의 (선형적) 유사성으로 표준화된 공분산이라고도 한다. 분자가 공분산을 나타내고 분모의 루트 안의 값을 보면, 변수 x의 분산과 변수 y의 분산으로 표현되는 것을 알 수 있다. 아래의 식이 상관관계의 식이라고 할 수 있다. 좀 더 풀어서 말하면 분자는 X와 Y가 함께 변하는 정도를 나타내고, 분모는 X와 Y가 각각 변하는 정도를 표현한다고 생각하면 된다. 상관 계수 값의 범위는 −1부터 +1까지로 1은 완전한 선형 관계를 나타내고 -1은 음의 선형관계를 나타낸다. 그리고 0에 가까울수록 변수 사이에 선형 관계가 없음을 나타낸다.

 

 

 

  • 인과관계(Causality): A변수와 B변수 중 하나는 원인이 되고 다른 하나는 결과가 되는 관계성을 인과관계라고 한다. 상관관계는 기준이 되는 값들 사이의 관계를 표현하는 것이지만, 인과관계는 기준이 되는 값들 이외의 제3의 요인이 있을 수 있기 때문에 인과관계를 입증하는 것은 쉽지 않다.

 

 

 

 

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함