랜덤포레스트 import numpy as np import pandas as pd import plotly.graph_objects as go import plotly.subplots as ms import statsmodels.api as sm from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.3, random_state = 0) model = RandomForest..
statsmodels 라이브러리를 활용하여 선형 회귀 분석을 해보자. 1. 사용법 pypi.org/project/statsmodels/ statsmodels Statistical computations and models for Python pypi.org 공식문서를 보면 알 수 있듯이 설치 후에 import 하여 사용 가능하다. 설치 명령어는 아래와 같다. $ pip install statsmodels 2. 선형회귀분석 선형 회귀 분석을 하려면, 아래의 가정을 따라야 한다. 독립변수(X)는 이름 그대로 독립적인 형태여야 한다. 변수들끼리 상관관계가 있다면 결과는 왜곡될 수밖에 없다. 예를 들면, 특정 변수와 다른 변수가 선형 관계라면, 비슷한 변수가 두번 학습하게 되므로 정확한 결과를 기대하기 힘들다...
기본적으로 의료데이터의 분석을 위한 기초 내용은 아래의 url을 참고해서 보고오자. 2021.04.28 - [데이터분석] - 의료데이터 분석하기 입문 kaggle 데이터를 분석해보자. 아래의 심부전증 데이터를 가져오자. www.kaggle.com/andrewmvd/heart-failure-clinical-data Heart Failure Prediction 12 clinical features por predicting death events. www.kaggle.com 1. 데이터셋 준비하기 데이터를 받아서 아래와 같은 코드를 통해 csv파일을 불러오자 df = pd.read_csv('heart_failure_clinical_records_dataset.csv') 컬럼내용 정리 age: 환자의 나이 a..
의료 데이터 현황 의료데이터에서 가장 중요한것은 데이터 수집이다. 개인정보 정책에 의해 과거에는 데이터 수집이 불가능했었다. 그러나 2020.01에 법안이 통과 되면서, 가명정보(개인 식별이 불가능한 데이터)를 사용 할 수 있게 됐다. 즉, 민간 연구자에게 데이터 제공이 가능해 짐에 따라 바이오 데이터 분석가 들이 유망해지고 있고. 의료 데이터의 수집도 탄력을 받아 발전하고 있다. Confusion matrics 사실 이글을 적은 이유는 바로 이부분을 적기 위함이다. 의료데이터를 분석하기 위해서는 Accuracy, Precision, Recall의 차이점에 대해 이해를 해야한다. 1. Confusion Matrix 모형을 예측하는 값에는 True와 False가 있다. 그리고 아래의 그림과 같이 모형의 예..
자기 상관 함수(ACF)에 대해 수학적 이해를 제외하고, 딱 데이터 분석에 사용할 수 있을 만큼, 핵심만 적어 보자 한다. 자기 상관 함수(Autocorrelation Function) 만약 ACF에 대한 검색을 하고 있었다면, 회귀분석을 하고 있었을 것이다. 왜냐하면 ACF는 회귀분석에 사용되기 때문이다. 회귀분석이란, t개의 값을 가지는 독립변수 X와 이에 대응하는 종속변수 Y 간의 상관관계를 정량적으로 찾는 알고리즘이다. 회귀분석의 성능을 높이기 위해서는 여러 가지 가정이 만족해야 하는데, 그 가정 중에 잔차들이 서로 독립적이어야 한다는 가정이 있다. 이러한 관점에서 잔차들이 시간의 흐름에서 독립적인지를 확인하기 위해서 자기상관 분석을 한다. 확인하는 방법은 Autocorrelation Fuctio..
통계는 공부하면 할수록 어렵다. 다른 블로그들은 봐도 수학적 기호가 뭐 그래 많은지.... 잘 모르겠다. 그래서 내가 정리해 보기로 했다. 기본적으로 데이터 분석을 위해 통계학적 지식은 사용할 수 있을 정도로만 이해하면 된다. 따라서 담백하게 수학적 이해를 제외하고 핵심만 간단히 적어보겠다. 우리는 데이터 분석을 위해 qq plot를 사용하고 있고 어떻게 사용하면 되는지를 중점적으로 이야기해 보겠다. Q-Q Plot 핵심부터 적어보자면 Q-Q Plot은 정규화를 검토하기 위한 그래프이다. 대략적으로 아래와 같이 생겼다. 위에서 우리는 점들과 직선을 볼 수 있다. 직선은 정규분포의 값이고, 점선은 우리가 가진 실제 데이터 값이다. 분석하는 방법은 다음과 같다. 점선과 직선이 일치할수록, 데이터는 정규분포를..
데이터 분석을 하다보면 같은 데이터를 분석하더라도 같은 X에 관해서도 다양한 상관관계나 나올 수 있다. 이러한 그러한 상관관계 중에 최적의 선택을 하는 것이 데이터 사이언스의 역할이라고 할 수 있다. 이러한 선택을 위해 개발된 것이 바로 졍규화 방법론(Regularized Method)이다. 이렇게 선택에 도움을 주는 정규화 방법론에 대한 이해를 하고, Ridge 알고리즘과 Lasso 알고리즘에 대해 알아보자. 정규화 방법론은 다른 단어로 Regularized Method, Penalized Method, Contrained Least Squares라고도 불리어진다. 그리고 정규화를 하는 이유는 선형회귀 계수(weight)에 제약조건을 추가하여 모델이 과적합되는 것을 막는 것이라고 할 수 있다. 본격적으..
변동 통계량이란 데이터의 변동성을 나타내는 수치를 의미한다. 따라서 데이터 변동 통계량이란 데이터의 변동성을 나타내는 수치를 의미한다. 기본적인 통계량은 아래의 링크를 참고하자. 2021.03.26 - [데이터분석] - 기초 통계 정리_중심 통계량 변동 통계량 데이터의 변동성을 나타내는 수치로 데이터 분석의 기초이다. 따라서 헷갈리는 개념이 있다면 이해하고 넘어가자. 기본적으로 분산과 표준편차가 클 수록 넓게 퍼져있다는 것을 알 수 있다. 고등수학의 개념이므로 간단히 넘어가겠다. 범위(Range): 최대값과 최솟값의 차이 편차(Deviation): 관측값과 평균의 차이 변동(Variation): 편차 제곱의 합 분산(Variance): 편차 제곱의 합을 데이터의 수로 나눈 값 표준편차(Standard D..
- Total
- Today
- Yesterday
- JavaScript
- Express
- vuejs
- Python
- 클라우데라
- 자료구조
- django
- TensorFlow
- nextjs autoFocus
- next.config.js
- DFS
- useHistory 안됨
- pandas
- error:0308010C:digital envelope routines::unsupported
- mongoDB
- nodejs
- Queue
- useState
- Deque
- logout
- Vue
- BFS
- login
- typescript
- react
- react autoFocus
- NextJS
- 자연어처리
- UserCreationForm
- read_csv
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |