리눅스를 이용해서 외부서버 접속하는 방법을 알아보자. 사실 putty를 활용하는 방법도 있지만, 개인적으로는 Linux를 통해 접속을 해보고자 한다. SSH 서버 접속하기 > 접속하는 방법은 간단하다. 서버명과 IP, 비밀번호만 알면된다. 아래와 같이 명령어를 친 후에 비밀번호를 적어주면 된다. $ ssh 서버명@IP주소 ex_ ssh hanpy@123.12.123.12 SSH 원격 세션 종료하기 > 외부서버에서 원래의 서버로 돌아오는 방법은 아래의 명령어를 통해 간단히 해결가능하다. $ ~. ~는 escape character로 아래와 같이 사용가능하다. ~. - terminate session ~B - send a BREAK to the remote system ~R - Request rekey (S..
현재 개발되고 있는 환경은 윈도우에서 설치한 linux환경을 기준으로 설명을 하겠다. 리눅스 서버에 flume을 설치해보자. 기본적으로 자바 JDK가 설치가 되어 있어야 한다. $ cd /usr/local/ $ mkdir applications $ cd applications user은 어플리케이션이나 라이브러리를 설치할 수 있는 디렉토리이다. 디렉토리에 들어가서 폴더를 하나 만들자. 여기에 apache flume을 설치할 것이다. 이제 홈페이지를 들어가자. flume.apache.org/download.html Download — Apache Flume flume.apache.org 위의 url에 들어가면 아래의 그림이 보일 것이다. binary에서 첫번째부분을 눌러준다. binary는 압축을 풀면, ..
하둡에 대해 알아보기 전에 큰 흐름에서의 하둡에 대해 이해를 해보자. 하둡은 기본적으로 빅데이터를 처리하는 과정 속에서 사용되어진다. 빅데이터를 처리하는 흐름으로는 우선 데이터를 수집한 후에, 저장하고 처리한다. 그 결과를 바탕으로 분석하고 결과를 표현하게 된다. 이러한 단계 중에 빅데이터를 어떻게 저장하고, 저장된 정보를 어떻게 잘 처리하는지에 대한 부분이 하둡이 담당하는 역할이라고 할 수 있다. Hadoop (High-Availability Distributed Object-Oriented Platform) 자바 소프트웨어 프레임워크로 대량의 자료(빅데이터)의 분산 저장과 분석을 위한 분산 컴퓨팅 솔루션이다. 일반적으로 하둡파일시스템(HDFS)과 맵리듀스(MapReduce)프레임워크로 시작되었으나, ..
기본적으로 의료데이터의 분석을 위한 기초 내용은 아래의 url을 참고해서 보고오자. 2021.04.28 - [데이터분석] - 의료데이터 분석하기 입문 kaggle 데이터를 분석해보자. 아래의 심부전증 데이터를 가져오자. www.kaggle.com/andrewmvd/heart-failure-clinical-data Heart Failure Prediction 12 clinical features por predicting death events. www.kaggle.com 1. 데이터셋 준비하기 데이터를 받아서 아래와 같은 코드를 통해 csv파일을 불러오자 df = pd.read_csv('heart_failure_clinical_records_dataset.csv') 컬럼내용 정리 age: 환자의 나이 a..
의료 데이터 현황 의료데이터에서 가장 중요한것은 데이터 수집이다. 개인정보 정책에 의해 과거에는 데이터 수집이 불가능했었다. 그러나 2020.01에 법안이 통과 되면서, 가명정보(개인 식별이 불가능한 데이터)를 사용 할 수 있게 됐다. 즉, 민간 연구자에게 데이터 제공이 가능해 짐에 따라 바이오 데이터 분석가 들이 유망해지고 있고. 의료 데이터의 수집도 탄력을 받아 발전하고 있다. Confusion matrics 사실 이글을 적은 이유는 바로 이부분을 적기 위함이다. 의료데이터를 분석하기 위해서는 Accuracy, Precision, Recall의 차이점에 대해 이해를 해야한다. 1. Confusion Matrix 모형을 예측하는 값에는 True와 False가 있다. 그리고 아래의 그림과 같이 모형의 예..
직역하면 일반 최소 제곱 회귀는 하나 이상의 독립 변수와 종속 변수 간의 관계를 추정하는 통계 분석 방법이다. 관계를 추정하는 방법은 직선으로 구성된 종속 변수의 관측값과 예측값의 차이의 제곱을 합을 최소화하는 관계로 추정을 한다. 기본적으로 독립변수가 하나만 있는 모델의 직선은 아래와 같다. Y = aX + b 위의 식은 기본적인 1차 방정식이고, 독립변수(X)와 종속변수(Y)의 관계를 적절하게 표현하는 a와 b(OLS 계수)를 찾게 된다. 찾은 식이 실제값과의 차이의 제곱을 최소화하는 식을 찾는 것이 목적이라고 할 수 있다. 기본적으로 직선으로 표현하기 때문에 종속변수(Y)를 정확하게 예측하는 것은 불가능하다. 보통 데이터가 회귀선에 얼마나 잘 맞는지는 결정계수(R^2)로 확인을 한다. 정리하면 선형..
random은 자주 쓰이긴 하지만, 딱히 기억이 잘 나지 않는다. 그래서 따로 정리해 두려고 한다. 기본적으로 아래와 같이 numpy를 불러오자. import numpy as np 기본적으로 Random sampling을 하기위해서는 무작위로 숫자를 뽑기보단 정규분포나 균등분포에 해당하는 값을 자주 뽑아서 사용한다. 그래서 우선 정규분포와 균등분포의 랜덤값을 뽑는 방식을 사용해 보자. 균등분포(random.uniform) 균등분포란 분포가 특정 범위 내에서 균등하게 나타나 있을 경우이다. 코드는 아래와 같다. x = np.random.uniform(0, 1, 100) x.mean() # 0.4603131627939298 plt.plot(x) plt.show() 인자는 최소값, 최대값, 개수 순서로 넣어주..
- Total
- Today
- Yesterday
- Express
- Python
- read_csv
- useState
- nextjs autoFocus
- NextJS
- error:0308010C:digital envelope routines::unsupported
- DFS
- vuejs
- UserCreationForm
- mongoDB
- BFS
- 자료구조
- Queue
- logout
- 클라우데라
- nodejs
- useHistory 안됨
- django
- 자연어처리
- typescript
- Vue
- next.config.js
- react autoFocus
- TensorFlow
- react
- login
- pandas
- Deque
- JavaScript
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |