머신러닝에 대한 기초적인 개념을 정리하고, 데이터를 가져와서 판다스로 전처리 후에 사이킷런을 이용하여 모델을 만들고 분석을 해볼 것이다. 출퇴근하면서 핸드폰으로 쭉 보는 것을 추천한다. 머신러닝 프로세스 머신러닝 데이터 분석을 하기 위해서 컴퓨터 알고리즘이 이해할 수 있도록 관측값(observation)을 속성(feature)기준으로 정리가 필요하다. 따라서 판다스를 이용하여 정리가 필요하다. 데이터프레임에서 열은 속성을 나타내는 변수고, 행은 하나의 관측값이다. 데이터프레임으로 정리를 했으면, 모형을 학습하기 위해 사용되어지는 훈련 데이터(train data)와, 학습이 마친 모형의 예측 능력을 평가하기 위한 검증 데이터(test data)로 나눠줘야 한다. 기본적으로 판다스에 대한 설명은 아래의 ur..
확률에 대해 공부해 보자 경우의 수 어떤 사건에 대하여 일어날 수 있는 모든 경우에 대한 가짓수를 의미한다. P(확률) = (사건 A가 일어나는 경우의 수) / (모든 경우의 수) 예제를 통해 익혀보자. 주사위를 던졌을때 짝수가 나올 확률 구하기 def probability(space, event): return len(event)/len(space) space = {1, 2, 3, 4, 5, 6} event = {2, 4, 6} result = probability(space, event) print(result) ''' 0.5 ''' 1~20까지 써있는 주사위를 던졌을때 3의 배수가 나올 확률 def probability(space, event): return event/space def Multip..
urllib 파이썬에서는 웹과 관련된 데이터를 쉽게 다룰 수 있도록 urllib모듈을 제공한다. python2 버전에서의 urlparse가 python3에서는 urllib.parse로 변경됐다. docs.python.org/3/library/urllib.html#module-urllib urllib — URL handling modules — Python 3.9.1 documentation docs.python.org 위의 내용이 공식문서이다. 아래의 내용은 자주 사용하는 내용위주로 정리해 보겠다. 공식문서에서 볼 수 있듯, urllib은 모듈을 핸들링하는 URL이라고 적혀있다. urllib의 모듈에는 urllib.request, urllib.error, urllib.parse, urllib.robotp..
우리는 파이썬의 딕셔너리를 엑셀파일로 만들기위해 판다스를 활용할 것이다. 판다스 기초는 여기를 눌러서 확인해보자. exel 파일로 저장할 때는 to_excel() 메서드를 적용한다. 아나콘다에서는 openpyxl 라이브러리가 사전에 설치되서 바로 사용하면 되지만, 만약 to_excel()이 안된다면, 아래와 같이 파이썬 라이브러리를 설치하자. $ pip install openpyxl 이제 코드를 작성해 보자. import pandas as pd data = {'name' : [ 'Jerry', 'Riah'], 'algol' : [ "A", "A+"], 'basic' : [ "C", "B"] } df = pd.DataFrame(data) df.set_index('name', inplace=True) #na..
우리는 구글 지오코딩 API를 활용해서 장소(ex_'강남', '해운대해수욕장', 황상동)를 보내면 위도와 경도를 받는 코드를 만들어 보자. 기본적으로 구글 클라우드를 가입한다. 그리고 프로젝트를 생성 후에 인증키를 받아둔다. 이 부분은 여기를 보고 오자. 여러 구글링을 통해 위의 단계를 마쳤다면 이제 아래의 방법을 따라오자. 우리는 구글 클라우드 플랫폼을 이용하여 간단히 장소를 적으면 위도, 경도를 받는 프로그램을 만들어 볼 것이다. 물론 ip로 받는 방법도 있다. ip로 위도와 경도를 아는 방법은 아래의 url을 참고하자. han-py.tistory.com/235 python_ip를 통해 사용자 위치 파악하기 0. 들어가면서 빠르게 개발해야하는 개발자들을 위해 개념 설명없이 간단하게 핵심만 담았다. 방..
판다스의 read_html() 함수는 HTML 웹 페이지에 있는 태그에서 표 형식의 데이터를 모두 찾아서 데이터프레임으로 변환한다. 그리고 각각의 표를 원소로 가지는 리스트가 반환된다. 아래의 html이 있다고 하자. 코드를 보면 아래와 같다. c0 c1 c2 c3 0 0 1 4 7 1 1 2 5 8 2 2 3 6 9 name year developer opensource NumPy 2006 Travis Oliphant True matplotlib 2003 John D. Hunter True pandas 2008 Wes Mckinneye True html에 대한 자세한 설명은 생략하겠다. 관련 내용은 여기를 클릭하자. 그렇다면 이제 불러서 확인을 해보자. # html_file.html로 저장된 문서를 임..
JSON 파일은 데이터 공유를 목적으로 개발된 특수한 파일 형식이다. 파이썬 딕셔너리와 비슷하게 'key:value' 구조를 갖는다. 예제는 다음과 같다. 기본적인 파이썬의 json 라이브러리를 사용하는 방식은 여기를 눌러서 확인하자. 우리는 판다스로 json을 데이터 프레임으로 바꿀 것이다. 다음의 json 내용이 있다고 가정해 보자. # json_file.json 파일 내용 { "name":{"pandas":"", "NumPy":"", "matplotlib":""}, "year":{"pandas":2008, "NumPy":2006, "matplotlib":2003}, "developer":{"pandas":"Wes Mckinneye", "NumPy":"Travis Oliphant", "matplotl..
Excel 파일(.xlsx)의 행과 열은 데이터프레임의 행과 열로 일대일 대응된다. CSV 파일 열기와 마찬가지로 header, index_col 등의 대부분 옵션은 사용 할 수 있고 read_csv() 함수를 사용하여 연다. 불러올 엑셀 데이터는 아래와 같다고 가정해 보자. 전력량 전력별 2020 2021 2022 2033 남한 수력 63 24 52 45 화력 645 456 655 456 북한 수력 34 55 34 52 화력 152 123 166 122 # 발전량.xlsx를 불러온다. import pandas as pd # df1 = pd.read_excel('./발전량.xlsx') #output 전력량전력별 2020 2021 2022 2033 0 남한 수력 63 24 52 45 1 NaN 화력645 ..
- Total
- Today
- Yesterday
- Vue
- UserCreationForm
- nodejs
- NextJS
- useState
- TensorFlow
- 자료구조
- Express
- DFS
- next.config.js
- vuejs
- useHistory 안됨
- react
- logout
- pandas
- BFS
- typescript
- read_csv
- 자연어처리
- Deque
- Python
- react autoFocus
- JavaScript
- mongoDB
- nextjs autoFocus
- 클라우데라
- django
- login
- Queue
- error:0308010C:digital envelope routines::unsupported
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |