판다스란 판다스를 사용하는 목적은 서로 다른 여러 가지 유형의 데이터를 **공통의 포맷**으로 정리하는 것으로, 여러 유형의 데이터를 공통의 포맷으로 만들기 위해, **시리즈**(1차원벡터)와 **데이터프레임**(2차원벡터, 행렬)이라는 구조화된 데이터 형식을 제공한다. 시리즈는 여기를 눌러서 간단히 확인 후에 다시 돌아오자. 사실 아래의 내용만 코드로 입력하고 이해한다면, 판다스를 이해하는데 무리가 없을 것이다. 데이터프레임(DataFrame) 판다스의 1차적인 목적은 서로 다른 여러 가지 유형의 데이터를 공통의 포맷으로 정리하는 것이다. 특히 행과 열로 이루어진 2차원 구조의 데이터프레임은 데이터 분석 실무에서 자주 사용된다. 2차원 배열구조는 엑셀이나 관계형 데이터베이스 등 다양한 분야에서 사용된다..
시리즈(Series) 1차원 배열의 형태로 인덱스와 데이터 값은 일대일 대응이 된다. 시리즈의 인덱스란 데이터 값의 위치를 나타내는 역할을 한다. 기본적으로 우리는 딕셔너리와 리스트를 시리즈로 바꾸는 방법을 알아볼 것이다. 딕셔너리 -> 시리즈 변환 pandas.Series(딕셔너리) 기본적인 구조는 위와 같다. 그리고 핵심은 딕셔너리의 카가 시리즈의 인덱스에 대응하고 value값은 시리즈의 데이터 값으로 변환된다. 시리즈를 구성하는 데이터 값의 자료형은 정수형(int64)이다. 인덱스와 데이터만 선택하는 것도 가능하다. # 인덱스 배열 선택하기 Series객체.index # 데이터 값 배열 선택 Series객체.values 리스트 -> 시리즈 변환 import pandas as pd list_data ..
+추가 공공데이터 불러오는 기초에 대한 글을 적기 이전에, 코로나 관련 API를 가지고 오는 질문이 많아서, 샘플 코드를 만들었다. 코드만 필요한 분들은 바로 아래의 URL을 참고하기 바란다. 2021.04.26 - [프로그램 언어/Python] - [공공데이터 API] 코로나 확진자 감염 현황 불러오는 코드 다 생략하고 핵심 위주로 진행해 보겠다. API(Application Programming Interface)란, 기기 간 통신을 통하여 데이터나 정보를 주고 받을 수 있는 것이다. 즉, 사이트끼리 정보를 주고 받는 것이라고 생각하면 된다. 이때 데이터 전송 시 아무꺼나 주는것이 아니라 약속으로 전해논 XML과 Json을 주로 사용한다. (JSON을 더 많이 사용한다.) 우리는 python을 이용해..
더보기 데이터를 불러오는 방법은 많다. 오늘은 numpy를 이용하여 데이터를 불러오겠다. 데이터 다운받기 MovieLens | GroupLens 실습이 필요하신 분은 위의 사이트에 들어가서 영화평점 데이터를 다운받아서 사용해보자.(초보자는 용량이 작은 것을 추천한다.) numpy.loadtxt 사실 loadtxt의 Parameters는 굉장히 많다. 그러나 많이 쓰지 않는다. 빠른 이해를 돕기위해 예시부터 가져왔다. data = np.loadtxt("C:/Users/hanpy/OneDrive/datasets/movielens/ml-1m/ratings.dat", delimiter="::", dtype=np.int64) 다운받은 파일중에 ratings.dat을 불러왔다. 데이터를 뽑으면 다음과 같이 변화한다..
0. 들어가면서 if문은 조건문이다. if문안에 들어가는 문장이 True이면 실행하고 False이면 실행하지 않는다. hanpy = True if hanpy: print("True라서 실행한다.") else: print("False라 else로 왔다.") # False라 else로 왔다. hanpy를 True라고 정의했기 때문에 if문 안에 있는 print문이 출력되고, else문은 출력이 되지 않는다. 1. 비교연산자 if (조건문): 위의 예시와 같이 if문에는 조건문이 들어간다. 그리고 조건문에는 True와 False 말고 비교연산자가 들어갈 수 있다. 비교연산자의 종류는 다음과 같다. x y x == y x != y x >= y x y # True x < y # False x == ..
0. 들어가면서 python으로 숫자를 올림, 내림, 반올림하는 방법에 대해 알아보자. 여기서 중점적으로 생각해야 할 내용은 음수일 때 올림, 내림, 반올림 되는 기준이 수의 크기인가 아니면 0에 가까운가에 대해 생각하면서 글을 읽자. 1. 올림 math 모듈의 ceil을 사용한다. 이때 양수, 음수 상관 없이 양수쪽으로 올림한다. import math math.ceil(-3.14) # -3 math.ceil(3.14) # 4 2. 내림 math 모듈을 사용한다. 기본적으로 floor함수과 trunc 함수를 사용한다. 둘의 차이는 아래의 예제를 통해 파악하자. floor() 함수는 내림 시 아래로만 향한다. trunc() 함수는 내림 시 0으로 향한다. trunc()는 int()와 같은 결과를 반환한다...
0. 들어가면서 코드를 바로 보면서 설명을 해 보겠다. 1. 기본 예제 config.py라는 파일을 만들어서 아래의 내용을 적었다고 가정하자. import argparse parser = argparse.ArgumentParser() parser.parse_args() 저장한 파일을 실행해보자. 아무일도 일어나지 않는다. 2. add_ArgumentParser() 추가 import argparse parser = argparse.ArgumentParser() parser.add_argument("echo") args = parser.parse_args() print(args.echo) add_argument() 매서드를 추가했다. 이 메서드는 프로그램이 받고 싶은 명령행 옵션을 지정하기 위해 사용한다. ..
Numpy 기초 1. NumPy 배열 NumPy는 과학 연산을 위한 파이썬 핵심 라이브러리 NumPy는 고성능 다차원 배열과 이런 배열을 처리하는 다양한 함수와 툴을 제공 사용법 import numpy as np 버전확인 np.__version__ NumPy 배열구조는 Shape이다 배열은 파이썬 튜플 자료형을 이용하여 정의한다. shape가 (28, 28, 3)이라면 3차원 배열이고 사진은 높이가 28, 폭이 28, 각 픽셀은 4개 채널(RGB)로 구성된 데이터 구조를 갖는다. 다차원 배열은 입체적인 데이터 구조를 가지고 데이터의 차원은 여러 갈래의 데이터 방향을 갖는다. 이때 데이터 방향은 axis로 표현할 수 있다. 향방향(높이), 열방향(폭), 채널 방향은 각각 axis=0, axis=1 그리고 ..
- Total
- Today
- Yesterday
- nodejs
- JavaScript
- react
- login
- Deque
- typescript
- Python
- useState
- pandas
- error:0308010C:digital envelope routines::unsupported
- read_csv
- logout
- 자료구조
- TensorFlow
- next.config.js
- Express
- NextJS
- mongoDB
- BFS
- Vue
- react autoFocus
- nextjs autoFocus
- 자연어처리
- 클라우데라
- Queue
- UserCreationForm
- useHistory 안됨
- DFS
- vuejs
- django
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |