판다스는 다양한 형태의 외부 파일을 읽어와서 데이터프레임으로 변환하는 함수를 제공한다. csv json xlsx등 다양한 파일 확장자를 판다스로 열 수 있다. 판다스의 기초는 아래와 같다. 2021/01/10 - [인공지능(Artificial Intelligence)/python] - [pandas] 판다스 기초 한번에 정리 CSV 파일 데이터 값을 쉼표(,)로 구분하고 있다는 의미로 CSV(comma-separated values)라고 부르는 텍스트 파일이다. 기본적으로 쉼표(,)로 열을 구분하고 줄 바꿈으로 행을 구분한다. 사용법은 판다스 read_csv() 함수에 확장자(.csv)를 포함하여 파일 결로를 입력하면 CSV 파일을 읽어봐서 데이터프레임으로 변환한다. 인덱스를 지정하는 옵션에는 heade..
판다스란 판다스를 사용하는 목적은 서로 다른 여러 가지 유형의 데이터를 **공통의 포맷**으로 정리하는 것으로, 여러 유형의 데이터를 공통의 포맷으로 만들기 위해, **시리즈**(1차원벡터)와 **데이터프레임**(2차원벡터, 행렬)이라는 구조화된 데이터 형식을 제공한다. 시리즈는 여기를 눌러서 간단히 확인 후에 다시 돌아오자. 사실 아래의 내용만 코드로 입력하고 이해한다면, 판다스를 이해하는데 무리가 없을 것이다. 데이터프레임(DataFrame) 판다스의 1차적인 목적은 서로 다른 여러 가지 유형의 데이터를 공통의 포맷으로 정리하는 것이다. 특히 행과 열로 이루어진 2차원 구조의 데이터프레임은 데이터 분석 실무에서 자주 사용된다. 2차원 배열구조는 엑셀이나 관계형 데이터베이스 등 다양한 분야에서 사용된다..
시리즈(Series) 1차원 배열의 형태로 인덱스와 데이터 값은 일대일 대응이 된다. 시리즈의 인덱스란 데이터 값의 위치를 나타내는 역할을 한다. 기본적으로 우리는 딕셔너리와 리스트를 시리즈로 바꾸는 방법을 알아볼 것이다. 딕셔너리 -> 시리즈 변환 pandas.Series(딕셔너리) 기본적인 구조는 위와 같다. 그리고 핵심은 딕셔너리의 카가 시리즈의 인덱스에 대응하고 value값은 시리즈의 데이터 값으로 변환된다. 시리즈를 구성하는 데이터 값의 자료형은 정수형(int64)이다. 인덱스와 데이터만 선택하는 것도 가능하다. # 인덱스 배열 선택하기 Series객체.index # 데이터 값 배열 선택 Series객체.values 리스트 -> 시리즈 변환 import pandas as pd list_data ..
+추가 공공데이터 불러오는 기초에 대한 글을 적기 이전에, 코로나 관련 API를 가지고 오는 질문이 많아서, 샘플 코드를 만들었다. 코드만 필요한 분들은 바로 아래의 URL을 참고하기 바란다. 2021.04.26 - [프로그램 언어/Python] - [공공데이터 API] 코로나 확진자 감염 현황 불러오는 코드 다 생략하고 핵심 위주로 진행해 보겠다. API(Application Programming Interface)란, 기기 간 통신을 통하여 데이터나 정보를 주고 받을 수 있는 것이다. 즉, 사이트끼리 정보를 주고 받는 것이라고 생각하면 된다. 이때 데이터 전송 시 아무꺼나 주는것이 아니라 약속으로 전해논 XML과 Json을 주로 사용한다. (JSON을 더 많이 사용한다.) 우리는 python을 이용해..
더보기 데이터를 불러오는 방법은 많다. 오늘은 numpy를 이용하여 데이터를 불러오겠다. 데이터 다운받기 MovieLens | GroupLens 실습이 필요하신 분은 위의 사이트에 들어가서 영화평점 데이터를 다운받아서 사용해보자.(초보자는 용량이 작은 것을 추천한다.) numpy.loadtxt 사실 loadtxt의 Parameters는 굉장히 많다. 그러나 많이 쓰지 않는다. 빠른 이해를 돕기위해 예시부터 가져왔다. data = np.loadtxt("C:/Users/hanpy/OneDrive/datasets/movielens/ml-1m/ratings.dat", delimiter="::", dtype=np.int64) 다운받은 파일중에 ratings.dat을 불러왔다. 데이터를 뽑으면 다음과 같이 변화한다..
0. 들어가면서 if문은 조건문이다. if문안에 들어가는 문장이 True이면 실행하고 False이면 실행하지 않는다. hanpy = True if hanpy: print("True라서 실행한다.") else: print("False라 else로 왔다.") # False라 else로 왔다. hanpy를 True라고 정의했기 때문에 if문 안에 있는 print문이 출력되고, else문은 출력이 되지 않는다. 1. 비교연산자 if (조건문): 위의 예시와 같이 if문에는 조건문이 들어간다. 그리고 조건문에는 True와 False 말고 비교연산자가 들어갈 수 있다. 비교연산자의 종류는 다음과 같다. x y x == y x != y x >= y x y # True x < y # False x == ..
0. 들어가면서 python으로 숫자를 올림, 내림, 반올림하는 방법에 대해 알아보자. 여기서 중점적으로 생각해야 할 내용은 음수일 때 올림, 내림, 반올림 되는 기준이 수의 크기인가 아니면 0에 가까운가에 대해 생각하면서 글을 읽자. 1. 올림 math 모듈의 ceil을 사용한다. 이때 양수, 음수 상관 없이 양수쪽으로 올림한다. import math math.ceil(-3.14) # -3 math.ceil(3.14) # 4 2. 내림 math 모듈을 사용한다. 기본적으로 floor함수과 trunc 함수를 사용한다. 둘의 차이는 아래의 예제를 통해 파악하자. floor() 함수는 내림 시 아래로만 향한다. trunc() 함수는 내림 시 0으로 향한다. trunc()는 int()와 같은 결과를 반환한다...
0. 들어가면서 from tensorflow.keras.preprocessing.text import Tokenizer tensorflow를 활용하여 Tokenizer로 전처리하는 방법을 알아보자. Tokenizer로 처음부터 모델 넣기 전까지의 과정을 진행해 보자. 자연어 처리에 대해 좀 더 알아보려면 아래의 블로그를 참고하자. han-py.tistory.com/281 1. Tokenizer란 Tokenizer은 사전에 있는 단어의 순서에 맞게 단어를 turning하면서 말뭉치를 벡터화시킨다. tf.keras.preprocessing.text.Tokenizer( num_words=None, filters='!"#$%&()*+,-./:;?@[\\]^_`{|}~\t\n', lower=True, split=..
- Total
- Today
- Yesterday
- mongoDB
- react
- 자연어처리
- useHistory 안됨
- DFS
- 클라우데라
- useState
- NextJS
- JavaScript
- next.config.js
- Vue
- Python
- Queue
- vuejs
- typescript
- Express
- nextjs autoFocus
- nodejs
- logout
- TensorFlow
- login
- 자료구조
- UserCreationForm
- BFS
- error:0308010C:digital envelope routines::unsupported
- Deque
- django
- pandas
- react autoFocus
- read_csv
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |