[pandas] 시리즈(Series) 기초정리

티스토리 뷰

인공지능(Artificial Intelligence)/python

[pandas] 시리즈(Series) 기초정리

HAN_PY 2021. 1. 9. 16:53

시리즈(Series)

1차원 배열의 형태로 인덱스와 데이터 값은 일대일 대응이 된다. 시리즈의 인덱스란 데이터 값의 위치를 나타내는 역할을 한다. 기본적으로 우리는 딕셔너리와 리스트를 시리즈로 바꾸는 방법을 알아볼 것이다.

딕셔너리 -> 시리즈 변환

pandas.Series(딕셔너리)

기본적인 구조는 위와 같다. 그리고 핵심은 딕셔너리의 카가 시리즈의 인덱스에 대응하고 value값은 시리즈의 데이터 값으로 변환된다.

시리즈를 구성하는 데이터 값의 자료형은 정수형(int64)이다.

인덱스와 데이터만 선택하는 것도 가능하다.

# 인덱스 배열 선택하기
Series객체.index

# 데이터 값 배열 선택
Series객체.values

리스트 -> 시리즈 변환

import pandas as pd

list_data = ['2019-01-02', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)
print(sr)
print()

idx = sr.index
val = sr.values
print(idx)
print()
print(val)

별도의 인덱스를 정의하지 않으면 자동으로 인덱스가 지정되는 것을 볼 수있다.

튜플 -> 시리즈 변환

import pandas as pd

tup_data = ('파이썬', '2021-01-01', '남', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)

위에서의 핵심은 index값을 숫자가 아닌 값을 넣을 수 있다는 것이다. 튜플 뿐만 아니라 리스트에서도 가용가능하다. 그리고 튜플도 마찬가지로 index값을 안 넣으면 자동으로 0부터 들어간다.

위의 코드에서 '파이썬'을 출력하는 방법은 아래와 같이 2가지가 있다. 정수형 위치 인덱스를 사용하는 방식과 인덱스 이름(라벨)을 사용하는 방식으로 나뉜다. 인덱스 이름을 사용할 때에는 따옴표를 넣어준다.

sr[0]         # python
sr['이름']     # python

여러개의 원소를 선택하는 방법은 리스트를 활용하는 방법과 범위를 지정하는 방법으로 두가지가 있다.

# 리스트에 원소를 넣어서 추출한다.
print(sr[[0, 1, 2]]) 
print(sr[['이름', '생년월일', '성별']])

# 범위를 지정하여 추출한다.
print(sr[1 :])
print(sr['생년월일' :])

왜 우리는 판다스의 시리즈나 데이터프레임을 사용할까? 그 이유는 구조화된 데이터 형식으로 만들기 위함이다. 그래서 데이터를 분석이 가능한 형태로 정리하면 된다.

'인공지능(Artificial Intelligence) > python' 카테고리의 다른 글

[pandas] csv 파일 열기 (0)	2021.01.11
[pandas] 판다스 기초 한번에 정리 (2)	2021.01.10
공공데이터(XML, JSON)을 python으로 불러오기_기초 (1)	2021.01.08
[numpy] 넘파이 데이터 가져오기 (0)	2021.01.08
python if문 기초 정리 (0)	2020.12.23

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

글 보관함

AI Platform / Web

티스토리 뷰