티스토리 뷰

반응형

시리즈(Series)

1차원 배열의 형태로 인덱스와 데이터 값은 일대일 대응이 된다. 시리즈의 인덱스란 데이터 값의 위치를 나타내는 역할을 한다. 기본적으로 우리는 딕셔너리와 리스트를 시리즈로 바꾸는 방법을 알아볼 것이다.

 

 

 

 

딕셔너리 -> 시리즈 변환

pandas.Series(딕셔너리)

기본적인 구조는 위와 같다. 그리고 핵심은 딕셔너리의 카가 시리즈의 인덱스에 대응하고 value값은 시리즈의 데이터 값으로 변환된다.

  • 시리즈를 구성하는 데이터 값의 자료형은 정수형(int64)이다.

 

 

인덱스와 데이터만 선택하는 것도 가능하다.

# 인덱스 배열 선택하기
Series객체.index

# 데이터 값 배열 선택
Series객체.values

 

 

 

 

리스트 -> 시리즈 변환

import pandas as pd

list_data = ['2019-01-02', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)
print(sr)
print()

idx = sr.index
val = sr.values
print(idx)
print()
print(val)

  • 별도의 인덱스를 정의하지 않으면 자동으로 인덱스가 지정되는 것을 볼 수있다.

 

 

튜플 -> 시리즈 변환

import pandas as pd

tup_data = ('파이썬', '2021-01-01', '남', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)

위에서의 핵심은 index값을 숫자가 아닌 값을 넣을 수 있다는 것이다. 튜플 뿐만 아니라 리스트에서도 가용가능하다. 그리고 튜플도 마찬가지로 index값을 안 넣으면 자동으로 0부터 들어간다.

 

 

위의 코드에서 '파이썬'을 출력하는 방법은 아래와 같이 2가지가 있다. 정수형 위치 인덱스를 사용하는 방식과 인덱스 이름(라벨)을 사용하는 방식으로 나뉜다. 인덱스 이름을 사용할 때에는 따옴표를 넣어준다.

sr[0]         # python
sr['이름']     # python

 

 

여러개의 원소를 선택하는 방법은 리스트를 활용하는 방법과 범위를 지정하는 방법으로 두가지가 있다.

# 리스트에 원소를 넣어서 추출한다.
print(sr[[0, 1, 2]]) 
print(sr[['이름', '생년월일', '성별']])

# 범위를 지정하여 추출한다.
print(sr[1 :])
print(sr['생년월일' :])

 

 

왜 우리는 판다스의 시리즈나 데이터프레임을 사용할까? 그 이유는 구조화된 데이터 형식으로 만들기 위함이다. 그래서 데이터를 분석이 가능한 형태로 정리하면 된다.

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함