티스토리 뷰

 

판다스(pandas)란

 

판다스는 파이썬 언어로 작성된 데이터 분석 및 조작 라이브러리입니다. 판다스는 수치형 테이블과 시계열 데이터를 조작하고 운영하기 위한 데이터를 제공합니다. 이름에 판다(panda)가 들어가지만, 실제 동물인 판다와는 아무런 관계가 없다고 합니다. 

 

 

 

판다스 데이터프레임

 

판다스의 데이터프레임은 2차원 배열 형태의 자료구조로써, 행 방향과 열 방향을 나타내기 위해 두 가지 종류의 주소를 사용합니다. 각각은 행 인덱스(row index)와 열 이름(column name)입니다.

 

 

데이터프레임 생성 및 조회 예제

 

판다스를 사용하기 위해서는 파이썬 환경에 판다스가 설치되어 있어야 합니다. 여기에서는 pycharm CE 에디터를 사용해서 예제를 진행하도록 하겠습니다. 

 

 

프로젝트 인터프리터 설정으로 들어가서 판다스 설치부터 진행하겠습니다. 위 이미지는 설치 전의 모습입니다(OS X, Pycham CE). 

하단에 보이는 '+' 기호는 패키지 설치를 위한 아이콘인데, 이를 클릭하여 패키지 설치로 이동합니다. 

 

 

pandas 패키지를 검색하고 install package를 진행합니다.

 

 

pandas 설치가 완료되었습니다. 이제 코드를 작성하겠습니다. 프로젝트에 sample.py 라는 이름의 파일을 만들고 아래와 같이 코드를 작성합니다.

 

sample.py

1
2
3
4
5
6
7
8
9
import pandas as pd
 
# 파이썬 딕셔너리를 데이터프레임으로 변환하기
data = {
    'col1' : [1,3,5,7,9],
    'col2' : [2,4,6,8,10]
}
df = pd.DataFrame(data, index=['row1''row2''row3''row4''row5'])
print(df)
1
2
3
4
5
6
      col1  col2
row1     1     2
row2     3     4
row3     5     6
row4     7     8
row5     9    10

첫번째 예제는 딕셔너리를 DataFrame 클래스에 전달하여(생성자) 데이터를 2차원으로 변환하는 코드입니다. 딕셔너리의 키(key)가 각 열의 이름이 되고, 클래스에 전달된 index라는 인자를 통해 행 인덱스를 지정할 수 있습니다.

 

다음은 두 번째 예제입니다. 

 

sample2.py

1
2
3
4
5
6
7
8
import pandas as pd
 
# 파이썬 리스트를 데이터프레임으로 변환하기
data = [[1,2,3,4,5], [6,7,8,9,10]]
 
df = pd.DataFrame(data, index=['row1''row2'],
                  columns=['col1','col2','col3','col4','col5'])
print(df)
1
2
3
      col1  col2  col3  col4  col5
row1     1     2     3     4     5
row2     6     7     8     9    10

두번째 예제는 리스트를 DataFrame 클래스에 전달하며 변환하는 코드입니다. 여기에는 딕셔너리의 키에 해당하는 데이터가 없기 때문에, 클래스에 인자를 하나 더 추가하였습니다. columns 라는 인자는 각 열의 이름을 지정할 수 있는 인자입니다. 

 

 

댓글
공지사항