PyR 스터디 그룹 @ 광운대 경영학부: 판다스 기초 -데이터 불러오기 (데이터분석 실무 with 파이썬)

판다스 기초 -데이터 불러오기 (데이터분석 실무 with 파이썬)

안녕하세요 저는 경영학과 17학번 이지윤입니다.
방학을 맞아 PyR활동과 함께 파이썬 공부를 계획했는데요

저는 파이썬을 기본 of 기본만 알고 있는 상태라
앞으로 글은 저와 같은 초보자분들도
잘 따라오실 수 있도록 작성하도록 하겠습니다 :)

제가 사용한 책은
"직장인을 위한 데이터 분석 실무 with 파이썬"

입니다.

(모든 데이터의 출처는 위 책입니다.)

2단원인 데이터 분석 기초부터 포스팅하려고합니다.
(1단원은 준비 단원이기 때문에..)

2단원의 주 내용은
판다스 기초와 웹크롤링 기초입니다.

저는 파이참을 사용하고 있습니다.

또한 판다스pandas를 사용하기 위해서는

'아나콘다'라는 라이브러리를 다운해야합니다.

https://www.anaconda.com/products/individual

이 사이트에서 다운을 받으시면 됩니다.

(1)판다스pandas란?

"판다스pandas"

우리가 가장 많이 접하는 데이터의 형태는 엑셀의 스프레드 시트 같은

로우row와 칼럼column으로 구성된 테이블 형태입니다.

pandas는 테이블 형태의 데이터를 쉽게 다룰 수 있는 파이썬 라이브러리입니다.

(라이브러리란 여러 함수를 모아 놓은 함수 모음)

-파이참과 아나콘다 연결하기

새로운 프로젝트를 형성했을 때, Location 아래에 있는 Python Interpreter: Python 3.9를 누르시면 위 사진과 같이 항목들이 나타납니다. 여기서 Previously configured Interpreter을 선택, Interpreter에서 아나콘다를 선택해주면 됩니다.

-xlrd 패키지 설치하기

판다스를 공부하면서 엑셀 데이터 파일을 활용하게 되는데요, 엑셀을 파이참에서 불러오기 위해서는 'xlrd'라는 패키지를 추가로 다운받아야합니다.

File-Setting-Project:pythonProject-Python Interpreter 에서 아래쪽에 보이는 +를 눌러줍니다.

xlrd 검색 후 install package 를 클릭해줍니다.

(2) 데이터 불러오기

제가 사용한 엑셀 데이터는 아래와 같습니다.

엑셀 파일은 아래 링크를 클릭하시면 다운하실 수 있습니다.

https://drive.google.com/file/d/1AWo8p8CUnu5VOcNqNdAkiZFni2s66K_y/view?usp=sharing

-예제 2-1: 엑셀 데이터 불러오기, head(), tail()

import pandas는 pandas 라이브러리를 불러오라는 뜻입니다.

pandas.함수명()의 형태로 pandas 안의 함수를 사용할 수 있는데 이를 as ~를 입력해 pandas 를 간단히 지칭할 수 있습니다. (저는 위에서 as pd를 입력했습니다.)

pd.read.excel 을 이용하면 엑셀 데이터를 불러오는 함수입니다.

header은 칼럼명의 위치를 의미합니다. 파이썬에서는 1이 아닌 0으로 시작되기 때문에 두번째 로우는 1로 표현합니다.

skipfooter=2는 마지막 로우 두 줄을 생략 즉 스킵하라는 뜻입니다.

usecols='A:C'는 A칼럼부터 C 칼럼까지를 사용한다는 의미입니다.

head()함수를 사용하면 처음부터 3번째 로우까지 보여줍니다.

tail()함수를 사용하면 마지막부터 3번째 로우까지 보여줍니다.

여기서 이 주소?는 파일의 경로를 의미하는데요

r'C:\Users\user\Desktop\pyr 데이터분석\sample_1.xlsx'

저는 오른쪽 버튼을 눌러 속성-보안-개체이름: 에서 가지고 왔습니다.

+) 저는 여기서 에러가 났었습니다.

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape

위와 같은 에러가 났었는데, 이는 역슬래시 때문에 발생한에러입니다. (/ 의반대모양)

파이썬에서 특수문자 '역슬래시'의 활용도가 꽤 다양하기 때문에 이로 인해 주소 내에 문자를 유니코드로 인식을 해 에러가 난 것입니다.

해결방법은 다음과 같습니다 (예시)

'C:\Windows\Fonts\NanumBarunGothic.ttf' 의 경우

r'C:\Windows\Fonts\NanumBarunGothic.ttf'

'C:\\Windows\\Fonts\\NanumBarunGothic.ttf'

로 바꿔줍니다.

그래서 저는

r'C:\Users\user\Desktop\pyr 데이터분석\sample_1.xlsx'

로 바꾸어주었습니다.

-예제2-2: 데이터 정보 살펴보기

info() 함수는 데이터에 대한 요약 정보를 제공합니다.

결과 해석 ↓

<class 'pandas.core.frame.DataFrame'>

이 데이터는 판다스의 데이터프레임 클래스다.

RangeIndex: 6 entries, 0 to 5

0~5까지, 총 6로우로 구성되어 있다.

Data columns (total 3 columns):

총 3개의 칼럼을 가지고 있다.

6 non-null

해당 칼럼은 빈 칸 없이 6개의 로우로 구성돼 있다.

object

문자 속성 변수

int64

정수형 속성 변수

memory usage: 272.0+ bytes

이 데이터는 272 바이트 차지한다.

-예제2-3: 데이터 기초통계량 확인

describe() 함수는 숫자 형 변수에 대한 여러 가지 통계량을 입력하는 함수입니다.

개수, 평균값, 표준편차, 최솟값, 1사분위수, 2사분위수(중위수), 3사분위수, 최댓값을 의미합니다.

오늘은 판다스pandas 를 이용해 데이터를 불러오고, 데이터의 전반적인 정보를 읽는법을 공부해보았습니다. 다음 글에서는 데이터를 원하는 부분을 선택하는 방법을 공부해보도록 하겠습니다.

댓글 1개:

TagKim2021년 1월 9일 오전 8:07
재밌습니다. 유용합니다.
답글삭제
답글

피드 구독하기: 댓글 (Atom)