안녕하세요 저는 경영학과 17학번 이지윤입니다.방학을 맞아 PyR활동과 함께 파이썬 공부를 계획했는데요저는 파이썬을 기본 of 기본만 알고 있는 상태라앞으로 글은 저와 같은 초보자분들도잘 따라오실 수 있도록 작성하도록 하겠습니다 :)제가 사용한 책은"직장인을 위한 데이터 분석 실무 with 파이썬"
입니다.
(모든 데이터의 출처는 위 책입니다.)
2단원인 데이터 분석 기초부터 포스팅하려고합니다.(1단원은 준비 단원이기 때문에..)2단원의 주 내용은판다스 기초와 웹크롤링 기초입니다.
저는 파이참을 사용하고 있습니다.
또한 판다스pandas를 사용하기 위해서는
'아나콘다'라는 라이브러리를 다운해야합니다.
https://www.anaconda.com/products/individual
이 사이트에서 다운을 받으시면 됩니다.
(1)판다스pandas란?
"판다스pandas"
우리가 가장 많이 접하는 데이터의 형태는 엑셀의 스프레드 시트 같은
로우row와 칼럼column으로 구성된 테이블 형태입니다.
pandas는 테이블 형태의 데이터를 쉽게 다룰 수 있는 파이썬 라이브러리입니다.
(라이브러리란 여러 함수를 모아 놓은 함수 모음)
-파이참과 아나콘다 연결하기
새로운 프로젝트를 형성했을 때, Location 아래에 있는 Python Interpreter: Python 3.9를 누르시면 위 사진과 같이 항목들이 나타납니다. 여기서 Previously configured Interpreter을 선택, Interpreter에서 아나콘다를 선택해주면 됩니다.
-xlrd 패키지 설치하기
판다스를 공부하면서 엑셀 데이터 파일을 활용하게 되는데요, 엑셀을 파이참에서 불러오기 위해서는 'xlrd'라는 패키지를 추가로 다운받아야합니다.
File-Setting-Project:pythonProject-Python Interpreter 에서 아래쪽에 보이는 +를 눌러줍니다.
xlrd 검색 후 install package 를 클릭해줍니다.
(2) 데이터 불러오기
제가 사용한 엑셀 데이터는 아래와 같습니다.
엑셀 파일은 아래 링크를 클릭하시면 다운하실 수 있습니다.
https://drive.google.com/file/d/1AWo8p8CUnu5VOcNqNdAkiZFni2s66K_y/view?usp=sharing
-예제 2-1: 엑셀 데이터 불러오기, head(), tail()
import pandas는 pandas 라이브러리를 불러오라는 뜻입니다.
pandas.함수명()의 형태로 pandas 안의 함수를 사용할 수 있는데 이를 as ~를 입력해 pandas 를 간단히 지칭할 수 있습니다. (저는 위에서 as pd를 입력했습니다.)
pd.read.excel 을 이용하면 엑셀 데이터를 불러오는 함수입니다.
header은 칼럼명의 위치를 의미합니다. 파이썬에서는 1이 아닌 0으로 시작되기 때문에 두번째 로우는 1로 표현합니다.
skipfooter=2는 마지막 로우 두 줄을 생략 즉 스킵하라는 뜻입니다.
usecols='A:C'는 A칼럼부터 C 칼럼까지를 사용한다는 의미입니다.
head()함수를 사용하면 처음부터 3번째 로우까지 보여줍니다.
tail()함수를 사용하면 마지막부터 3번째 로우까지 보여줍니다.
여기서 이 주소?는 파일의 경로를 의미하는데요
r'C:\Users\user\Desktop\pyr 데이터분석\sample_1.xlsx'
저는 오른쪽 버튼을 눌러 속성-보안-개체이름: 에서 가지고 왔습니다.
SyntaxError:
(unicode error) 'unicodeescape' codec can't decode bytes in position 2-3:
truncated \UXXXXXXXX escape
'C:\Windows\Fonts\NanumBarunGothic.ttf'
의 경우
r'C:\Windows\Fonts\NanumBarunGothic.ttf'
로 바꿔줍니다.
그래서 저는
r'C:\Users\user\Desktop\pyr
데이터분석\sample_1.xlsx'
로 바꾸어주었습니다.
결과 해석 ↓
<class
'pandas.core.frame.DataFrame'>
이 데이터는 판다스의 데이터프레임 클래스다.
RangeIndex:
6 entries, 0 to 5
0~5까지, 총 6로우로 구성되어 있다.
Data columns
(total 3 columns):
총 3개의 칼럼을 가지고 있다.
6 non-null
해당 칼럼은 빈 칸 없이 6개의 로우로 구성돼 있다.
object
문자 속성 변수
int64
정수형 속성 변수
memory
usage: 272.0+ bytes
이 데이터는 272 바이트 차지한다.
describe() 함수는 숫자 형 변수에 대한 여러 가지 통계량을 입력하는 함수입니다.
개수, 평균값, 표준편차, 최솟값, 1사분위수, 2사분위수(중위수), 3사분위수, 최댓값을
의미합니다.
오늘은 판다스pandas 를 이용해 데이터를 불러오고, 데이터의 전반적인 정보를 읽는법을 공부해보았습니다. 다음 글에서는 데이터를 원하는 부분을 선택하는 방법을 공부해보도록 하겠습니다.
재밌습니다. 유용합니다.
답글삭제