아주 간략한 Pandas의 특징과 실습 일지.
배우는 일이 끝이 없군요,, 이걸 좋아해야 할지 ^^!
멋쟁이 사자 '그로스 마케팅 부트캠프'의 3일차만에 이렇게 수업 일지를 작성중.
오늘의 에너지 레벨 '■'
파이썬 배운지 2일차만에 클래스 배우는데 못따라가서 혼났다.. 다들 어쩜 그리 잘하시는지 눈물나요..
주말에는 짧게나마 파이썬을 정리해 보도록 하고 오늘은 Pandas만 정리!
< Pandas 기초 >
Pandas는 오픈소스 라이브러리이며, 엑셀과 유사한 데이터 구조 제공.
📍 특징
① 데이터구조( 1차Series 2차 DataFrame ) ② 빠른데이터조작 ③ 다양한 데이터 포맷지원
④ 누락된 데이터처리 ⑤ 고성능 및 확장성( NumPy)
import pandas as pd #Pandas의 줄임말인 'pd'사용
특징 1번의 '데이터구조'
Series (시리즈) : 리스트구조와 유사하지만 **인덱스(Index)**가 추가됨
DataFrame (데이터프레임) : 엑셀표와같은 행과 열을 가짐
특징 2번의 ' 빠른 데이터 조작 '
코드로 구동가능 : 데이터 로드, 특정 조건 필터링, 기간별 조회, 상위 N개 데이터 조회, 광고비 대비 매출 비율 계산
특징 3번의 '다양한 포맷지원'
CSV, Excel, JSON 등 다양한 형식 데이터 읽고 저장가능
# CSV 파일 읽기
df = pd.read_csv("marketing_data.csv")
# Excel 파일 내 컴퓨터의 저장
df.to_excel("output.xlsx", index=False)
특징 5번의 '고성능 및 확장성( NumPy)'이 가능한이유.
DataFrame (데이터프레임)의 특정 행(row)조회
df.loc[3] # 3번째 행 조회 (라벨 기반 인덱스)
DataFrame (데이터프레임)의 특정 열(column) 조회
df["매출액(만원)"] # 특정 열 조회
df[["매출액(만원)", "광고비(만원)"]] # 여러 열 조회
그외 데이터 필터링, 그룹화 가능.
< 실습 >
예제 똑같이 했는데 왜 오류났는지 몰랐던 문제...!! 들여쓰기 문제였다 😭
모듈과 패키지는 시스템을 다루는거라 손쉽게 했는데, 파이썬 함수적응하고 클래스에 헤메다가 다짜고짜 라벨 값으로 줘버렸다.
나중에 수업 끝나고 복습후에 딕셔너리 자료구조로 시리즈는 '인덱스' 값으로 구성된다는걸 알게됨. 그전에 다른 사람들이 한거 보고 수정해서 겨우 코드 쫓아가긴했지만.
앞으로도 쭉 난항이 예상된다.