📊 하루 하나씩 배우는 데이터 분석: Pandas, Matplotlib, Seaborn

Thank you for reading this post, don't forget to subscribe!

엑셀은 충분하지 않다고 느낀 순간, 데이터 분석의 진짜 재미가 시작됩니다. Pandas와 시각화 도구를 배우면 복잡한 데이터도 예술처럼 다룰 수 있어요.

안녕하세요! 매일 하나씩 Python 기반 데이터 분석 도구를 익히며 실력을 키워볼 거예요. 오늘은 Pandas의 핵심 개념인 DataFrame과 Series부터 시작합니다. Python 초보자도 따라오기 쉽도록, 쉬운 예제와 함께 준비했어요.

1. Pandas란 무엇인가요?

Pandas는 엑셀보다 자유롭고 강력한 데이터 분석 도구예요. Python을 기반으로 한 이 라이브러리는, DataFrame과 Series라는 구조를 통해 방대한 데이터를 효과적으로 다룰 수 있도록 도와줍니다.

2. Series의 기본 개념

Series는 Pandas에서 1차원 데이터를 다루는 객체예요. 리스트와 비슷하지만, 각 요소에 이름표 역할을 하는 인덱스가 함께 붙어 있어요. 데이터를 구분하고 추적하는 데 아주 유용하죠.

구성 요소	설명
값 (Values)	데이터 자체, 예: [10, 20, 30]
인덱스 (Index)	각 값에 붙는 라벨, 예: [‘a’, ‘b’, ‘c’]

3. DataFrame의 기본 개념

DataFrame은 여러 개의 Series가 가로 방향으로 붙은 2차원 데이터 구조예요. 엑셀 시트와 매우 유사하지만, Python으로 훨씬 더 유연하게 다룰 수 있어요.

열(Column) 단위로 Series 구성
행(Row)은 데이터 레코드 단위
인덱스와 컬럼 이름으로 정교한 필터링 가능

4. CSV 파일 불러오기와 엑셀처럼 보기

Pandas의 매력 중 하나는 파일 입출력이 매우 쉽다는 점이에요. 엑셀처럼 테이블을 불러와서 필터, 정렬, 요약을 바로 할 수 있어요. read_csv() 함수 하나면 끝이죠.

import pandas as pd

# CSV 파일 불러오기
df = pd.read_csv("sample_data.csv")

# 앞부분 미리보기
print(df.head())

💡 TIP: head() 함수는 기본 5개의 행을 보여주며, 엑셀처럼 구조를 빠르게 확인할 수 있어요.

엑셀	Pandas
파일 열기 버튼 클릭	read_csv(“파일명.csv”)
정렬 클릭	df.sort_values(“열이름”)
필터 설정	df[df[“열”] > 값]

5. Series와 DataFrame 비교

Series는 하나의 열, DataFrame은 여러 열로 이루어진 표입니다.
Series는 리스트처럼, DataFrame은 테이블처럼 사용해요.
DataFrame은 엑셀처럼 보기 편하고, Series는 필터링/계산에 적합해요.

6. 다음 단계: 시각화로 확장하기

Matplotlib을 이용한 기본 그래프 그리기
Seaborn으로 예쁜 시각화 실전
데이터 리포트 자동화 연동 방법

📌 내일은 Matplotlib을 시작해요. 데이터가 눈에 보이게 되면, 그때부터 진짜 분석이 시작됩니다.

🧠 실전 후기 & 사용자 꿀팁

“처음 Pandas를 썼을 땐 ‘엑셀보다 더 어렵네?’ 싶었어요. 근데 반복해서 다뤄보니까 진짜 내가 원하는 데이터를 쏙쏙 꺼낼 수 있더라고요.”

✔ 핵심은 이것!

df.head()는 엑셀의 ‘미리보기’처럼 초간편!
Series는 “단일 열” 데이터를 빠르게 필터링할 때 최고
DataFrame은 모든 분석의 중심 — 엑셀로 표현 못 하는 복잡한 계산도 가능
df.describe()는 한 줄로 요약 통계 완성

처음엔 무작정 기능부터 외우기보다, 내가 직접 쓰고 싶은 데이터를 하나 고르고 그걸 어떻게 불러오고, 요약할까? 를 고민하는 게 훨씬 빨리 늘어요. 저는 친구의 식단표를 불러와서 직접 단백질 섭취량 평균을 뽑아봤는데, 그때야 ‘아~ 이게 진짜 실용적이구나’ 싶었어요.

팩트 문장: “Pandas는 기능보다 ‘목표’로 시작해야 한다. 쓰임새를 알면, 문법은 따라온다.”

❓ 자주 묻는 질문 (FAQ)

Pandas 설치는 어떻게 하나요?

터미널 또는 Jupyter Notebook에서 pip install pandas 입력하면 됩니다. Anaconda 환경에서는 기본 포함되어 있어요.

CSV 파일을 열었는데 한글이 깨져요!

파일이 UTF-8이 아닐 경우 encoding="cp949" 또는 encoding="euc-kr" 옵션을 넣어주세요.

엑셀 파일도 열 수 있나요?

네! read_excel() 함수로 가능하며, openpyxl 라이브러리가 필요할 수 있어요. pip install openpyxl으로 설치하세요.

df.head()와 tail() 차이는 뭐예요?

df.head()는 앞부분 5행, df.tail()은 마지막 5행을 보여줍니다. 데이터를 빠르게 확인할 때 자주 쓰여요.

데이터를 정렬하려면 어떻게 하나요?

df.sort_values("열이름")을 사용하세요. 오름차순/내림차순 설정은 ascending=False 옵션으로 가능합니다.

📊 시각 자료 및 참고 링크

Pandas read_csv() 함수 사용 예시

Pandas read_excel() 함수 사용 예시

Pandas df.head() 함수 사용 예시

Pandas sort_values() 함수 사용 예시

🔗 참고 링크

🎯 오늘의 요약과 마무리

Pandas는 단순한 코드 라이브러리가 아닙니다. 데이터를 통제하는 ‘마법의 도구’예요. 오늘 배운 Series, DataFrame, read_csv만으로도 엑셀을 넘는 유연함을 갖게 되었어요. 내일은 Matplotlib으로 시각화의 세계를 열어봅니다.

오늘의 블로그, 얼마나 유익했나요?

⭐️⭐️⭐️⭐️⭐️

HANSORI.AI_Blog Labs에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

월	화	수	목	금	토	일
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

하루 하나씩 배우는 데이터 분석: Pandas, Matplotlib, Seaborn