반응형
판다스 패키지 개요
판다스(Pandas)는 파이썬에서 데이터 분석을 위해 널리 사용되는 라이브러리입니다. 주로 데이터 조작과 분석을 위해 사용되며, 특히 숫자 테이블과 시계열 데이터를 다루는 데 강력한 기능을 제공합니다. 판다스의 주요 구성 요소는 다음과 같습니다:
- DataFrame: 2차원 데이터 구조로, 행과 열로 구성된 테이블 형태의 데이터를 담습니다. 각 열은 다양한 데이터 타입(숫자, 문자열, 불리언 등)을 가질 수 있습니다.
- Series: 1차원 데이터 구조로, DataFrame의 한 열에 해당하는 데이터를 포함합니다.
판다스의 주요 기능은 다음과 같습니다:
- 데이터 파일을 읽고 쓰는 기능 (예: CSV, Excel)
- 데이터 정제 및 변환 (예: 결측치 처리, 데이터 필터링, 변환)
- 데이터 합치기 및 재구성 (예: 병합, 조인, 그룹화, 피벗)
- 데이터 분석 및 집계 (예: 요약 통계, 그룹별 연산)
- 시계열 데이터 분석 (예: 날짜 및 시간 인덱싱, 시계열 데이터 변환)
판다스 시작하기
판다스를 사용하기 위해서는 먼저 판다스 패키지를 설치해야 합니다. 이는 pip를 사용하여 간단히 설치할 수 있습니다:
pip install pandas
기본적인 DataFrame 생성 및 사용 예제는 다음과 같습니다:
import pandas as pd
# 데이터 생성
data = {
'Name': ['John', 'Anna', 'Peter', 'Linda'],
'Age': [28, 22, 34, 40],
'City': ['New York', 'Paris', 'Berlin', 'London']
}
# DataFrame 생성
df = pd.DataFrame(data)
# 데이터 확인
print(df)
# 데이터 조작 예: 나이 기준으로 정렬
sorted_df = df.sort_values(by='Age')
print(sorted_df)
이 예제에서는 간단한 데이터 세트를 만들고, 이를 DataFrame으로 변환한 후 출력하고, 나이에 따라 데이터를 정렬하는 방법을 보여줍니다.
실습 과제
- 위 예제를 실행해 보세요.
- 'Country'라는 새 열을 추가하고, 각 사람의 국가를 적절히 입력하세요.
- 'Age'가 30 이상인 사람들만 필터링하여 새로운 DataFrame을 만드세요.
형성평가 문항
- 판다스에서 DataFrame과 Series의 차이점은 무엇인가요?
- 판다스에서 데이터를 파일로 저장하는 방법에는 어떤 것들이 있나요?
pd.merge()
함수는 어떤 목적으로 사용되나요?
'언어 > 파이썬' 카테고리의 다른 글
[파이썬] 파이썬의 특징 (5) | 2024.09.12 |
---|---|
[파이썬] 노년에게 파이썬이란? (6) | 2024.09.10 |
통합개발도구, 파이참 (0) | 2022.03.30 |
파이썬을 위한 환경 변수 설정하기 (2) | 2022.03.30 |
파이썬의 개요 (1) | 2022.03.30 |