언어/파이썬

판다스 패키지

easyfly 2024. 4. 26. 09:52
반응형

판다스 패키지 개요

판다스(Pandas)는 파이썬에서 데이터 분석을 위해 널리 사용되는 라이브러리입니다. 주로 데이터 조작과 분석을 위해 사용되며, 특히 숫자 테이블과 시계열 데이터를 다루는 데 강력한 기능을 제공합니다. 판다스의 주요 구성 요소는 다음과 같습니다:

  1. DataFrame: 2차원 데이터 구조로, 행과 열로 구성된 테이블 형태의 데이터를 담습니다. 각 열은 다양한 데이터 타입(숫자, 문자열, 불리언 등)을 가질 수 있습니다.
  2. Series: 1차원 데이터 구조로, DataFrame의 한 열에 해당하는 데이터를 포함합니다.

판다스의 주요 기능은 다음과 같습니다:

  • 데이터 파일을 읽고 쓰는 기능 (예: CSV, Excel)
  • 데이터 정제 및 변환 (예: 결측치 처리, 데이터 필터링, 변환)
  • 데이터 합치기 및 재구성 (예: 병합, 조인, 그룹화, 피벗)
  • 데이터 분석 및 집계 (예: 요약 통계, 그룹별 연산)
  • 시계열 데이터 분석 (예: 날짜 및 시간 인덱싱, 시계열 데이터 변환)

판다스 시작하기

판다스를 사용하기 위해서는 먼저 판다스 패키지를 설치해야 합니다. 이는 pip를 사용하여 간단히 설치할 수 있습니다:

pip install pandas

기본적인 DataFrame 생성 및 사용 예제는 다음과 같습니다:

import pandas as pd

# 데이터 생성
data = {
  'Name': ['John', 'Anna', 'Peter', 'Linda'],
  'Age': [28, 22, 34, 40],
  'City': ['New York', 'Paris', 'Berlin', 'London']
}

# DataFrame 생성
df = pd.DataFrame(data)

# 데이터 확인
print(df)

# 데이터 조작 예: 나이 기준으로 정렬
sorted_df = df.sort_values(by='Age')
print(sorted_df)

이 예제에서는 간단한 데이터 세트를 만들고, 이를 DataFrame으로 변환한 후 출력하고, 나이에 따라 데이터를 정렬하는 방법을 보여줍니다.

실습 과제

  1. 위 예제를 실행해 보세요.
  2. 'Country'라는 새 열을 추가하고, 각 사람의 국가를 적절히 입력하세요.
  3. 'Age'가 30 이상인 사람들만 필터링하여 새로운 DataFrame을 만드세요.

프로그램과 실행 결과

형성평가 문항

  1. 판다스에서 DataFrame과 Series의 차이점은 무엇인가요?
  2. 판다스에서 데이터를 파일로 저장하는 방법에는 어떤 것들이 있나요?
  3. pd.merge() 함수는 어떤 목적으로 사용되나요?

'언어 > 파이썬' 카테고리의 다른 글

[파이썬] 파이썬의 특징  (5) 2024.09.12
[파이썬] 노년에게 파이썬이란?  (6) 2024.09.10
통합개발도구, 파이참  (0) 2022.03.30
파이썬을 위한 환경 변수 설정하기  (2) 2022.03.30
파이썬의 개요  (1) 2022.03.30