TIL Pandas Data Exploration

Pandas를 활용한 데이터 탐색 및 요약 통계량 계산 방법

1. 데이터 요약 통계

1.1 describe() 메서드

  • 기본 통계량: 숫자형 컬럼의 개수, 평균, 표준편차, 최솟값, 최댓값, 사분위수

  • 모든 데이터 타입 포함: include=”all” 옵션으로 범주형 데이터의 고유값, 최빈값 등 포함

  • 특정 데이터 타입 선택: include=[“number”] 또는 include=[“object”] 등으로 특정 타입만 선택

1.2 agg() 메서드

  • 사용자 지정 통계량: 특정 컬럼에 대해 원하는 통계 함수(예: mean, std, sum, median) 적용

  • 여러 컬럼에 다른 통계 함수 적용: 딕셔너리 형태로 컬럼별 함수 지정 가능

2. 데이터 특성 분석

2.1 문자열 길이 계산

  • str.len() 메서드: Series의 각 문자열 요소의 길이 반환

  • 활용: 새로운 컬럼으로 추가하여 문자열 길이 분포 분석

2.2 상위/하위 N개 값 추출

  • nlargest(N, “column”): 특정 컬럼 기준으로 가장 큰(높은) N개의 행 추출

  • nsmallest(N, “column”): 특정 컬럼 기준으로 가장 작은(낮은) N개의 행 추출