TIL Pandas Data Exploration
in Til on Til
Pandas를 활용한 데이터 탐색 및 요약 통계량 계산 방법
1. 데이터 요약 통계
1.1 describe() 메서드
기본 통계량: 숫자형 컬럼의 개수, 평균, 표준편차, 최솟값, 최댓값, 사분위수
모든 데이터 타입 포함: include=”all” 옵션으로 범주형 데이터의 고유값, 최빈값 등 포함
특정 데이터 타입 선택: include=[“number”] 또는 include=[“object”] 등으로 특정 타입만 선택
1.2 agg() 메서드
사용자 지정 통계량: 특정 컬럼에 대해 원하는 통계 함수(예: mean, std, sum, median) 적용
여러 컬럼에 다른 통계 함수 적용: 딕셔너리 형태로 컬럼별 함수 지정 가능
2. 데이터 특성 분석
2.1 문자열 길이 계산
str.len() 메서드: Series의 각 문자열 요소의 길이 반환
활용: 새로운 컬럼으로 추가하여 문자열 길이 분포 분석
2.2 상위/하위 N개 값 추출
nlargest(N, “column”): 특정 컬럼 기준으로 가장 큰(높은) N개의 행 추출
nsmallest(N, “column”): 특정 컬럼 기준으로 가장 작은(낮은) N개의 행 추출