본문 바로가기

Python

[Python] 판다스(Pandas)

반응형

**기록용입니다.

Pandas 란?

1. 테이블 형태의 데이터를 분석 하기에 최적의 라이브러리이다.
2. numpy처럼 정형화된 데이터 연산에 최적화 되어 있다.

3. 성능이 매우 뛰어남
4. 다양한 정형 데이터를 통합 관리할 수 있다.

  - json, html, csv, xlsx, hdf5, sql, ... 모두 DataFrame으로 통일해서 표현
5. 엑셀에서 제공하는 연산 기능을 거의 다 제공

6. 편의성이 좋다.

** 사용하는 데이터 타입이 series, dataframe 2개밖에 없다. 

 

정형데이터 타입

1. JSON(제이슨, JavaScript Object Notation)

 - 속성-값 쌍(attribute–value pairs), 배열 자료형(array data types) 또는 기타 모든 시리얼화 가능한 값(serializable value) 또는 "키-값 쌍"으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷이다. 특히, 인터넷에서 자료를 주고 받을 때 그 자료를 표현하는 방법으로 알려져 있다. 자료의 종류에 큰 제한은 없으며, 특히 컴퓨터 프로그램의 변수값을 표현하는 데 적합하다.

 

2. HTML

 - 하이퍼 텍스트 마크업 언어(영어: Hyper Text Markup Language, HTML는 웹 페이지 표시를 위해 개발된 지배적인 마크업 언어다.

 

3. CSV

 - CSV(영어: comma-separated values)는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다. 확장자는 .csv이며 MIME 형식은 text/csv이다. comma-separated variables라고도 한다.

 

4. HDF5

 - 계층적 데이터 형식(Hierarchical Data Format, HDF)은 The HDF Group에 의해 관리되고 있는 대용량의 데이터를 저장하기 위한 파일 형식이다.

 - HDF5은 현재 표준 데이터포맷

 

Pandas로 데이터분석

1. 데이터분석 라이브러리 4종

** 외워두면 좋다

- DataFrame은 2차원 테이블이고, 테이블의 한 줄(행/열)을 Series라고 한다.
- Series를 합친 것이 DataFrame이 된다.

 

- Series는 하나의 데이터타입을 가진다.(같은 속성)

 

2. DataFrame 생성하기

- arange(어떤 범위 내의 숫자를 불러올때) / index는 자동으로 0부터

 

특정 컬럼가져오기 : df["column_name"]

- 컬럼에 숫자 더하기 

- 요약정보 : df.info()

- 통계정보 : df.describe()

- 내림차순 정렬 : df.sort_values(by="x2", ascending=False)

 

3. Fancy Indexing기법 (=Index, Filtering)

- 전체 데이터에서 원하는 일부의 데이터를 찾아오는 방법

- Hlookup, Vlookup과 비슷함

 

- 컬럼 : df["X1"]

- 슬라이싱 : df[0:3]

- 키 값을 기준으로 : df.loc[1]

 

- df.loc[ ]를 이용한 행렬조건

 

- 응용해보기

 

- df.iloc[ ] : integer base index / list에서 썼던 index처럼 찾을 수 있음

 

반응형