**기록용입니다.
Pandas 란?
1. 테이블 형태의 데이터를 분석 하기에 최적의 라이브러리이다.
2. numpy처럼 정형화된 데이터 연산에 최적화 되어 있다.
3. 성능이 매우 뛰어남
4. 다양한 정형 데이터를 통합 관리할 수 있다.
- json, html, csv, xlsx, hdf5, sql, ... 모두 DataFrame으로 통일해서 표현
5. 엑셀에서 제공하는 연산 기능을 거의 다 제공
6. 편의성이 좋다.
** 사용하는 데이터 타입이 series, dataframe 2개밖에 없다.
정형데이터 타입
1. JSON(제이슨, JavaScript Object Notation)
- 속성-값 쌍(attribute–value pairs), 배열 자료형(array data types) 또는 기타 모든 시리얼화 가능한 값(serializable value) 또는 "키-값 쌍"으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷이다. 특히, 인터넷에서 자료를 주고 받을 때 그 자료를 표현하는 방법으로 알려져 있다. 자료의 종류에 큰 제한은 없으며, 특히 컴퓨터 프로그램의 변수값을 표현하는 데 적합하다.
2. HTML
- 하이퍼 텍스트 마크업 언어(영어: Hyper Text Markup Language, HTML는 웹 페이지 표시를 위해 개발된 지배적인 마크업 언어다.
3. CSV
- CSV(영어: comma-separated values)는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다. 확장자는 .csv이며 MIME 형식은 text/csv이다. comma-separated variables라고도 한다.
4. HDF5
- 계층적 데이터 형식(Hierarchical Data Format, HDF)은 The HDF Group에 의해 관리되고 있는 대용량의 데이터를 저장하기 위한 파일 형식이다.
- HDF5은 현재 표준 데이터포맷
Pandas로 데이터분석
1. 데이터분석 라이브러리 4종
** 외워두면 좋다
- DataFrame은 2차원 테이블이고, 테이블의 한 줄(행/열)을 Series라고 한다.
- Series를 합친 것이 DataFrame이 된다.
- Series는 하나의 데이터타입을 가진다.(같은 속성)
2. DataFrame 생성하기
- arange(어떤 범위 내의 숫자를 불러올때) / index는 자동으로 0부터
- 특정 컬럼가져오기 : df["column_name"]
- 컬럼에 숫자 더하기
- 요약정보 : df.info()
- 통계정보 : df.describe()
- 내림차순 정렬 : df.sort_values(by="x2", ascending=False)
3. Fancy Indexing기법 (=Index, Filtering)
- 전체 데이터에서 원하는 일부의 데이터를 찾아오는 방법
- Hlookup, Vlookup과 비슷함
- 컬럼 : df["X1"]
- 슬라이싱 : df[0:3]
- 키 값을 기준으로 : df.loc[1]
- df.loc[ ]를 이용한 행렬조건
- 응용해보기
- df.iloc[ ] : integer base index / list에서 썼던 index처럼 찾을 수 있음
'Python' 카테고리의 다른 글
[Python] 웹 환경의 이해 (0) | 2023.02.07 |
---|---|
[Python] 6. 종류를 나타내는 집합 (0) | 2023.02.03 |
[Python] 5. 데이터 다루기 - List, Tuple (0) | 2023.02.03 |
[Python] 4. 데이터 다루기 - 텍스트 (0) | 2023.02.03 |
[Python] Anaconda3, Jupyter Notebook 실행하기 (0) | 2023.02.03 |