[Python] 웹 환경의 이해

**기록용입니다.

[웹구조의 이해]

요청 naver.com >> 네이버에서 index.html 제공 >> 크롬에서 렌더링 >> 홈페이지 확인

[웹크롤링]

1. naver에 공식적인 request (API받기)

2. naver 기본화면 html -> (우클릭) 페이지 소스 보기

- 데이터를 가져올땐 정리가 된 데이터 (ex. 장 종료 후의 네이버 금융 사이트 등) 를 가져오는 것이 좋다.

- real time data는 변동이 있으므로 이 점을 고려할 것.

- 전제페이지가 있는데(url똑같음) 별도 페이지로 프레임소스보기가 가능하다면 그 프레임소스만 따로 봐야함(예전 구성)

- 웹크롤링시 요청은 url로 하기 때문에 view-source: 이후 "주소"를 적어주면 된다.

[동적페이지]

- 자동으로 엑셀파일을 다운받는 방법으로 함

- 웹드라이버라는 가상 웹환경을 구축해서 selenium으로 구동

[주의할 점]

- 웹페이지는 페이지마다 태그 규칙이 달라서 크롤링 할때마다 자세히 살펴봐야 한다.

- 영리목적의 크롤링이 안되는 경우도 있다.

[연습해보기]

- 네이버뉴스 크롤러

- cgv댓글 크롤러

[Python] 판다스(Pandas) (0)	2023.02.07
[Python] 6. 종류를 나타내는 집합 (0)	2023.02.03
[Python] 5. 데이터 다루기 - List, Tuple (0)	2023.02.03
[Python] 4. 데이터 다루기 - 텍스트 (0)	2023.02.03
[Python] Anaconda3, Jupyter Notebook 실행하기 (0)	2023.02.03

slow and steady