본문 바로가기

Python

[Python] 웹 환경의 이해

반응형

**기록용입니다.

 

[웹구조의 이해]

요청 naver.com >> 네이버에서 index.html 제공 >> 크롬에서 렌더링 >> 홈페이지 확인

 

[웹크롤링]

1. naver에 공식적인 request (API받기)

2. naver 기본화면 html -> (우클릭) 페이지 소스 보기

 

- 데이터를 가져올땐 정리가 된 데이터 (ex. 장 종료 후의 네이버 금융 사이트 등) 를 가져오는 것이 좋다.

- real time data는 변동이 있으므로 이 점을 고려할 것.

- 전제페이지가 있는데(url똑같음) 별도 페이지로 프레임소스보기가 가능하다면 그 프레임소스만 따로 봐야함(예전 구성)

- 웹크롤링시 요청은 url로 하기 때문에 view-source: 이후 "주소"를 적어주면 된다.

 

[동적페이지]

- 자동으로 엑셀파일을 다운받는 방법으로 함

- 웹드라이버라는 가상 웹환경을 구축해서 selenium으로 구동

 

[주의할 점]

- 웹페이지는 페이지마다 태그 규칙이 달라서 크롤링 할때마다 자세히 살펴봐야 한다.

- 영리목적의 크롤링이 안되는 경우도 있다.

 

[연습해보기]

- 네이버뉴스 크롤러

- cgv댓글 크롤러

 

반응형