반응형
**기록용입니다.
[웹구조의 이해]
요청 naver.com >> 네이버에서 index.html 제공 >> 크롬에서 렌더링 >> 홈페이지 확인
[웹크롤링]
1. naver에 공식적인 request (API받기)
2. naver 기본화면 html -> (우클릭) 페이지 소스 보기
- 데이터를 가져올땐 정리가 된 데이터 (ex. 장 종료 후의 네이버 금융 사이트 등) 를 가져오는 것이 좋다.
- real time data는 변동이 있으므로 이 점을 고려할 것.
- 전제페이지가 있는데(url똑같음) 별도 페이지로 프레임소스보기가 가능하다면 그 프레임소스만 따로 봐야함(예전 구성)
- 웹크롤링시 요청은 url로 하기 때문에 view-source: 이후 "주소"를 적어주면 된다.
[동적페이지]
- 자동으로 엑셀파일을 다운받는 방법으로 함
- 웹드라이버라는 가상 웹환경을 구축해서 selenium으로 구동
[주의할 점]
- 웹페이지는 페이지마다 태그 규칙이 달라서 크롤링 할때마다 자세히 살펴봐야 한다.
- 영리목적의 크롤링이 안되는 경우도 있다.
[연습해보기]
- 네이버뉴스 크롤러
- cgv댓글 크롤러
반응형
'Python' 카테고리의 다른 글
[Python] 판다스(Pandas) (0) | 2023.02.07 |
---|---|
[Python] 6. 종류를 나타내는 집합 (0) | 2023.02.03 |
[Python] 5. 데이터 다루기 - List, Tuple (0) | 2023.02.03 |
[Python] 4. 데이터 다루기 - 텍스트 (0) | 2023.02.03 |
[Python] Anaconda3, Jupyter Notebook 실행하기 (0) | 2023.02.03 |