본문 바로가기

유저정보1

크롤링 안되는 사이트 or 거부당할 때 크롤링 할 때 다른 주소는 requests.get(url) 을 받으면 페이지 소스를 잘 받아오는데, 아무 반응이 없거나 위에 그림 처럼 오류가 발생하는 페이지가 있다. 이 때, requests.get(url).text 를 이용해서 내용을 확인해 볼 수 있다. improt requests url = "크롤링할 사이트주소" html = requests.get(url).text html 사이트에서 거부당했음을 확인 할 수 있다. 서버에서 봇으로 인지하고 차단한 경우이다. 불법적인 크롤링을 막기 위한 조치로 해당 사이트에서 크롤링 한 데이터를 상업적인 목적으로 활용할 생각이라면, 여기서 그만두는 것을 추천한다. 서버에서 봇인지 사람인지 사용자를 구분해주는 값을 담는 그릇이 있다. headers 라는 그릇에 {'.. 2020. 4. 5.

이전 1 다음

티스토리툴바