본문 바로가기

전체 글129

[웹크롤링] 동적페이지 크롤링 css 에서 셀렉터 기능이 있다! javascript로 되어있는 크롤링 당장 우리눈에 보여지는 페이지의 데이터가 아닌 아이프레임이나 자바스크립트 등 다른 URL 로 되어있는 페이지이다. 별도의 URL을 찾아내야 한다! 보통 동적인 기능(스크롤) 이 있으면 JavaScript일 확률이 크다. * 검사 -> 톱니바퀴 -> 프리퍼런스 -> Debugger -> Disable javascript click -> 리로드 크롤링 할 때 무조건 Javascript인 걸 확인하고 한다. 화면이 뜨지 않는다면. 별도의 URL을 찾는다 별도의 URL 찾는 방법 1. javascript disable 이 후 뜨지 않는다면 Elements -> Network 탭으로 변경 2. Tab 에서 Fetch/XHR 탭에 두고, 3. .. 2022. 10. 31.
[웹크롤링] 공부방법!? 1) 네이버뉴스 기사 - 제목/링크 2) 연관검색어 3) 요일별 웹툰 - 제목/작가/평점 - 과제) 장르별 웹툰 - 제목/작가/평점 4) 웹툰 썸네일 이미지 5) 네이버 증권 코스피 200 일별시세 - 날짜 등등 2022. 10. 30.
[웹크롤링] 썸네일 이미지 가져오기 이미지크롤링 HTML 안의 이미지는 없다. 이미지의 src만 있을뿐 해당 url을 리퀘츠 겟을 가지고 오면 html이 아니라 그 이미지 그 자체가 불러와 진다. 이미지 의 주소값만 있을뿐 - 1단계 : get - 이미지가 있는 페이지 가져오기 - 2단계 : select - 이미지 태그를 가져오기 - 2-1 단계 : 이미지 src값 가져오기 - 3단계 : get(이미지src) - 이미지 가져오기 2022. 10. 28.
[웹크롤링] 실습-2 href="webtoon/weekdayList?week=tue">화요웹툰 앞에 프로토콜이 없는이유는 내부로 이동하기 때문에 따로 없다. 네이버 -> 네이버 O , 네이버웹툰 -> 카카오웹툰 a_tags = soup.select(ul.category_tab a) len(a_tags) #9개 -> 요일 전체 월요 화요 ~~ 일요 매일 a_tags=a_tags[1:] 2022. 10. 28.
[웹크롤링] 실습 - 뉴스와 url 링크를 크롤링 하여 엑셀자료 만들기 1단계 2단계 데이터를 딕셔너리화 for a_tag in tags: #새로운 변수에서 tags 기존의 태그 까지 포문을 만듬 news_info['title'].append(a_tag['title']) #news_info 란 딕셔너리에 .append 한다 news_info['title'].append(a_tag['title']) 저장 실행 2022. 10. 27.
[웹크롤링] 네이버 뉴스, 검색어를 통한 웹 크롤링 표현에 주로사용되는 속성들이 있다. 속성: title, href, class, onclick, id ,....등등 표현에 주로 사용되는 속성들 있다. (class, id) #1단계 : 겟(get) 네이버 '코로나' 뉴스 검색 200(성공) 404(실패) 만 외워두면 된다. 2단계 : 셀렉트(select) #실습 네이버 뉴스에서 '덕배'를 검색해서 나온 타이틀을 가져오기. .text : 텍스트 ['title'] : 리스트로 2022. 10. 27.