본문 바로가기

bootcamp11

[웹크롤링] 네이버 뉴스, 검색어를 통한 웹 크롤링 표현에 주로사용되는 속성들이 있다. 속성: title, href, class, onclick, id ,....등등 표현에 주로 사용되는 속성들 있다. (class, id) #1단계 : 겟(get) 네이버 '코로나' 뉴스 검색 200(성공) 404(실패) 만 외워두면 된다. 2단계 : 셀렉트(select) #실습 네이버 뉴스에서 '덕배'를 검색해서 나온 타이틀을 가져오기. .text : 텍스트 ['title'] : 리스트로 2022. 10. 27.
[웹크롤링] 웹 크롤링이란? 웹 + 크롤링 웹 = 전세계의 인터넷으로 연결되어 있는 컴퓨터들의 저장 " 공간" (여기서 웹을 "공간"의 개념으로 이해 할 것) 크롤링 = 자유롭게 돌아다니면, 정보를 "수집"하는 행위 정보를 수집하는자 (클라이언트) 서비스 요청 정보를 갖고 있는자 (서버) 서비스 제공 "크롤러를 만든다는 것은 브라우저를 대신하는 프로그램을 만든다는 것" "브라우저를 통해 우리는 어떻게 웹 상에서 정보를 얻는가?" 1. 브라우저에 URL을 입력하여 원하는 웹페이지에 접근한다. 2. 전체 페이지 중에서 원하는 정보를 찾는다. "크롤링해야 하는 데이터는 누구인가" 웹상의 데이터 -> HTML 혹은 JSON HTML 의 핵심정리 1. HTML은 태그들로 이루어졌다. 2. 태그에 정보가 들어가 있다. 3. 태그는 계층적인 구.. 2022. 10. 27.
[텍스트마이닝] 텍스트마이닝 입문 "사람처럼 텍스트를 이해하고 분석하는 기계를 만드는 것이 쉬울까?" 과거엔 불가능 ! 최선은 문장에 사용되는 단어의 빈도수를 기반으로 의미파악 사람처럼 = 쓰여진 순서대로 이해하는 능력 -> 시퀀스 모델 -> 딥러닝 카운트 기반 텍스트 마이닝 -> 시퀀스 기반 텍스트 마이닝 추세 10년이 안된 최근의 따끈따끈한 기술 데이터를 어디에서 수집할 것인가? 1. AIHUB 2. Kaagle 3. Dacon 4. 공공데이터포털 2022. 10. 26.