본문 바로가기

노마드코더6

2. Building a Job Scrapper_5 2.8 What is CSV CSV (Comma Separated Values) 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일 CSV   -->   구글 스프레드 시트 CSV 파일 저장 구글 스프레드 시트에서 파일 - 가져오기 - 업로드 2.9 Saving to CSV 함수 생성 csv 모듈 import하기 csv 형식의 데이터를 읽고 쓰는 클래스 구현 open( ) 파일을 생성하는 파이썬 내장함수 입력값 : "파일 이름"과 "파일 열기 모드" 결괏값 : 파일 객체를 돌려줌 파일 객체 = open(파일 이름, 파일 열기 모드) 파일 열기 모드 함수 생성 import csv def save_to_file(): file = open("jobs.csv", mod.. 2020. 4. 2.
2. Building a Job Scrapper_4 2.7 Extracting Locations and Finishing up function - A indeed_pages( ) 페이지 목록의 마지막 숫자를 return하는 함수 import requests from bs4 import BeautifulSoup indeed_url = "https://kr.indeed.com/jobs?q=python&l=" def indeed_pages(): r=requests.get(indeed_url) # 해당 url의 html 가져옴 soup=BeautifulSoup(r.text,"html.parser") # html 파일 열기 pagination = soup.find('div',{'class':'pagination'}) # 찾고자하는 내용을 찾음 page_a = pa.. 2020. 3. 25.
2. Building a Job Scrapper_3 2.5 Extracting Titles Inspect 해당 페이지 - 검사 이용하여 찾고 싶은 내용의 태그 찾기 가지고 오고 싶은 내용은 아래의 WANT에 위치 데이터 추출 1 먼저 'div',{'class':'jobsearch-SerpJobCard'} 의 데이터 추출 데이터는 BeautifulSoup를 이용하여 추출 import requests from bs4 import BeautifulSoup indeed_url = "https://kr.indeed.com/jobs?q=python&l=" r=requests.get(indeed_url) soup=BeautifulSoup(r.text,"html.parser") title=soup.find_all('div',{'class':'jobsearch-SerpJ.. 2020. 3. 25.
2. Building a Job Scrapper_2 2.3 Extracting Indeed Pages part Two string 추출 .string 이용하여 문서에서 string 추출 가능 (BeautifulSoup) 예시) soup.title.string 페이지에 있는 문자열만 가져오기위해 .string 이용 원하는 정보의 위치 n 앞의 예시(2.2 Extracting Indeed Pages)에서 a 태그에서 string을 가져온 결과 = span 태그에서 string 가져온 결과 ( 두 개의 결과 동일) why? a태그 안에 다른 요소가 있고(span) 그 요소 안에 string이 오직 하나 있기에 가능 span태그 안에서 string 추출 1 ) list.append(page_i.find('span').string) import requests f.. 2020. 3. 24.