[pymongo] 웹스크래핑 결과를 mongoDB에 저장하기

1. 먼저 웹스크래핑한 코드를 준비

import requests
from bs4 import BeautifulSoup

# URL을 읽어서 HTML를 받아오고,
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
soup = BeautifulSoup(data.text, 'html.parser')

# select를 이용해서, tr들을 불러오기
movies = soup.select('#old_content > table > tbody > tr')

# movies (tr들) 의 반복문을 돌리기
for movie in movies:
    # movie 안에 a 가 있으면,
    a_tag = movie.select_one('td.title > div > a')
    if a_tag is not None:
        rank = movie.select_one('td:nth-child(1) > img')['alt'] # img 태그의 alt 속성값을 가져오기
        title = a_tag.text                                      # a 태그 사이의 텍스트를 가져오기
        star = movie.select_one('td.point').text                # td 태그 사이의 텍스트를 가져오기
        print(rank,title,star)

2. pymongo 기본코드를 붙임

from pymongo import MongoClient
client = MongoClient('localhost', 27017)
db = client.dbtest

3. 저장할 데이터를 딕셔너리의 형태로 doc 변수에 저장

doc = {
	'rank':rank,
	'title':title,
	'star':star
}

4. movies콜렉션에 doc를 insert

db.movies.insert_one(doc)

5. 정상적으로 들어간 것을 확인

전체 코드

import requests
from bs4 import BeautifulSoup

from pymongo import MongoClient
client = MongoClient('localhost', 27017)
db = client.dbsparta

# URL을 읽어서 HTML를 받아오고,
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
soup = BeautifulSoup(data.text, 'html.parser')

# select를 이용해서, tr들을 불러오기
movies = soup.select('#old_content > table > tbody > tr')

# movies (tr들) 의 반복문을 돌리기
for movie in movies:
    # movie 안에 a 가 있으면,
    a_tag = movie.select_one('td.title > div > a')
    if a_tag is not None:
        rank = movie.select_one('td:nth-child(1) > img')['alt'] # img 태그의 alt 속성값을 가져오기
        title = a_tag.text                                      # a 태그 사이의 텍스트를 가져오기
        star = movie.select_one('td.point').text                # td 태그 사이의 텍스트를 가져오기
        # print(rank,title,star)
        doc = {
            'rank':rank,
            'title':title,
            'star':star
        }
        db.movies.insert_one(doc)

저작자표시

'Database' 카테고리의 다른 글

[Oracle] 실행 계획(Execution plan)과 hint사용의 필요성 (0)	2021.07.20
[Mysql] Workbench를 사용해 ERD작성 (0)	2021.07.05
[pymongo] pymongo를 사용한 좋아요(추천) 기능 구현 (0)	2021.06.29
[pymongo] 파이썬으로 MongoDB 사용하기 (0)	2021.06.27
[NoSQL] MongoDB 설치하기 및 환경변수 설정(Window) (0)	2021.06.26

태옹

[pymongo] 웹스크래핑 결과를 mongoDB에 저장하기

1. 먼저 웹스크래핑한 코드를 준비

2. pymongo 기본코드를 붙임

3. 저장할 데이터를 딕셔너리의 형태로 doc 변수에 저장

4. movies콜렉션에 doc를 insert

5. 정상적으로 들어간 것을 확인

전체 코드

'Database' 카테고리의 다른 글

댓글

티스토리툴바

[pymongo] 웹스크래핑 결과를 mongoDB에 저장하기

1. 먼저 웹스크래핑한 코드를 준비

2. pymongo 기본코드를 붙임

3. 저장할 데이터를 딕셔너리의 형태로 doc 변수에 저장

4. movies콜렉션에 doc를 insert

5. 정상적으로 들어간 것을 확인

전체 코드

'Database' 카테고리의 다른 글

관련글

댓글

티스토리툴바