Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- mssql
- swift
- MySQL
- node.js
- PyQt5
- pandas
- ASP
- sqlite
- python
- tensorflow
- flutter
- IOS
- 함수
- 다이어트
- 리눅스
- Excel
- ubuntu
- urllib
- PER
- PyQt
- 유니티
- 라즈베리파이
- javascript
- 맛집
- MS-SQL
- 날짜
- Unity
- GIT
- port
- Linux
Archives
아미(아름다운미소)
Python 간단한 Web Scraping 예제 본문
웹사이트에서 HTML을 읽어와 필요한 데이타를 긁어오는 것을 Web Scraping이라 한다. 이 과정은 크게 웹페이지를 읽어오는 과정과 읽어온 HTML 문서에서 필요한 데이타를 뽑아내는 과정으로 나뉠 수 있습니다.
웹페이지를 읽어오는 일은 여러 모듈을 사용할 수 있는데, 파이썬에서 기본적으로 제공하는 urllib, urllib2 을 사용하거나 편리한 HTTP 라이브러리로 많이 쓰이고 있는 requests 를 설치해 사용할 수 있습니다. 만약 기존 코드를 유지보수하는 일이 아니라면 requests 를 사용할 것을 권장합니다.
HTTP 라이브러리인 requests를 사용하기 위해서는 먼저 아래와 같이 pip을 이용하여 requests 패키지를 설치합니다.
웹페이지를 읽어오는 일은 여러 모듈을 사용할 수 있는데, 파이썬에서 기본적으로 제공하는 urllib, urllib2 을 사용하거나 편리한 HTTP 라이브러리로 많이 쓰이고 있는 requests 를 설치해 사용할 수 있습니다. 만약 기존 코드를 유지보수하는 일이 아니라면 requests 를 사용할 것을 권장합니다.
HTTP 라이브러리인 requests를 사용하기 위해서는 먼저 아래와 같이 pip을 이용하여 requests 패키지를 설치합니다.
pip install requests
웹페이지 HTML 문서를 파싱(Parsing)하기 위해서는 BeautifulSoup 라는 모듈을 사용할 수 있다. 먼저 BeautifulSoup 를 아래와 같이 설치합니다.
pip install beautifulsoup4
import requests import bs4 rsp = requests.get('http://finance.naver.com/') rsp.raise_for_status() rsp.encoding='euc-kr' html = rsp.text bs = bs4.BeautifulSoup(html, 'html.parser') tags = bs.select('div.section_strategy span a') # Top 뉴스 title = tags[0].getText() print(title)
결과 : [투자의 창] 크라우드펀딩 투자, 다시 짚어보는 세금문제
'랭귀지 > python' 카테고리의 다른 글
Python Exception Print (0) | 2018.08.30 |
---|---|
python os.chdir os.getcwd (0) | 2018.08.29 |
python glob (0) | 2018.08.27 |
python 파일과 디렉토리 경로 다루기 (0) | 2018.08.26 |
Python 파일 크기 사이즈 구하기 함수(바이트 단위로) (0) | 2018.08.25 |
Comments