회원 로그인
|
BeautifulSoup html 파싱
| BeautifulSoup html 파싱
HTML과 XML 파일로부터 데이터를 뽑아내기 위한 파이썬 라이브러리
HTML과 XML 파일로부터 데이터를 뽑아내기 위한 파이썬 라이브러리
#3.x일 때 from BeautifulSoup import BeautifulSoup # 4.x일 때 # from bs4 import BeautifulSoup import urllib2 url_ = 'http://주소' page_ = urllib2.urlopen(url_) #웹 페이지 오픈 soup_ = BeautifulSoup(page_.read()) #웹 페이지 리딩 elements_ = soup_.findAll('태그명',{'클래스명':'추출명'}) #태그안에 추출 클래스 파싱 .... #추출로 활용
Python 2.6에서 BeautifulSoup 사용 시 오류가 나는데 아직 파악 중 해결) http://dvframes.com/rb/?r=home&c=study/programming&uid=1425 Warning (from warnings module): File "C:\Python26\lib\site-packages\bs4\builder\_htmlparser.py", line 149 "Python's built-in HTMLParser cannot parse the given document. This is not a bug in Beautiful Soup. The best solution is to install an external parser (lxml or html5lib), and use Beautiful Soup with that parser. See http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser for help.")) RuntimeWarning: Python's built-in HTMLParser cannot parse the given document. This is not a bug in Beautiful Soup. The best solution is to install an external parser (lxml or html5lib), and use Beautiful Soup with that parser. See http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser for help. Traceback (most recent call last): File "\경로\ex.py", line 98, in <module> legoCartOuput(urlList_) File "\경로\ex.py", line 75, in legoCartOuput legoCartCheck(inUrl_) File "\경로\ex.py", line 55, in legoCartCheck soup_ = BeautifulSoup(page_.read()) File "C:\Python26\lib\site-packages\bs4\__init__.py", line 172, in __init__ self._feed() File "C:\Python26\lib\site-packages\bs4\__init__.py", line 185, in _feed self.builder.feed(self.markup) File "C:\Python26\lib\site-packages\bs4\builder\_htmlparser.py", line 150, in feed raise e HTMLParseError: bad end tag: u'</scr"+"ipt>', at line 5707, column 78 |
댓글 0개
| 엮인글 0개
285개(1/15페이지)
번호 | 제목 | 글쓴이 | 조회 | 날짜 |
---|---|---|---|---|
285 | [Python] 동적 import - 모듈을 변수로 받아오기 | 푸딩뱃살 | 423 | 2022.10.27 10:45 |
284 | [Python] 파이썬 3.7.7과 3.9.7의 os.path.expanduser() 차이 | 푸딩뱃살 | 466 | 2022.08.18 12:22 |
283 | [Python] error: Microsoft Visual C++ 9.0 is required. | 푸딩뱃살 | 701 | 2022.08.03 13:35 |
282 | [Python] pyscript | 푸딩뱃살 | 471 | 2022.06.09 11:21 |
281 | [Python] float is / float not is | 푸딩뱃살 | 604 | 2022.03.02 15:03 |
280 | [Python] 이터널 문자열 f | 푸딩뱃살 | 846 | 2022.01.27 16:35 |
279 | [Python] is와 ==의 차이 | 푸딩뱃살 | 488 | 2021.11.25 15:54 |
278 |
[Python] Error: ImportError: file |
푸딩뱃살 | 940 | 2021.11.16 11:24 |
277 | [Python] 파이썬 디컴파일 - uncompyle6 | 푸딩뱃살 | 786 | 2021.11.10 14:46 |
276 | [Python] 파이썬 확장자 설명 | 푸딩뱃살 | 560 | 2021.11.03 14:38 |
275 | [참고] 웹 fbx 뷰어 | 푸딩뱃살 | 478 | 2021.10.19 15:46 |
274 | [Python] enumerate() | 푸딩뱃살 | 506 | 2021.10.13 14:44 |
273 | [Python] 아나콘다에서 가상 환경 | 푸딩뱃살 | 741 | 2020.11.21 00:26 |
272 | [Python] pip로 설치 때 퍼미션 에러 | 푸딩뱃살 | 1280 | 2020.06.06 17:13 |
271 | [Python] OpenCV 10-3. 이미지 Thresholding - Otsu's Binarizatio | 푸딩뱃살 | 679 | 2020.06.05 14:01 |
270 | [Python] OpenCV 10-2. 이미지 Thresholding - Adaptive Threshold | 푸딩뱃살 | 704 | 2020.06.05 13:58 |
269 | [Python] OpenCV 10-1. 이미지 Thresholding | 푸딩뱃살 | 584 | 2020.06.05 13:56 |
268 | [Python] OpenCV 9-2. 색 추적 | 푸딩뱃살 | 789 | 2020.06.02 23:29 |
267 | [Python] OpenCV 9-1. 색공간 바꾸기 | 푸딩뱃살 | 646 | 2020.06.02 23:27 |
266 | [Python] OpenCV 8-3. 이미지 비트 연산 | 푸딩뱃살 | 537 | 2020.06.02 23:21 |