회원 로그인
|
BeautifulSoup html 파싱
| BeautifulSoup html 파싱
HTML과 XML 파일로부터 데이터를 뽑아내기 위한 파이썬 라이브러리
HTML과 XML 파일로부터 데이터를 뽑아내기 위한 파이썬 라이브러리
#3.x일 때 from BeautifulSoup import BeautifulSoup # 4.x일 때 # from bs4 import BeautifulSoup import urllib2 url_ = 'http://주소' page_ = urllib2.urlopen(url_) #웹 페이지 오픈 soup_ = BeautifulSoup(page_.read()) #웹 페이지 리딩 elements_ = soup_.findAll('태그명',{'클래스명':'추출명'}) #태그안에 추출 클래스 파싱 .... #추출로 활용
Python 2.6에서 BeautifulSoup 사용 시 오류가 나는데 아직 파악 중 해결) http://dvframes.com/rb/?r=home&c=study/programming&uid=1425 Warning (from warnings module): File "C:\Python26\lib\site-packages\bs4\builder\_htmlparser.py", line 149 "Python's built-in HTMLParser cannot parse the given document. This is not a bug in Beautiful Soup. The best solution is to install an external parser (lxml or html5lib), and use Beautiful Soup with that parser. See http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser for help.")) RuntimeWarning: Python's built-in HTMLParser cannot parse the given document. This is not a bug in Beautiful Soup. The best solution is to install an external parser (lxml or html5lib), and use Beautiful Soup with that parser. See http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser for help. Traceback (most recent call last): File "\경로\ex.py", line 98, in <module> legoCartOuput(urlList_) File "\경로\ex.py", line 75, in legoCartOuput legoCartCheck(inUrl_) File "\경로\ex.py", line 55, in legoCartCheck soup_ = BeautifulSoup(page_.read()) File "C:\Python26\lib\site-packages\bs4\__init__.py", line 172, in __init__ self._feed() File "C:\Python26\lib\site-packages\bs4\__init__.py", line 185, in _feed self.builder.feed(self.markup) File "C:\Python26\lib\site-packages\bs4\builder\_htmlparser.py", line 150, in feed raise e HTMLParseError: bad end tag: u'</scr"+"ipt>', at line 5707, column 78 |
댓글 0개
| 엮인글 0개
285개(12/15페이지)
번호 | 제목 | 글쓴이 | 조회 | 날짜 |
---|---|---|---|---|
65 | [Python] pygame 모듈로 사운드 출력 | 푸딩뱃살 | 9505 | 2014.05.13 18:32 |
64 | [Python] Python 중복 실행 방지 - setuptools, tendo | 푸딩뱃살 | 8089 | 2014.05.08 14:56 |
63 | [Python] Python 메일 보내기 | 푸딩뱃살 | 4796 | 2014.05.08 13:53 |
62 | [Python] BeautifulSoup 파싱 에러 | 푸딩뱃살 | 7158 | 2014.04.22 09:59 |
>> | [Python] BeautifulSoup html 파싱 | 푸딩뱃살 | 7846 | 2014.04.21 17:42 |
60 | [Python] 웹 파싱 모듈 BeautifulSoup 설치 | 푸딩뱃살 | 5809 | 2014.04.21 11:23 |
59 | [C#] C# 예제 | 푸딩뱃살 | 2750 | 2014.04.19 22:24 |
58 | [C#] 제어문 - switch~case문 | 푸딩뱃살 | 3292 | 2014.04.03 19:28 |
57 | [C#] 루프 중단 break, 조건으로 이동 continue | 푸딩뱃살 | 7893 | 2014.03.10 01:32 |
56 | [C#] 제어문 - while문 / do~while문 | 푸딩뱃살 | 3206 | 2014.02.17 14:18 |
55 | [C#] 제어문 - foreach문 | 푸딩뱃살 | 3309 | 2014.02.17 13:58 |
54 | [PHP] PHP 2GB 대용량 업로드 | 푸딩뱃살 | 3695 | 2014.02.13 14:04 |
53 | [C#] 제어문 - for문 | 푸딩뱃살 | 2939 | 2014.02.13 10:36 |
52 | [C#] 제어문 - if문 (복수 수행) | 푸딩뱃살 | 3669 | 2014.02.09 01:31 |
51 | [C#] 제어문 - if문 | 푸딩뱃살 | 3118 | 2014.02.05 14:01 |
50 | [C#] 형의 변환 | 푸딩뱃살 | 2820 | 2014.01.21 13:54 |
49 | [C#] 연산자의 우선순위 | 푸딩뱃살 | 2976 | 2014.01.20 16:24 |
48 | [C#] 논리 연산자 | 푸딩뱃살 | 2730 | 2014.01.14 14:29 |
47 | [C#] 논리형, 조건 연산자 | 푸딩뱃살 | 2845 | 2014.01.14 10:12 |
46 | [C#] C# for Notepad++ plugin | 푸딩뱃살 | 3499 | 2014.01.07 10:34 |