회원 로그인
정보기억 정보기억에 체크할 경우 다음접속시 아이디와 패스워드를 입력하지 않으셔도 됩니다.
그러나, 개인PC가 아닐 경우 타인이 로그인할 수 있습니다.
PC를 여러사람이 사용하는 공공장소에서는 체크하지 마세요.
소셜네트워크 서비스를 통해서 로그인하시면 별도의 로그인 절차없이 회원서비스를 이용하실 수 있습니다.


최근 게시물

1.노션에서 작성 중

1.노션에서 작성 중

개편하기 전까지 노션에서 작성 중

2024.04.04//read more

2.ChatGPT

2.ChatGPT

OpenAI로 대규모 언어 모델대화형...

2023.03.16//read more

3.노코딩 게임 엔진 - 빌..

3.노코딩 게임 엔진 - 빌..

빌드 지원안드로이드iOS윈도우즈특이사...

2023.03.14//read more

4.(완료) 미접속 회원 정..

4.(완료) 미접속 회원 정..

[완료] 36명의 회원을 정리하였습니...

2023.02.16//read more

5.매뉴얼 플러스 - 전자제..



안정적인 DNS 서비스 DNSEver
DNS Powered by DNSEver.com


BeautifulSoup html 파싱

푸딩뱃살 | 2014.04.21 17:42 | 조회 7879
| BeautifulSoup html 파싱

HTML과 XML 파일로부터 데이터를 뽑아내기 위한 파이썬 라이브러리 

#3.x일 때
from BeautifulSoup import BeautifulSoup
# 4.x일 때
# from bs4 import BeautifulSoup
import urllib2

url_ = 'http://주소'
page_ = urllib2.urlopen(url_) #웹 페이지 오픈
soup_ = BeautifulSoup(page_.read()) #웹 페이지 리딩
elements_ = soup_.findAll('태그명',{'클래스명':'추출명'}) #태그안에 추출 클래스 파싱
....
#추출로 활용

 Python 2.6에서 BeautifulSoup 사용 시 오류가 나는데 아직 파악 중
해결http://dvframes.com/rb/?r=home&c=study/programming&uid=1425


Warning (from warnings module):
  File "C:\Python26\lib\site-packages\bs4\builder\_htmlparser.py", line 149
    "Python's built-in HTMLParser cannot parse the given document. This is not a bug in Beautiful Soup. The best solution is to install an external parser (lxml or html5lib), and use Beautiful Soup with that parser. See http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser for help."))
RuntimeWarning: Python's built-in HTMLParser cannot parse the given document. This is not a bug in Beautiful Soup. The best solution is to install an external parser (lxml or html5lib), and use Beautiful Soup with that parser. See http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser for help.

Traceback (most recent call last):
  File "\경로\ex.py", line 98, in <module>
    legoCartOuput(urlList_)
  File "\경로\ex.py", line 75, in legoCartOuput
    legoCartCheck(inUrl_)
  File "\경로\ex.py", line 55, in legoCartCheck
    soup_ = BeautifulSoup(page_.read())
  File "C:\Python26\lib\site-packages\bs4\__init__.py", line 172, in __init__
    self._feed()
  File "C:\Python26\lib\site-packages\bs4\__init__.py", line 185, in _feed
    self.builder.feed(self.markup)
  File "C:\Python26\lib\site-packages\bs4\builder\_htmlparser.py", line 150, in feed
    raise e
HTMLParseError: bad end tag: u'</scr"+"ipt>', at line 5707, column 78

285개(1/15페이지)
프로그래밍
번호 제목 글쓴이 조회 날짜
285 [Python] 동적 import - 모듈을 변수로 받아오기 푸딩뱃살 423 2022.10.27 10:45
284 [Python] 파이썬 3.7.7과 3.9.7의 os.path.expanduser() 차이 푸딩뱃살 466 2022.08.18 12:22
283 [Python] error: Microsoft Visual C++ 9.0 is required. 첨부파일 푸딩뱃살 701 2022.08.03 13:35
282 [Python] pyscript 첨부파일 푸딩뱃살 471 2022.06.09 11:21
281 [Python] float is / float not is 푸딩뱃살 604 2022.03.02 15:03
280 [Python] 이터널 문자열 f 푸딩뱃살 846 2022.01.27 16:35
279 [Python] is와 ==의 차이 푸딩뱃살 488 2021.11.25 15:54
278 [Python] Error: ImportError: file line 1: Ba 푸딩뱃살 940 2021.11.16 11:24
277 [Python] 파이썬 디컴파일 - uncompyle6 첨부파일 푸딩뱃살 786 2021.11.10 14:46
276 [Python] 파이썬 확장자 설명 푸딩뱃살 560 2021.11.03 14:38
275 [참고] 웹 fbx 뷰어 푸딩뱃살 478 2021.10.19 15:46
274 [Python] enumerate() 푸딩뱃살 506 2021.10.13 14:44
273 [Python] 아나콘다에서 가상 환경 첨부파일 푸딩뱃살 741 2020.11.21 00:26
272 [Python] pip로 설치 때 퍼미션 에러 사진 첨부파일 푸딩뱃살 1280 2020.06.06 17:13
271 [Python] OpenCV 10-3. 이미지 Thresholding - Otsu's Binarizatio 사진 푸딩뱃살 679 2020.06.05 14:01
270 [Python] OpenCV 10-2. 이미지 Thresholding - Adaptive Threshold 사진 푸딩뱃살 704 2020.06.05 13:58
269 [Python] OpenCV 10-1. 이미지 Thresholding 사진 푸딩뱃살 584 2020.06.05 13:56
268 [Python] OpenCV 9-2. 색 추적 푸딩뱃살 789 2020.06.02 23:29
267 [Python] OpenCV 9-1. 색공간 바꾸기 푸딩뱃살 646 2020.06.02 23:27
266 [Python] OpenCV 8-3. 이미지 비트 연산 사진 푸딩뱃살 537 2020.06.02 23:21