Даёшь Django в народные массы!: Делаем правильный суп

воскресенье, 14 июня 2009 г.

Делаем правильный суп

По совету bw решил попробовать html5lib для решения заморочки с Beautifulsoup и получилось избавиться от некрасивого воркараунда (правда, ворнинг словился):

>>> import urllib
>>> html = urllib.urlopen('http://django-newbie.blogspot.com/').read()
>>> import html5lib
>>> from html5lib import treebuilders
>>> parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("beautifulsoup"))
>>> soup = parser.parse(html)
/usr/local/lib/python2.6/dist-packages/html5lib-0.11.1-py2.6.egg/html5lib/inputs
tream.py:367: DeprecationWarning: object.__init__() takes no parameters
>>> soup.findAll('link', {'type':'application/rss+xml'})[0]['href']
u'http://django-newbie.blogspot.com/feeds/posts/default?alt=rss'

4 комментария:

bw17 июня 2009 г. в 09:48
Непонятно, ты всё равно используешь html.replace, неужто без него никак?
А что касается DeprecationWarning, то эта не наша забота :-). Должны исправить в будущем, библиотека развивается очень интенсивно.

..bw
ОтветитьУдалить
Ответы
Qrilka17 июня 2009 г. в 12:27
Блин, ничего себе я лоханулся :)
Копипаст маст дай!
(сейчас подправлю код)
А про deprecation - я тикет завёл, в хэде оно поправлено, только суповский парсер у них сейчас не работает - так что в следующем релизе всё должно быть без проблем вообще.
ОтветитьУдалить
Ответы
bw17 июня 2009 г. в 13:06
Я как с html5lib познакомился, решил стать религиозно-правильным и от супа вообще отказался, т.е. парсил в dom, а по dom'у уже ходил xpath'ем. Вообще от xpath'а я остался под большим положительным впечатлением, ребята знали, что делали. Хотя, безусловно, что бы начать его полноценно использовать потребуется время.
Собственно. Я к тому что, если такая проблема проявляется только для супа, то я и не мог с ней столкнуться.

..bw
ОтветитьУдалить
Ответы
Qrilka17 июня 2009 г. в 14:08
тоже вариант
ОтветитьУдалить
Ответы

Добавить комментарий

Даёшь Django в народные массы!

воскресенье, 14 июня 2009 г.

Делаем правильный суп

4 комментария:

Постоянные читатели

Архив блога

Обо мне

My Shelfari Bookshelf

Даёшь Django в народные массы!

воскресенье, 14 июня 2009 г.

Делаем правильный суп

4 комментария:

Постоянные читатели

Архив блога

Обо мне

My Shelfari Bookshelf

воскресенье, 14 июня 2009 г.