Даёшь Django в народные массы!: Суп с приключениями

среда, 13 мая 2009 г.

Суп с приключениями

Понадобилось тут вырезать адрес RSS-ленты со страничек. Ну, думаю, возьму BeautifulSoup и делов-то. Для ЖЖ всё прошло без проблем:

>>> import urllib
>>> html = urllib.urlopen('http://kurilka.livejournal.com/').read()
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup(html)
>>> soup.findAll('link', {'type':'application/rss+xml'})[0]['href']
u'http://kurilka.livejournal.com/data/rss'

Ну, думаю, гораздо более демонстративно будет, если я вытяну RSS прямо для этого же блога, куда пишу сейчас этот пост. Но не тут-то было...
Упало оно с криком HTMLParser.HTMLParseError: bad end tag: u"</scr'+'ipt>". Причём, оказывается, что это программеры Google попирают спецификации W3C и не экранируют "</" в тексте скрипта. Поэтому пришлось пока сделать временную "затычку":

>>> import urllib
>>> html = urllib.urlopen('http://django-newbie.blogspot.com/').read()
>>> html = html.replace("</src'", '')
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup(html)
>>> soup.findAll('link', {'type':'application/rss+xml'})[0]['href']
u'http://django-newbie.blogspot.com/feeds/posts/default?alt=rss'

Вот так и воюем: то с нестрогими спецификациями, то с нестрогим их соблюдением...
P.S. И ещё больше добила борьба с blogger.com, жестоко коверкающим тэги

2 комментария:

bw14 июня 2009 г. в 06:12
Странно, суп не грешил такими вещами. Да, он крайне криво некоторые страницы парсит, ну с кем не бывает. Посмотри, там у него несколько разных парсеров, два на моей памяти.
Хотя кошернее будет использовать html5lib ;-).

..bw
ОтветитьУдалить
Ответы
Qrilka14 июня 2009 г. в 11:00
гугл говорит, что я не один с такой проблемой столкнулся, однако...
а html5lib гляну, спасиб.
ОтветитьУдалить
Ответы

Добавить комментарий

Даёшь Django в народные массы!

среда, 13 мая 2009 г.

Суп с приключениями

2 комментария:

Постоянные читатели

Архив блога

Обо мне

My Shelfari Bookshelf

Даёшь Django в народные массы!

среда, 13 мая 2009 г.

Суп с приключениями

2 комментария:

Постоянные читатели

Архив блога

Обо мне

My Shelfari Bookshelf

среда, 13 мая 2009 г.