python по русски -- Day

python по русски -- Day

[entries|friends|calendar]

Ру_питон

[	userinfo	\|	livejournal userinfo	]
[	calendar	\|	livejournal calendar	]

Парсер HTML'я на Python'e	[29 Jul 2007\|10:34pm]
Добрый день. К сожалению, я не специалист по Python'у, однако есть необходимость написать на нем парсер html-кода. Т.е. существует сайт - нужно граббить с него информацию. Сайт сверстан на "грязном" html'е - с ошибками. Код не валидный. Очень не хочется использовать регулярные выражения, т.к. там приходится выделять нужную информацию в несколько шагов - regexp'ом получить нужные блоки, а из них выделить нужное с помощью других regexp'ов. Думал использовать SAX-интерфейс - он идеально подходит. Можно обработать текст за один проход. Однако, он выдает ошибку из-за того, что код невалидный. Слышал, еще есть HTMLParser, который парсит некорректный HTML, но про него пишут много нелестного - вроде как постоянно падает. Какой еще способ парсинга HTML можно использовать? Посоветуйте что-нибудь? Или как заставить SAX-парсер не проверять корректность кода, DTD и прочее? UPD: Посоветовали BeautifulSoup - смотрю вот.. разбираюсь.. Благодарю всех за быстрое реагирование и ценные советы! :) Спасибо!
8 comments\|post comment

navigation

[	viewing	\|	July 29th, 2007	]
[	go	\|	previous day\|next day	]