Добрый день! Посоветуйте, че использовать для парсинга реального…: ru_python

Добрый день!

Посоветуйте, че использовать для парсинга реального html-кода вместо HTMLParser?
Модуль HTMLParser совершенно не подходит для практического применения. Во первых он падает на незаковыченных русских аттрибутах типа <img alt=превед>, во-вторых, проблемы с тегом <script> когда в нем встречается динамический код с дописыванием в документ типа document.write('</scr'+'ipt>') - тоже падает..., поскольку в идеале внутри тега не должно быть знаков < и >, но они ведь там есть...

Короче он не может распарсить практически не одну реальную страницу из интернета...:(
Спасибо.

Follow us:

Applications

COMPANY

PRODUCTS

COMMUNITY

CHOOSE LANGUAGE