Добрый день!
Посоветуйте, че использовать для парсинга реального html-кода вместо HTMLParser?
Модуль HTMLParser совершенно не подходит для практического применения. Во первых он падает на незаковыченных русских аттрибутах типа <img alt=превед>, во-вторых, проблемы с тегом <script> когда в нем встречается динамический код с дописыванием в документ типа document.write('</scr'+'ipt>') - тоже падает..., поскольку в идеале внутри тега не должно быть знаков < и >, но они ведь там есть...
Короче он не может распарсить практически не одну реальную страницу из интернета...:(
Спасибо.
Посоветуйте, че использовать для парсинга реального html-кода вместо HTMLParser?
Модуль HTMLParser совершенно не подходит для практического применения. Во первых он падает на незаковыченных русских аттрибутах типа <img alt=превед>, во-вторых, проблемы с тегом <script> когда в нем встречается динамический код с дописыванием в документ типа document.write('</scr'+'ipt>') - тоже падает..., поскольку в идеале внутри тега не должно быть знаков < и >, но они ведь там есть...
Короче он не может распарсить практически не одну реальную страницу из интернета...:(
Спасибо.
