оказалось так, что 20 секунд из 22 работы скрипта (это неприятно медленно) жрёт парсинг xml. Примерно по секунде на мегабайт.
Как с минимальными изменениями в остальном коде вылечить, только лишь по быстрому распарсив в DOM?
updated: Мне памяти не жалко, её гигабайты. Файлов - 100 штук по 200-300 килобайт. Мне скорость парсинга нужна, а не экономия памяти при помощи SAX/callback...
Думаю о том, что бы распарить в C++ и питону выдать файл простого формата.
Как с минимальными изменениями в остальном коде вылечить, только лишь по быстрому распарсив в DOM?
def get_data(filename):
f = open(filename)
try:
return f.read()
except:
f.close()
raise
def parse_file(filename):
return xml.dom.minidom.parseString(get_data(filename))
updated: Мне памяти не жалко, её гигабайты. Файлов - 100 штук по 200-300 килобайт. Мне скорость парсинга нужна, а не экономия памяти при помощи SAX/callback...
Думаю о том, что бы распарить в C++ и питону выдать файл простого формата.
