Разное

Ошибка парсинга xml документа: Ошибка парсинга xml, что это — справочник цифровых значений видов зачислений Сбербанк

04.07.2021

Содержание

DOMParser — Интерфейсы веб API

Experimental

Это экспериментальная технология
Так как спецификация этой технологии ещё не стабилизировалась, смотрите таблицу совместимости по поводу использования в различных браузерах. Также заметьте, что синтаксис и поведение экспериментальной технологии может измениться в будущих версиях браузеров, вслед за изменениями спецификации.

DOMParser может парсить XML или HTML источник содержащийся в строке в DOM Document. Спецификация DOMParser находится в DOM Parsing and Serialization.

Заметьте, что XMLHttpRequest поддерживает парсинг XML и HTML из интернет ресурсов (по ссылке)

Для того чтобы создать DOMParser просто используйте new DOMParser().

Для большей информации о создании DOMParser в расширениях Firefox, пожалуйста прочитайте документацию : nsIDOMParser.

Как только вы создали объект парсера, вы можете парсить XML из строки, используя метод 

parseFromString:

var parser = new DOMParser();
var doc = parser.parseFromString(stringContainingXMLSource, "application/xml");

Обработка ошибок

Заметьте, если процесс парсинга не удастся , DOMParser теперь не выдаёт исключение, но вместо этого выдаёт документ ошибки (see баг 45566):

<parsererror xmlns="http://www.mozilla.org/newlayout/xml/parsererror.xml">
(Описание ошибки)
<sourcetext>(отрывок XML документа)</sourcetext>
</parsererror>

Ошибки синтаксического анализа также сообщаются в консоль ошибок, с идентификатором URI документа (см. Ниже) в качестве источника ошибки.

DOMParser так же может быть использован для разбора SVG документа (Firefox 10.0 / Thunderbird 10.0 / SeaMonkey 2.7) или HTML документа (Firefox 12.0 / Thunderbird 12.0 / SeaMonkey 2.9). На выходе возможны 3 варианта, в зависимости от переданного MIME типа.

\s*text\/html\s*(?:;|$)/i.test(type)) { var doc = document.implementation.createHTMLDocument(«») ; if (markup.toLowerCase().indexOf(‘<!doctype’) > -1) { doc.documentElement.innerHTML = markup; } else { doc.body.innerHTML = markup; } return doc; } else { return nativeParse.apply(this, arguments); } }; }(DOMParser));

DOMParser from Chrome/JSM/XPCOM/Privileged Scope

Смотрите статью по ссылке: nsIDOMParser

FeatureChromeEdgeFirefox (Gecko)Internet ExplorerOperaSafari (WebKit)
XML support1(Да)1.0 (1.7 или ранее)983.2
SVG support4(Да)10.0 (10.0)10153.2
HTML support30(Да)12.0 (12.0)10177.1
FeatureAndroidEdgeFirefox Mobile (Gecko)IE MobileOpera MobileSafari Mobile
XML support(Да)(Да)(Да)?(Да)?
SVG support?(Да)10.0 (10.0)???
HTML support?(Да)12.0 (12.0)???

xml.parsers.expat — Быстрый парсинг XML с использованием Expat — Документация Python 3.8.8


Предупреждение

Модуль pyexpat не защищен от злонамеренно созданных данных. Если необходимо проанализировать ненадежные или неподтвержденные данные, см.

раздел Уязвимости XML.

Модуль xml.parsers.expat является интерфейсом Python к Expat не проверяющему XML парсеру. Модуль обеспечивает единственный дополнительный тип, xmlparser, который представляет текущее состояние XML парсера. После создания объекта xmlparser различные атрибуты объекта могут быть установлены в функции обработчика. Когда документ XML подается в парсер, функции обработчик вызываются для символ данных и разметки в документе XML.

Модуль использует модуль pyexpat для обеспечения доступа к Expat парсеру. Прямое использование модуля

pyexpat запрещено.

Модуль предоставляет одно исключение и один объект типа:

exception xml.parsers.expat.ExpatError

Исключение, возникшее при сообщении Expat об ошибке. Посмотрите раздел Исключения ExpatError для получения дополнительной информации об интерпретации ошибок Expat.

exception xml.parsers.expat.error

Псевдоним для ExpatError.

xml.parsers.expat.XMLParserType

Тип возвращаемого значения из функции ParserCreate().

Модуль

xml.parsers.expat содержит две функции:

xml.parsers.expat.ErrorString(errno)

Возвращает пояснительную строку для данного номера ошибки errno.

xml.parsers.expat.ParserCreate(encoding=None, namespace_separator=None)

Создание и возвращаемого нового объекта xmlparser. encoding, если определено, должен быть строкой, обозначающей используемую кодировку XML-данных. Expat не поддерживает столько кодировок, сколько Python, и его репертуар кодировок не может быть расширен; поддерживает UTF-8, UTF-16, ISO-8859-1 (Latin1) и ASCII.

Если задано значение encoding , это переопределит неявную или явную кодировку документа.

Expat можете дополнительно выполнить обработку пространства имен XML для вас, включив, предоставив значение для namespace_separator. Значение должено быть односимвольной строкой; будет поднято ValueError, если строка имеет недопустимую длину (None считается таким же, как упущение). То, когда обработка пространства имен включена, элемент вводят имена и имена атрибут, которые принадлежат пространству имен, будет расширено. Имя элемента, переданное элементу обработчики

StartElementHandler и EndElementHandler, будет конкатенацией URI пространства имен, разделителя пространства имен символ и локальная части имени. Если разделитель пространства имен является нулевым байтом (chr(0)), URI пространства имен и локальная часть будут конкатенированы без какого-либо разделителя.

Например, если namespace_separator установлен в символ пробела (' ') и распарсен следующий документ:

<?xml version="1.0"?>
<root xmlns    = "http://default-namespace.org/"
      xmlns:py = "http://www.python.org/ns/">
  <py:elem1 />
  <elem2 xmlns="" />
</root>

StartElementHandler

получит следующие строки для каждого элемента:

http://default-namespace.org/ root
http://www.python.org/ns/ elem1
elem2

Из-за ограничений в библиотеке Expat, используемой pyexpat, возвращенный экземпляр xmlparser может использоваться только для разбора одного XML документа. Вызовите ParserCreate для каждого документа, чтобы предоставить уникальные экземпляры парсера.

Объекты XMLParser

Объекты xmlparser содержат следующие методы:

xmlparser.Parse(data[, isfinal])

Анализирует содержимое строки data, вызывая соответствующие функции обработчика для обработки проанализированных данных.

isfinal должен иметь значение true при окончательном вызове этого метода; это позволяет парсинг единственного файла во фрагментах, не подачу нескольких файлов. data может быть пустым строка в любое время.

xmlparser.ParseFile(file)

Анализ данных XML, считываемых из объекта file. file только должен предоставить метод read(nbytes), возвращая пустой строка, когда больше нет данных.

xmlparser.SetBase(base)

Устанавливает основу быть используемый для решения относительного URIs в системных идентификаторах в декларациях. Решение относительных идентификаторов оставляют применению: через это значение пройдут как аргумент

base ExternalEntityRefHandler(), NotationDeclHandler() и функциям UnparsedEntityDeclHandler().

xmlparser.GetBase()

Возвращает строку, содержащая базовый набор при предыдущем вызове SetBase(), или None, если SetBase() не был вызван.

xmlparser.GetInputContext()

Возвращает входные данные, которые сгенерировали текущее событие как строка. Данные находятся в кодировка объекта, содержащего текст. При вызове, когда событие обработчик неактивно, возвращает значение является

None.

xmlparser.ExternalEntityParserCreate(context[, encoding])

Создайте «ребенка» парсера, который может быть используемый, чтобы разобрать внешнюю разобранную сущность, упомянутую содержанием, разобранным родительским парсер. Параметр context должен быть строка, переданным функции ExternalEntityRefHandler() обработчик, описанной ниже. Ребенок парсер создан с набором ordered_attributes и specified_attributes к значения этого парсер.

xmlparser.SetParamEntityParsing(flag)

Управление парсингом объекта параметров (включая внешнее подмножество DTD). Возможны flag значения XML_PARAM_ENTITY_PARSING_NEVER, XML_PARAM_ENTITY_PARSING_UNLESS_STANDALONE и XML_PARAM_ENTITY_PARSING_ALWAYS. Возвращает true, если установка флага прошла успешно.

xmlparser.UseForeignDTD([flag])

Запрос этого с истинным значение для flag (по умолчанию) заставит Expat называть ExternalEntityRefHandler с None для всех аргументов, чтобы позволить альтернативной дАТЕ быть загруженной. Если документ не содержит объявление типа документа, то вызов ExternalEntityRefHandler все равно будет выполнен, но вызов StartDoctypeDeclHandler и EndDoctypeDeclHandler выполняться не будет.

Передача значения false для flag отменит предыдущее требование, которое передало истинный значение, но иначе не имеет никакого эффекта.

Метод можно вызвать только до вызова методов Parse() или ParseFile(); запрос его после любого из тех назвали причинами ExpatError, который будет поднят с набором code атрибут до errors.codes[errors.XML_ERROR_CANT_CHANGE_FEATURE_ONCE_PARSING].

Объекты xmlparser содержат следующие атрибуты:

xmlparser.buffer_size

Размер используемого буфера, когда buffer_text true. Новый размер буфера может быть установлен, назначив новый целочисленный значение на этот атрибут. При изменении размера буфер будет очищен.

xmlparser.buffer_text

Установка этого значения в true приводит к тому, что объект xmlparser буферизует текст содержимое, возвращаемое Expat, чтобы избежать нескольких обращений к обратному вызову CharacterDataHandler(), когда это возможно. Это может улучшить производительность существенно, так как Expat обычно разбивает данные символ в чанки при каждом окончании линии. Этот атрибут false по умолчанию и может быть изменен в любое время.

xmlparser.buffer_used

Если параметр buffer_text включен, количество байтов, хранящихся в буфере. Эти байты представляют текст UTF-8 кодированный. Этот атрибут не имеет значимой интерпретации, когда buffer_text является false.

xmlparser.ordered_attributes

Настройка этого атрибута к отличному от нуля целому числу заставляет атрибуты сообщаться как список, а не словарь. атрибуты представлены в порядке, указанном в тексте документа. Для каждого атрибут представлены две записи списка: имя атрибут и атрибут значение. (Более старые версии этого модуля также используемый этот формат.) По умолчанию этот атрибут false; он может быть изменен в любое время.

xmlparser.specified_attributes

Если задано ненулевое целое число, то парсер будет сообщать только те атрибуты, которые были указаны в документе сущность, а не те, которые были получены из объявлений атрибут. Приложения, которые это задают, должны быть особенно осторожны, чтобы использовать, какая дополнительная информация доступна из объявлений по мере необходимости, чтобы соответствовать стандартам поведения процессоров XML. По умолчанию этот атрибут false; он может быть изменен в любое время.

Следующие атрибуты содержат значения, относящиеся к последней ошибке, обнаруженной объектом xmlparser, и будут иметь правильную значения только после вызова Parse() или ParseFile(), вызвавшего исключение xml.parsers.expat.ExpatError.

xmlparser.ErrorByteIndex

Байтовый индекс, в котором произошла ошибка.

xmlparser. ErrorCode

Числовая код, указывающая проблему. Этот значение может быть передан к функции ErrorString(), или по сравнению с одной из констант, определенных в объекте errors.

xmlparser.ErrorColumnNumber

Номер столбца, в котором произошла ошибка.

xmlparser.ErrorLineNumber

Номер строки, в которой произошла ошибка.

Следующие атрибуты содержат значения, относящиеся к текущему расположению синтаксического анализа в объекте xmlparser. Во время сообщения колбэк о событии синтаксического анализа они указывают местоположение первого из последовательности символов, которые создали событие. При вызове вне колбэк обозначенная позиция будет только после последнего события синтаксического анализа (независимо от наличия связанного колбэк).

xmlparser.CurrentByteIndex

Текущий индекс байта на входе парсера.

xmlparser.CurrentColumnNumber

Номер текущего столбца на входе парсера.

xmlparser.CurrentLineNumber

Текущий номер строки на входе парсера.

Вот список обработчики, которые могут быть установлены. Чтобы установить обработчик на xmlparser возражают o, используют o.handlername = func. handlername должен быть взят из следующего списка, а func должен быть вызываемым объектом, принимающим правильное количество аргументов. Все аргументы являются строки, если не указано иное.

xmlparser.XmlDeclHandler(version, encoding, standalone)

Вызывается при анализе XML-объявления. XML-объявление является (необязательным) объявлением применимой версии рекомендации XML, кодировка текста документа и необязательного «автономного» объявления. version и encoding будут строки, и standalone будет 1, если документ объявлен автономным, 0 если он объявлен не автономным, или -1 если автономный клаузула был опущен. Это доступно только в версии Expat 1.95.0 или более поздней.

xmlparser.StartDoctypeDeclHandler(doctypeName, systemId, publicId, has_internal_subset)

Названный, когда Expat начинает парсинг декларация (<!DOCTYPE ...) типа документа. doctypeName обеспечен точно, как представлено. Параметры systemId и publicId дают системные и public идентификаторы, если они указаны, или None, если опущены. has_internal_subset будет верным, если документ содержит и подмножество объявления внутреннего документа. Для этого требуется Expat версии 1.2 или более поздней.

xmlparser.EndDoctypeDeclHandler()

Названный, когда Expat сделан парсинг декларация типа документа. Для этого требуется Expat версии 1.2 или более поздней.

xmlparser.ElementDeclHandler(name, model)

Вызывается один раз для каждого объявления типа элемента. name — имя типа элемента, а model — представление модели содержимого.

xmlparser.AttlistDeclHandler(elname, attname, type, default, required)

Требовавшийся каждый объявил атрибут для типа элемента. Если объявление списка атрибут объявляет три атрибуты, это обработчик вызывается три раза, один раз для каждого атрибут. elname — название элемента, к которому применяется декларация, и attname — название объявленного атрибут. Тип атрибут является строка, переданным как type; возможные значения 'CDATA', 'ID', 'IDREF',… default дает по умолчаниюу значение для атрибут используемый, когда атрибут не определен документом сущность или None, если нет никакого по умолчаниюа значение (#IMPLIED значения). Если атрибут требуется, чтобы, даны в документе сущность, required, будет верно. Для этого требуется Expat версии 1.95.0 или более поздней.

xmlparser.StartElementHandler(name, attributes)

Вызывается для начала каждого элемента. name является строка, содержащим имя элемента, а attributes — элемент атрибуты. Если ordered_attributes true, это — список (см. ordered_attributes для полного описания). В противном случае это словарь, отображающий имена на значения.

xmlparser.EndElementHandler(name)

Вызывается для окончания каждого элемента.

xmlparser.ProcessingInstructionHandler(target, data)

Вызывается для каждой инструкции по обработке.

xmlparser.CharacterDataHandler(data)

Вызван для получения символ данных. Это будет вызываться для обычных символ данных, содержимого, помеченного CDATA, и игнорируемого пробела. Заявления, которые должны отличить эти случаи, могут использовать StartCdataSectionHandler, EndCdataSectionHandler и ElementDeclHandler колбэки, чтобы собрать запрошенную информацию.

xmlparser.UnparsedEntityDeclHandler(entityName, base, systemId, publicId, notationName)

Вызван вызов объявлений объектов без анализа (NDATA). Это присутствует только для версии 1.2 библиотеки Expat; для более поздних версий вместо этого используйте команду EntityDeclHandler. (Базовая функция в библиотеке Expat объявлена устаревшей.)

xmlparser.EntityDeclHandler(entityName, is_parameter_entity, value, base, systemId, publicId, notationName)

Вызывается для всех объявлений сущности. Для параметров и внутренних объектов value будет представлять собой строка, дающую объявленное содержимое объекта; это будет None для внешних сущностей. Параметр notationName будет None для проанализированных сущностей, а имя нотации — для неназначенных сущностей. is_parameter_entity будет верным, если сущность является параметрической или false для общих сущностей (большинство приложений должны быть связаны только с общими сущностями). Это доступно только начиная с версии 1.95.0 библиотеки Expat.

xmlparser.NotationDeclHandler(notationName, base, systemId, publicId)

Вызвал объявление нотации. notationName, base, и systemId и publicId — строки, если дали. Если идентификатор public опущен, publicId будет None.

xmlparser.StartNamespaceDeclHandler(prefix, uri)

Вызывается, когда элемент содержит объявление пространства имен. Объявления пространства имен обрабатываются перед вызовом StartElementHandler для элемента, на который помещаются объявления.

xmlparser.EndNamespaceDeclHandler(prefix)

Вызывается при достижении закрывающего тега для элемента, содержащего объявление пространства имен. Это вызывается один раз для каждого объявления пространства имен на элементе в обратном порядке, для которого StartNamespaceDeclHandler был вызван, чтобы указать начало область видимости каждого объявления пространства имен. Звонки к этому обработчик сделаны после соответствующего EndElementHandler для конца элемента.

xmlparser.CommentHandler(data)

Звонили за комментариями. data — текст комментария, исключая ведущий '<!--' и конечный '-->'.

xmlparser.StartCdataSectionHandler()

Вызывается в начале раздела CDATA. Это и EndCdataSectionHandler необходимы для определения синтаксического начала и конца для разделов CDATA.

xmlparser.EndCdataSectionHandler()

Вызывается в конце раздела CDATA.

xmlparser.DefaultHandler(data)

Требовавшийся любые знаки в документе XML, для которого не был определен никакой применимый обработчик. Это означает знаки, которые являются частью конструкции, о которой можно было сообщить, но для которого поставлялся № обработчик.

xmlparser.DefaultHandlerExpand(data)

Это то же самое, что и DefaultHandler(), но не препятствует расширению внутренних сущностей. Ссылка на объект не будет передана обработчик по умолчанию.

xmlparser.NotStandaloneHandler()

Вызывается, если XML-документ не объявлен как автономный документ. Это происходит, когда существует внешнее подмножество или ссылка на сущность параметра, но XML-объявление не устанавливает автономную yes в XML- объявлении. Если это обработчик возвращает 0, то парсер вызовет ошибку XML_ERROR_NOT_STANDALONE. Если этот обработчик не установлен, никакое исключение не поднято парсер для этого условия.

xmlparser.ExternalEntityRefHandler(context, base, systemId, publicId)

Вызывается для ссылок на внешние объекты. base — текущая база, установленная предыдущим вызовом на SetBase(). Идентификаторы public и системы systemId и publicId строки, если они указаны; если идентификатор public не задан, publicId будет None. context значение является непрозрачным и должен быть используемый только как описано ниже.

Для анализа внешних сущностей этот обработчик должен быть реализован. Это ответственно за создание sub-парсер, использующего ExternalEntityParserCreate(context), инициализируя его с соответствующим колбэки и парсинг сущность. Этот обработчик должен возвращает целое число; если это, возвращает 0, парсер поднимет ошибку XML_ERROR_EXTERNAL_ENTITY_HANDLING, иначе парсинг, продолжится.

Если эта обработчик не предоставляется, внешние объекты сообщаются DefaultHandler колбэк, если они предоставляются.

Исключения ExpatError

ExpatError исключения имеют ряд интересных атрибуты:

ExpatError.code

Внутренний номер ошибки Expat для конкретной ошибки. Словарь errors.messages сопоставляет эти номера ошибок с сообщениями об ошибках Expat. Например:

from xml.parsers.expat import ParserCreate, ExpatError, errors

p = ParserCreate()
try:
    p.Parse(some_xml_document)
except ExpatError as err:
    print("Error:", errors.messages[err.code])

Модуль errors также предоставляет константы сообщений об ошибках и словарь codes, отображающий эти сообщения обратно на коды об ошибках, см. ниже.

ExpatError.lineno

Номер строки, на которой была обнаружена ошибка. Первая строка нумеруется как 1.

ExpatError.offset

Смещение символа в строке, в которой произошла ошибка. Первый столбец нумеруется как 0.

Пример

Следующая программа определяет три обработчика, которые просто распечатывают свои аргументы:

import xml.parsers.expat

# 3 handler functions
def start_element(name, attrs):
    print('Start element:', name, attrs)
def end_element(name):
    print('End element:', name)
def char_data(data):
    print('Character data:', repr(data))

p = xml. parsers.expat.ParserCreate()

p.StartElementHandler = start_element
p.EndElementHandler = end_element
p.CharacterDataHandler = char_data

p.Parse("""<?xml version="1.0"?>
<parent><child1 name="paul">Text goes here</child1>
<child2 name="fred">More text</child2>
</parent>""", 1)

Выходные данные этой программы::

Start element: parent {'id': 'top'}
Start element: child1 {'name': 'paul'}
Character data: 'Text goes here'
End element: child1
Character data: '\n'
Start element: child2 {'name': 'fred'}
Character data: 'More text'
End element: child2
Character data: '\n'
End element: parent

Описание модели контента

Модели содержимого описываются с помощью вложенных кортежей. Каждый кортеж содержит четыре значения: тип, квантификатор, имя и кортеж детей. Дочерние элементы — это просто дополнительные описания моделей содержимого.

значения первых двух полей — константы, определенные в модуле xml.parsers.expat.model. Эти константы можно собрать в две группы: группу типа модели и группу квантификатора.

Константы в группе типов модели:

xml.parsers.expat.model.XML_CTYPE_ANY

Элемент, названный именем модели, был объявлен имеющим модель содержимого ANY.

xml.parsers.expat.model.XML_CTYPE_CHOICE

Именованный элемент допускает выбор из ряда опций; это используемый для моделей содержимого, таких как (A | B | C).

xml.parsers.expat.model.XML_CTYPE_EMPTY

Элементы, объявленные EMPTY, имеют этот тип модели.

xml.parsers.expat.model.XML_CTYPE_MIXED
xml.parsers.expat.model.XML_CTYPE_NAME
xml.parsers.expat.model.XML_CTYPE_SEQ

Модели, представляющие ряд моделей, следующих одна за другой, обозначаются этим типом модели. Это используемый для таких моделей, как (A, B, C).

Константы в группе квантификаторов:

xml.parsers.expat.model.XML_CQUANT_NONE

Модификатор не задан, поэтому он может появиться ровно один раз, как для A.

xml.parsers.expat.model.XML_CQUANT_OPT

Модель необязательна: может появиться один раз или вообще нет, как для A?.

xml.parsers.expat.model.XML_CQUANT_PLUS

Модель должна выполняться один или несколько раз (например, A+).

xml.parsers.expat.model.XML_CQUANT_REP

Модель должна иметь нулевое или большее количество раз, как для A*.

Expat константы ошибок

В модуле xml.parsers.expat.errors предусмотрены следующие константы. Эти константы полезны при интерпретации некоторых атрибуты объектов исключения ExpatError, возникших при возникновении ошибки. С тех пор по назад причинам совместимости, значение констант — ошибка message а не числовая ошибка code, вы делаете это, сравнивая его code атрибут с errors.codes[errors.XML_ERROR_CONSTANT_NAME].

Модуль errors содержит следующие атрибуты:

xml.parsers.expat.errors.codes

Словарь, отображающий описания строк на их коды ошибок.

Добавлено в версии 3.2.

xml.parsers.expat.errors.messages

Словарь, отображающий числовые коды ошибок в их строковые описания.

Добавлено в версии 3.2.

xml.parsers.expat.errors.XML_ERROR_ASYNC_ENTITY
xml.parsers.expat.errors.XML_ERROR_ATTRIBUTE_EXTERNAL_ENTITY_REF

Ссылка на объект в атрибут значение ссылается на внешний объект, а не на внутренний объект.

xml.parsers.expat.errors.XML_ERROR_BAD_CHAR_REF

Ссылка символ, ссылающаяся на символ, которая является недопустимой в XML (например, символ 0 или „&#0;“).

xml.parsers.expat.errors.XML_ERROR_BINARY_ENTITY_REF

Ссылка на объект ссылается на объект, который был объявлен с нотацией, поэтому не может быть проанализирован.

xml.parsers.expat.errors.XML_ERROR_DUPLICATE_ATTRIBUTE

атрибут был используемый несколько раз в тэге начала.

xml.parsers.expat.errors.XML_ERROR_INCORRECT_ENCODING
xml.parsers.expat.errors.XML_ERROR_INVALID_TOKEN

Возникает, когда входной байт не может быть правильно назначен символ; например, байт NUL (значение 0) во входном потоке UTF-8.

xml.parsers.expat.errors.XML_ERROR_JUNK_AFTER_DOC_ELEMENT

После элемента документа произошло нечто иное, чем пробел.

xml.parsers.expat.errors.XML_ERROR_MISPLACED_XML_PI

XML-объявление найдено в месте, отличном от начала входных данных.

xml.parsers.expat.errors.XML_ERROR_NO_ELEMENTS

Документ не содержит элементов (XML требует, чтобы все документы содержали только один элемент верхнего уровня)..

xml.parsers.expat.errors.XML_ERROR_NO_MEMORY

Expat не удалось выделить внутреннюю память.

xml.parsers.expat.errors.XML_ERROR_PARAM_ENTITY_REF

Найдена ссылка на объект параметра, где она не разрешена.

xml.parsers.expat.errors.XML_ERROR_PARTIAL_CHAR

Во входных данных обнаружена неполная символ.

xml.parsers.expat.errors.XML_ERROR_RECURSIVE_ENTITY_REF

Ссылка на объект содержит другую ссылку на тот же объект; возможно, через другое имя, и, возможно, косвенно.

xml.parsers.expat.errors.XML_ERROR_SYNTAX

Обнаружена неустановленная синтаксическая ошибка.

xml.parsers.expat.errors.XML_ERROR_TAG_MISMATCH

Конечный тег не соответствует самому внутреннему открытому начальному тегу.

xml.parsers.expat.errors.XML_ERROR_UNCLOSED_TOKEN

Какой-либо маркер (например, начальный тег) не был закрыт до конца потока или был обнаружен следующий маркер.

xml.parsers.expat.errors.XML_ERROR_UNDEFINED_ENTITY

Была сделана ссылка на объект, который не был определен.

xml.parsers.expat.errors.XML_ERROR_UNKNOWN_ENCODING

Кодировка документа не поддерживается Expat.

xml.parsers.expat.errors.XML_ERROR_UNCLOSED_CDATA_SECTION

Помеченный раздел CDATA не закрыт.

xml.parsers.expat.errors.XML_ERROR_EXTERNAL_ENTITY_HANDLING
xml.parsers.expat.errors.XML_ERROR_NOT_STANDALONE

парсер определил, что документ не является «автономным», хотя он объявляется в XML-объявлении, а NotStandaloneHandler был установлен и возвращенный 0.

xml.parsers.expat.errors.XML_ERROR_UNEXPECTED_STATE
xml.parsers.expat.errors.XML_ERROR_ENTITY_DECLARED_IN_PE
xml.parsers.expat.errors.XML_ERROR_FEATURE_REQUIRES_XML_DTD

Запрошена операция, требующая компиляции поддержки DTD в, но настройка Expat была выполнена без поддержки DTD. Об этом никогда не должна сообщать стандартная сборка модуля xml.parsers.expat.

xml.parsers.expat.errors.XML_ERROR_CANT_CHANGE_FEATURE_ONCE_PARSING

Изменение в поведении запрошенный после того, как парсинг начался, который может только быть изменен, прежде чем парсинг начался. Это (в настоящее время) только поднимается UseForeignDTD().

xml.parsers.expat.errors.XML_ERROR_UNBOUND_PREFIX

При включенной обработке пространства имен обнаружен необъявленный префикс.

xml.parsers.expat.errors.XML_ERROR_UNDECLARING_PREFIX

Документ попытался удалить объявление пространства имен, связанное с префиксом.

xml.parsers.expat.errors.XML_ERROR_INCOMPLETE_PE

Объект параметра содержал неполную разметку.

xml.parsers.expat.errors.XML_ERROR_XML_DECL

Документ вообще не содержал элемента документа.

xml.parsers.expat.errors.XML_ERROR_TEXT_DECL

Была ошибка парсинг текстовая декларация во внешней сущности.

xml.parsers.expat.errors.XML_ERROR_PUBLICID

В идентификаторе public найдены недопустимые символы.

xml.parsers.expat.errors.XML_ERROR_SUSPENDED

Запрошенная операция была выполнена на приостановленном парсер, но не разрешена. Это включает в себя попытки предоставить дополнительный ввод или остановить парсер.

xml.parsers.expat.errors.XML_ERROR_NOT_SUSPENDED

Попытка возобновления парсер была предпринята, когда действие парсер не было приостановлено.

xml.parsers.expat.errors.XML_ERROR_ABORTED

Об этом не следует сообщать приложениям Python.

xml.parsers.expat.errors.XML_ERROR_FINISHED

Запрошенная операция выполнена на парсер, которая была завершена парсинг вводе, но не разрешена. Это включает в себя попытки предоставить дополнительный ввод или остановить парсер.

xml.parsers.expat.errors.XML_ERROR_SUSPEND_PE

Сноски

Часть: /Word/document.xml, Строка: x, Столбец: xxxx

I have been trying for days to recover a word document that has become corrupted. the document.xml file is the culprit it is throwing up an error upon opening the document i am met with:

XML Parsing Error Location: Part: /Word/document.xml, Line: 2, Column: 17062826 (Premature end of data in tag document line 2)

I have reformatted the document using the XML Tools plugin in Notepad++ and i cannot see any issue with the line referred to. When opening this document in XML Marker it looks like the issue is at the end of the document on the closing tag.

Although to me it looks fine it looks like it is written correctly. Im not great with xml so i really cant see what im supposed to change to fix this i have tried for days and also looked on the net and on here although people have the same issue and it is posted about i haven’t been able to find anything that helps me understand what im looking at in the XML (again i am no good with xml code).

I would really appreciate any help with this so i can understand what i need to change and why. That way if it happens in future ill understand it.

When opening the xml it lags my computer for a few seconds so cant paste here but i have uploaded the whole xml here: http://www54.zippyshare.com/v/a0zZzBW7/file.html

Can anybody assist me with this because im loosing my mind here. I have also take a screenshot of the file open in xml marker: Below is the bottom part of the xml code: Xml Marker says Expecting <, </ or text i dont understand why or even where to put that as i thought </x:xxxx>. is the correct syntax to end the xml but some of you guys who know xml will be able to show me where i am going wrong here.

    <w:headerReference w:type="default" r:id="rId79"/>
                           <w:headerReference w:type="first" r:id="rId80"/>
                           <w:pgSz w:w="19200" w:h="10800" w:orient="landscape"/>
                           <w:pgMar w:top="1440" w:right="1440" w:bottom="1440" w:left="1440" w:header="720" w:footer="720" w:gutter="0"/>
                           <w:cols w:space="720"/>
                       </w:sectPr>
                   </w:body>
</w:document>

Я пытаюсь в течение нескольких дней восстанавливать документ, который был поврежден. файл document.xml является виновником его вырвет ошибку при открытии документа я встретился с:

ошибки синтаксического анализа Расположение: Часть: /Word/document.xml, Line: 2, Колонка: 17062826 (Преждевременный конец данных в строке документа тега 2)

Я переформатировал документ, используя плагин XML Tools в Notepad ++, и я не вижу никакой проблемы с указанной строкой. При открытии этого документа в XML-маркере похоже, что проблема находится в конце документа в закрывающем теге.

Хотя для меня это выглядит нормально, похоже, что оно написано правильно. Im не очень хорошо с xml, поэтому я действительно не могу видеть, что им должен был изменить, чтобы исправить это, я пробовал в течение нескольких дней, а также посмотрел на сеть и здесь, хотя у людей такая же проблема, и она опубликована о том, что я не смог найти что-нибудь, что поможет мне понять, на что я смотрю в XML (опять-таки, мне нехорошо с xml-кодом).

Я бы очень признателен за любую помощь в этом, чтобы я мог понять, что мне нужно изменить и почему. Таким образом, если это случится в будущем, плохо это поймете.

При открытии XML-он запаздывает мой компьютер в течение нескольких секунд, так что косяк паста здесь, но я загрузил весь XML здесь: http://www54. zippyshare.com/v/a0zZzBW7/file.html

Может кто-нибудь помочь мне с этим, потому что им потерять свой ум здесь. Я также сделать скриншот файла, открытого в XML-маркера: Ниже нижняя часть кода XML: Xml Marker говорит Expecting <, </ or text я не понимаю, почему или даже где положить, что, как я думал </x:xxxx>. это правильный синтаксис для завершения xml, но некоторые из вас, ребята, знающие xml, смогут показать мне, где я здесь не так.

<w:headerReference w:type="default" r:id="rId79"/> 
         <w:headerReference w:type="first" r:id="rId80"/> 
         <w:pgSz w:w="19200" w:h="10800" w:orient="landscape"/> 
         <w:pgMar w:top="1440" w:right="1440" w:bottom="1440" w:left="1440" w:header="720" w:footer="720" w:gutter="0"/> 
         <w:cols w:space="720"/> 
        </w:sectPr> 
       </w:body> 
</w:document> 

xml ms-word document corrupt495

Глава 12. XML

Добавлено 5 июля 2020 в 11:59

Сохранить или поделиться

Содержание главы

Погружение

Большинство глав в этой книге строятся на фрагментах примеров кода. Но xml – это больше данные, нежели код. Один из способов применения xml – это «объединяющие каналы», такие как список последних статей в блоге, на форуме или на другом часто обновляемом сайте. Большинство популярного программного обеспечения для ведения блогов может создавать каналы (ленты, фиды) и обновлять их, когда публикуются новые статьи, темы форума или посты блога. Вы можете следить за блогом, подписавшись на его RSS канал, а также вы можете следить за несколькими блогами при помощи «агрегаторов каналов», таких как Google Reader (сейчас уже закрытый, примечание переводчика).

Итак, ниже представлены XML данные, с которыми мы будем работать в этой главе. Это фид в формате Atom syndication feed.

Скачать файл feed. xml.

<?xml version='1.0' encoding='utf-8'?>
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'>
  <title>dive into mark</title>
  <subtitle>currently between addictions</subtitle>
  <id>tag:diveintomark.org,2001-07-29:/</id>
  <updated>2009-03-27T21:56:07Z</updated>
  <link rel='alternate' type='text/html' href='http://diveintomark.org/'/>
  <link rel='self' type='application/atom+xml' href='http://diveintomark.org/feed/'/>
  <entry>
    <author>
      <name>Mark</name>
      <uri>http://diveintomark.org/</uri>
    </author>
    <title>Dive into history, 2009 edition</title>
    <link rel='alternate' type='text/html'
      href='http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edition'/>
    <id>tag:diveintomark.org,2009-03-27:/archives/20090327172042</id>
    <updated>2009-03-27T21:56:07Z</updated>
    <published>2009-03-27T17:20:42Z</published>
    <category scheme='http://diveintomark.org' term='diveintopython'/>
    <category scheme='http://diveintomark.org' term='docbook'/>
    <category scheme='http://diveintomark.org' term='html'/>
  <summary type='html'>Putting an entire chapter on one page sounds
    bloated, but consider this &amp;mdash; my longest chapter so far
    would be 75 printed pages, and it loads in under 5 seconds&amp;hellip;
    On dialup.</summary>
  </entry>
  <entry>
    <author>
      <name>Mark</name>
      <uri>http://diveintomark.org/</uri>
    </author>
    <title>Accessibility is a harsh mistress</title>
    <link rel='alternate' type='text/html'
      href='http://diveintomark. org/archives/2009/03/21/accessibility-is-a-harsh-mistress'/>
    <id>tag:diveintomark.org,2009-03-21:/archives/20090321200928</id>
    <updated>2009-03-22T01:05:37Z</updated>
    <published>2009-03-21T20:09:28Z</published>
    <category scheme='http://diveintomark.org' term='accessibility'/>
    <summary type='html'>The accessibility orthodoxy does not permit people to
      question the value of features that are rarely useful and rarely used.</summary>
  </entry>
  <entry>
    <author>
      <name>Mark</name>
    </author>
    <title>A gentle introduction to video encoding, part 1: container formats</title>
    <link rel='alternate' type='text/html'
      href='http://diveintomark.org/archives/2008/12/18/give-part-1-container-formats'/>
    <id>tag:diveintomark.org,2008-12-18:/archives/20081218155422</id>
    <updated>2009-01-11T19:39:22Z</updated>
    <published>2008-12-18T15:54:22Z</published>
    <category scheme='http://diveintomark.org' term='asf'/>
    <category scheme='http://diveintomark.org' term='avi'/>
    <category scheme='http://diveintomark.org' term='encoding'/>
    <category scheme='http://diveintomark.org' term='flv'/>
    <category scheme='http://diveintomark.org' term='GIVE'/>
    <category scheme='http://diveintomark.org' term='mp4'/>
    <category scheme='http://diveintomark.org' term='ogg'/>
    <category scheme='http://diveintomark.org' term='video'/>
    <summary type='html'>These notes will eventually become part of a
      tech talk on video encoding.</summary>
  </entry>
</feed>

12.2 5-минутный ускоренный курс в XML

Если Вы уже знакомы с XML, то можете пропустить этот раздел.

XML – это язык разметки для описания иерархически структурированных данных. XML документ содержит один или более элементов, разделённых открывающими и закрывающими тегами. Вот правильный, хотя и неинтересный, XML документ:

<foo>   ①
</foo>  ②
  1. Строка 1. Это открывающий (начальный) тег элемента foo.
  2. Строка 2. Это соответствующий закрывающий (конечный) тег элемента foo. Как и в математике и языках программирования у каждой открывающей скобки должна быть соответствующая закрывающая скобка, в XML каждый открывающий тег должен быть закрыт соответствующим закрывающим тегом.

Элементы могут быть вложены друг в друга, при этом глубина вложения не ограничена. Так как элемент bar вложен в элемент foo, то его называют подэлементом или дочерним элементом элемента foo.

<foo>
  <bar></bar>
</foo>

Первый элемент любого XML документа называется корневым. XML документ может содержать только один корневой элемент. Пример, представленный ниже, не является XML документом, так как он содержит два корневых элемента:

<foo></foo>
<bar></bar>

Элементы могут иметь атрибуты, состоящие из пары имя-значение. Атрибуты перечисляются внутри открывающего тега элемента и разделяются пробелами. Имена атрибутов не могут повторяться внутри одного элемента. Значения атрибутов должны быть заключены в одинарные или двойные кавычки.

<foo lang='en'>                          ①
  <bar lang="fr"></bar>  ②
</foo>
  1. Строка 1. Элемент foo имеет один атрибут с именем lang. Значение атрибута lang – это строка en.
  2. Строка 2. Элемент bar имеет два атрибута, их имена id и lang. Значение атрибута lang – это fr. Это не приводит к конфликту с атрибутом lang элемента foo, так как каждый элемент имеет свой набор атрибутов.

Если элемент имеет более одного атрибута, то порядок атрибутов не имеет значения. Атрибуты элемента формируют неупорядоченный набор ключей и значений подобно словарям в Python. Для каждого элемента можно указать неограниченное число атрибутов.

Элементы могут иметь текстовый контент.

<foo lang='en'>
  <bar lang='fr'>PapayaWhip</bar>
</foo>

Элементы, которые не содержат текста и дочерних элементов называются пустыми.

<foo></foo>

Для записи пустых элементов существует сокращенный вариант. Поместив слеш (/) в конце открывающего тега, вы можете опустить закрывающий тег. XML документ из предыдущего примера может быть записан следующим образом:

<foo/>

Как функции в Python могут быть объявлены в разных модулях, XML элементы могут быть объявлены в разных пространствах имён (namespace). Пространства имён обычно выглядят как URL. Для объявления пространства имён по умолчанию используется директива xmlns. Объявление пространства имён очень похоже на атрибут, но у него другое назначение.

<feed xmlns='http://www.w3.org/2005/Atom'>  ①
  <title>dive into mark</title>             ②
</feed>
  1. Строка 1. Элемент feed находится в пространстве имён http://www.w3.org/2005/Atom.
  2. Строка 2. Элемент title также находится в пространстве имён http://www. w3.org/2005/Atom. Пространство имён применяется и к элементу, в котором оно было определено, и ко всем его дочерним элементам.

Вы также можете использовать объявление xmlns:prefix, чтобы определить пространство имен и назначить ему префикс. Тогда каждый элемент в данном пространстве имён должен быть явно объявлен с указанием этого префикса.

<atom:feed xmlns:atom='http://www.w3.org/2005/Atom'>  ①
  <atom:title>dive into mark</atom:title>             ②
</atom:feed>
  1. Строка 1. Элемент feed находится в пространстве имён http://www.w3.org/2005/Atom.
  2. Строка 2. Элемент title также находится в пространстве имён http://www.w3.org/2005/Atom.

С точки зрения синтаксического анализатора XML, предыдущие два XML документа идентичны. Пара «пространство имён» + «имя элемента» задают идентичность XML. Префиксы используются только для ссылки на пространство имён, но не изменяют имени атрибута, поэтому данное имя префикса (atom:) не имеет значения. Если пространства имён совпадают, имена элементов совпадают, атрибуты (или их отсутствие) совпадают, и текстовый контент элементов совпадает, то XML документы одинаковы.

И, наконец, XML документы могут содержать информацию о кодировке символов в первой строке до корневого элемента (если вам интересно как документ может содержать информацию, которая должна быть известна до анализа документа, то для разрешения уловки 22 смотрите раздел F спецификации XML).

<?xml version='1.0' encoding='utf-8'?>

Теперь вы знаете об XML достаточно, чтобы «вынести» следующие разделы главы!

12.3 Структура фида Atom

Рассмотрим блог или любой сайт с часто обновляемым контентом, например CNN.com. Сайт содержит заголовок («CNN.com»), подзаголовок («Breaking News, U.S. , World, Weather, Entertainment & Video News»), дату последнего изменения («updated 12:43 p.m. EDT, Sat May 16, 2009») и список статей, опубликованных в разное время. Каждая статья, в свою очередь, также имеет заголовок, дату первой публикации (и, возможно, дату последнего обновления, в случае если статья была изменена, или исправлены опечатки) и уникальный URL.

Формат объединения Atom был разработан, чтобы хранить информацию подобного рода стандартным образом. Мой блог и CNN.com абсолютно разные по дизайну, содержанию и аудитории, но они оба имеют сходную структуру. У CNN.com есть заголовок, и у моего блога тоже есть заголовок. CNN.com публикует статьи, и я публикую статьи.

На верхнем уровне находится корневой элемент, который должен быть у каждого фида Atom: элемент feed из пространства имен http://www.w3.org/2005/Atom.

<feed xmlns='http://www.w3.org/2005/Atom'  ①
      xml:lang='en'>                       ②
  1. Строка 1. http://www.w3.org/2005/Atom – это пространство имён Atom
  2. Строка 2. Каждый элемент может содержать атрибут xml:lang, который определяет язык элемента и его дочерних элементов. В данном случае атрибут xml:lang, объявленный в корневом элементе, задаёт английский язык для всего фида.

Фид Atom содержит дополнительную информацию о себе в дочерних элементах корневого элемента feed:

<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'>
  <title>dive into mark</title>                                             ①
  <subtitle>currently between addictions</subtitle>                         ②
  <id>tag:diveintomark.org,2001-07-29:/</id>                                ③
  <updated>2009-03-27T21:56:07Z</updated>                                   ④
  <link rel='alternate' type='text/html' href='http://diveintomark. org/'/>  ⑤
  1. Строка 2. Заголовок title содержит текст ‘dive into mark‘.
  2. Строка 3. Подзаголовок subtitle фида – это строка ‘currently between addictions‘.
  3. Строка 4. Каждый фид должен иметь глобальный уникальный идентификатор. RFC 4151 содержит информацию, как создавать такие идентификаторы.
  4. Строка 5. Данный фид был обновлён последний раз 27 марта 2009 в 21:56 GMT. Обычно элемент updated эквивалентен дате последнего изменения последней статьи на сайте.
  5. Строка 6. А вот здесь начинается самое интересное. Элемент ссылки link не имеет текстового контента, но имеет три атрибута: rel, type и href. Значение атрибута rel говорит о типе ссылки; rel='alternate' значит, что это ссылка для альтернативного представления данного фида. Атрибут type='text/html' означает, что это ссылка на HTML страницу. И, собственно, путь ссылки содержится в атрибуте href.

Теперь мы знаем, что представленный выше фид получен с сайта «dive into mark». Сайт доступен по адресу http://diveintomark.org/ и последний раз был обновлён 27 марта 2009.

Хотя в некоторых XML документах порядок элементов может иметь значение, в фидах Atom порядок элементов не важен.

После метаданных о фиде идёт список последних статей. Статья выглядит следующим образом:

<entry>
  <author>                                                                 ①
    <name>Mark</name>
    <uri>http://diveintomark.org/</uri>
  </author>
  <title>Dive into history, 2009 edition</title>                           ②
  <link rel='alternate' type='text/html'                                   ③
    href='http://diveintomark. org/archives/2009/03/27/dive-into-history-2009-edition'/>
  <id>tag:diveintomark.org,2009-03-27:/archives/20090327172042</id>        ④
  <updated>2009-03-27T21:56:07Z</updated>                                  ⑤
  <published>2009-03-27T17:20:42Z</published>        
  <category scheme='http://diveintomark.org' term='diveintopython'/>       ⑥
  <category scheme='http://diveintomark.org' term='docbook'/>
  <category scheme='http://diveintomark.org' term='html'/>
  <summary type='html'>Putting an entire chapter on one page sounds        ⑦
    bloated, but consider this &amp;mdash; my longest chapter so far
    would be 75 printed pages, and it loads in under 5 seconds&amp;hellip;
    On dialup.</summary>
</entry>                                                                   ⑧
  1. Строка 2. Элемент author сообщает о том, кто написал статью: некий парень по имени Mark, которого вы можете найти бездельничающего на http://diveintomark.org/. (В данном случае ссылка на сайт автора совпадает с альтернативной ссылкой в метаданных фида, но это не всегда так, поскольку многие блоги имеют несколько авторов, у каждого из которых есть свой сайт.)
  2. Строка 6. Элемент title содержит заголовок статьи «Dive into history, 2009 edition».
  3. Строка 7. Как и с альтернативной ссылкой на фид, в элементе link находится адрес HTML версии данной статьи.
  4. Строка 9. Элемент entry, как и фид, имеет уникальный идентификатор.
  5. Строка 10. Элемент entry содержит две даты: дату первой публикации (published) и дату последнего изменения (updated).
  6. Строка 12. Элементы entry могут иметь произвольное количество категорий (элементов category). Рассматриваемая статья попадёт в категории diveintopython, docbook и html.
  7. Строка 15. Элемент summary даёт краткий обзор статьи. (Бывает также не представленный здесь элемент содержания content, предназначенный для включения в фид полного текста статьи.) Данный элемент summary содержит специфичный для фидов Atom атрибут type='html', указывающий, что содержимое элемента представлено в формате HTML, а не в виде простого текста. Это важно, так как HTML-объекты (&mdash; и &hellip;), присутствующие в элементе должны отображаться как «» и «», а не печататься «как есть».
  8. Строка 19. И, наконец, закрывающий тег элемента entry говорит о конце метаданных для данной статьи.

12.4 Синтаксический разбор XML

В Python документы XML могут быть обработаны несколькими способами. Язык имеет традиционные парсеры DOM и SAX, но я сфокусируюсь на другой библиотеке под названием ElementTree.

Скачать файл feed.xml.

>>> import xml.etree.ElementTree as etree    ①
>>> tree = etree.parse('examples/feed.xml')  ②
>>> root = tree.getroot()                    ③
>>> root                                     ④
<Element {http://www.w3.org/2005/Atom}feed at cd1eb0>
  1. Строка 1. Модуль ElementTree входит в стандартную библиотеку Python и находится в xml.etree.ElementTree.
  2. Строка 2. Основная точка входа в библиотеку ElementTree – это функция parse(), которая принимает имя файла или файлоподобный объект. Данная функция выполняет синтаксический анализ документа за раз. Если памяти недостаточно, то есть способы для поэтапного анализа XML-документа.
  3. Строка 3. Функция parse() возвращает объект, представляющий весь документ. Однако объект treeне является корневым элементом. Чтобы получить ссылку на корневой элемент, необходимо вызвать метод getroot().
  4. Строка 4. Как и следовало ожидать, корневой элемент – это элемент feed в пространстве имён http://www.w3.org/2005/Atom. Строковое представление объекта root ещё раз подчёркивает важный момент: XML элемент – это комбинация пространства имён и его имени тега (так же называемого локальным именем). Каждый элемент в данном документе находится в пространстве Atom, поэтому корневой элемент представлен как {http://www.w3.org/2005/Atom}feed.

Модуль ElementTree всегда представляет элементы XML как ‘{пространство имён}локальное имя‘. Вам неоднократно предстоит увидеть и использовать этот формат при использовании API ElementTree.

12.4.1 Элементы – это списки

В API ElementTree элемент действует как встроенный тип Python, список. А элементы списка – это дочерние XML элементы.

# продолжение предыдущего примера
>>> root.tag                        ①
'{http://www.w3.org/2005/Atom}feed'
>>> len(root)                       ②
8
>>> for child in root:              ③
...   print(child)                  ④
... 
<Element {http://www.w3.org/2005/Atom}title at e2b5d0>
<Element {http://www.w3.org/2005/Atom}subtitle at e2b4e0>
<Element {http://www.w3.org/2005/Atom}id at e2b6c0>
<Element {http://www.w3.org/2005/Atom}updated at e2b6f0>
<Element {http://www.w3.org/2005/Atom}link at e2b4b0>
<Element {http://www.w3.org/2005/Atom}entry at e2b720>
<Element {http://www.w3.org/2005/Atom}entry at e2b510>
<Element {http://www. w3.org/2005/Atom}entry at e2b750>
  1. Строка 2. Продолжим предыдущий пример, корневой элемент – это {http://www.w3.org/2005/Atom}feed.
  2. Строка 4. «Длина» корневого элемента root равна количеству дочерних элементов.
  3. Строка 6. Вы можете использовать элемент как итератор, чтобы пройтись по всем дочерним элементам.
  4. Строка 7. Из вывода видно, что в элементе root 8 дочерних элементов: 5 элементов с метаданными о фиде (title, subtitle, id, updated и link) и 3 элемента entry со статьями.

Вы, должно быть, уже догадались, но я хочу явно указать на следующее: список дочерних элементов содержит только непосредственные дочерние элементы. Каждый дочерний элемент entry, в свою очередь, содержит свои дочерние элементы, но они не будут включены в этот список. Они будут включены в список дочерних элементов самого элемента entry, но не будут включены в список дочерних элементов элемента feed. Найти определённые элементы любого уровня вложенности можно несколькими способами; позже, в данной главе, мы рассмотрим два из них.

12.4.2 Атрибуты – это словари

XML – это не просто набор элементов; каждый элемент также имеет собственный набор атрибутов. Имея ссылку на конкретный XML элемент, вы можете легко получить его атрибуты в виде словаря Python.

# продолжение предыдущего примера
>>> root.attrib                           ①
{'{http://www.w3.org/XML/1998/namespace}lang': 'en'}
>>> root[4]                               ②
<Element {http://www.w3.org/2005/Atom}link at e181b0>
>>> root[4].attrib                        ③
{'href': 'http://diveintomark.org/',
 'type': 'text/html',
 'rel': 'alternate'}
>>> root[3]                               ④
<Element {http://www. w3.org/2005/Atom}updated at e2b4e0>
>>> root[3].attrib                        ⑤
{}
  1. Строка 2. Свойство attrib представляет собой словарь атрибутов элемента. Исходная разметка XML была следующей <feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'>. Префикс xml: ссылается на стандартное пространство имён, которое любой XML документ может использовать без объявления.
  2. Строка 4. Пятый дочерний элемент (с индексом [4], так как списки Python начинаются с 0) – это элемент link.
  3. Строка 6. Элемент link имеет три атрибута href, type и rel.
  4. Строка 10. Четвёртый дочерний элемент (с индексом [3] в списке, начинающемся с 0) – это элемент updated.
  5. Строка 12. Элемент updated не имеет атрибутов, следовательно, свойство .attrib – это просто пустой словарь.

12.5 Поиск узлов в XML документе

До настоящего момента мы работали с XML документом «сверху вниз», начиная с корневого элемента, затем получая его дочерние элементы, и так далее через весь документ. Однако во многих случаях при работе с XML вам необходимо искать конкретные элементы. etree справится и с этой задачей.

>>> import xml.etree.ElementTree as etree
>>> tree = etree.parse('examples/feed.xml')
>>> root = tree.getroot()
>>> root.findall('{http://www.w3.org/2005/Atom}entry')    ①
[<Element {http://www.w3.org/2005/Atom}entry at e2b4e0>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b510>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b540>]
>>> root.tag
'{http://www.w3.org/2005/Atom}feed'
>>> root.findall('{http://www. w3.org/2005/Atom}feed')     ②
[]
>>> root.findall('{http://www.w3.org/2005/Atom}author')   ③
[]
  1. Строка 4. Метод findall() выполняет поиск дочерних элементов удовлетворяющих конкретному запросу (формат этого запроса рассматривается ниже).
  2. Строка 10. Метод findall() есть у всех элементов (включая корневой и дочерние). Он ищет среди дочерних все элементы, соответствующие запросу. Почему он ничего не нашел? Хотя это может показаться неочевидным, данный запрос ищет только среди дочерних элементов. Так как корневой элемент feed не имеет дочерних элементов с именем feed, то запрос возвращает пустой список.
  3. Строка 12. Этот результат также может вас удивить. В данном XML документе есть элемент author; на самом деле, их даже три (по одному в каждом элементе entry). Но эти элементы author не являются непосредственными дочерними элементами корневого элемента; они – как бы «внуки» (дочерние элементы дочернего элемента). Если вам нужно найти элементы author на любом уровне вложенности, то вы можете это сделать, но формат запроса будет немного отличаться.
>>> tree.findall('{http://www.w3.org/2005/Atom}entry')    ①
[<Element {http://www.w3.org/2005/Atom}entry at e2b4e0>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b510>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b540>]
>>> tree.findall('{http://www.w3.org/2005/Atom}author')   ②
[]
  1. Строка 1. Для удобства объект tree (который возвращается функцией etree.parse()) имеет несколько методов, идентичных методам корневого элемента. Результаты будут такими же, как и при вызове метода tree.getroot().findall().
  2. Строка 5. Возможно, для вас это может оказаться сюрпризом, но данный запрос не находит элементов author в данном документе. Почему же? Потому что, этот вызов идентичен вызову tree.getroot().findall('{http://www.w3.org/2005/Atom}author'), что значит, «найти все элементы author, которые являются дочерними элементами корневого элемента». Элементы author не являются дочерними для корневого элемента; они дочерние элементы элементов entry. Таким образом, при выполнении запроса совпадений не найдено.

Помимо метода findall() есть метод find(), который возвращает первый найденный элемент. Это может быть полезно, когда вы ожидаете только одно совпадение, или, если есть несколько совпадений, но вам важен только первый найденных элементов.

>>> entries = tree.findall('{http://www.w3.org/2005/Atom}entry')           ①
>>> len(entries)
3
>>> title_element = entries[0].find('{http://www.w3.org/2005/Atom}title')  ②
>>> title_element.text
'Dive into history, 2009 edition'
>>> foo_element = entries[0].find('{http://www.w3.org/2005/Atom}foo')      ③
>>> foo_element
>>> type(foo_element)
<class 'NoneType'>
  1. Строка 1. Как вы видели в предыдущем примере, findall() возвращает список всех элементов atom:entry.
  2. Строка 4. Метод find() принимает запрос ElementTree и возвращает первый элемент, удовлетворяющий этому запросу.
  3. Строка 7. В элементе foo отсутствуют дочерние элементы, поэтому find() возвращает объект None.

Здесь необходимо отметить «подводный камень» при использовании метода find(). В логическом контексте объекты элементов ElementTree, не содержащие дочерних элементов, равны значению False (т.е. if len(element) вычисляется как 0). Это значит, что код if element. find('...') проверяет не то, что нашёл ли метод find() удовлетворяющий запросу элемент; этот код проверяет, содержит ли найденный элемент дочерние элементы! Чтобы проверить, нашёл ли метод find() элемент, необходимо использовать if element.find('...') is not None.

Рассмотрим поиск внутри элементов-потомков, т.е. дочерних элементов, дочерних элементов уже дочерних элементов («внуков») и так далее, элементов любого уровня вложенности.

>>> all_links = tree.findall('//{http://www.w3.org/2005/Atom}link')  ①
>>> all_links
[<Element {http://www.w3.org/2005/Atom}link at e181b0>,
 <Element {http://www.w3.org/2005/Atom}link at e2b570>,
 <Element {http://www.w3.org/2005/Atom}link at e2b480>,
 <Element {http://www.w3.org/2005/Atom}link at e2b5a0>]
>>> all_links[0].attrib                                              ②
{'href': 'http://diveintomark.org/',
 'type': 'text/html',
 'rel': 'alternate'}
>>> all_links[1].attrib                                              ③
{'href': 'http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edition',
 'type': 'text/html',
 'rel': 'alternate'}
>>> all_links[2].attrib
{'href': 'http://diveintomark.org/archives/2009/03/21/accessibility-is-a-harsh-mistress',
 'type': 'text/html',
 'rel': 'alternate'}
>>> all_links[3].attrib
{'href': 'http://diveintomark.org/archives/2008/12/18/give-part-1-container-formats',
 'type': 'text/html',
 'rel': 'alternate'}
  1. Строка 1. Этот запрос – //{http://www.w3.org/2005/Atom}link – очень похож на запросы из предыдущих примеров, он отличается только двумя слешами // в начале запроса. Эти два слеша означают: «искать не только непосредственных дочерних элементов; я хочу найти все элементы независимо от уровня вложенности». Поэтому метод возвращает список из четырёх элементов link, а не из одного.
  2. Строка 7. Первый элемент в результате – это непосредственный дочерний элемент корневого элемента. Как мы видим из его атрибутов, это альтернативная ссылка уровня элемента feed, которая указывает на HTML версию веб-сайта, который описывается фидом.
  3. Строка 11. Остальные три элемента в результате – это альтернативные ссылки уровня элементов entry. Каждый из элементов entry имеет по одному дочернему элементу link. А так как в начале запроса findall() находился двойной слеш, то этот запрос нашел их всех.

В целом, метод findall() библиотеки ElementTree – это довольно мощный инструмент поиска, однако формат запроса может быть немного непредсказуем. Официально формат запросов ElementTree описан как «ограниченная поддержка выражений XPath». XPath – это стандарт W3C для построения запросов к элементам XML документа. Язык запросов ElementTree при выполнении простого поиска достаточно похож на XPath, но он и отличается от него настолько, что может начать раздражать, если вы уже знаете XPath. Теперь давайте рассмотрим сторонние библиотеки XML, позволяющие расширить API ElementTree до полной поддержки стандарта XPath.

12.6 Продолжаем работать с

lxml

lxml – это сторонняя библиотека с открытым исходным кодом, построенная на базе популярного синтаксического анализатора libxml2. Она обеспечивает стопроцентную совместимость с API ElementTree, полностью поддерживает XPath 1.0 и имеет несколько других приятных фишек. Для Windows доступен установщик; пользователям Linux следует проверить наличие скомпилированных пакетов в репозиториях дистрибутива с помощью, например, yum или apt-get. В противном случае вам придётся установить lxml вручную.

>>> from lxml import etree                   ①
>>> tree = etree. parse('examples/feed.xml')  ②
>>> root = tree.getroot()                    ③
>>> root.findall('{http://www.w3.org/2005/Atom}entry')  ④
[<Element {http://www.w3.org/2005/Atom}entry at e2b4e0>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b510>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b540>]
  1. Строка 1. При импорте lxml предоставляет абсолютно такой же API, как встроенная библиотека ElementTree.
  2. Строка 2. Функция parse() такая же, как в ElementTree.
  3. Строка 3. Метод getroot() тоже такой же.
  4. Строка 4. Метод findall() точно такой же.

При обработке больших XML документов lxml значительно быстрее, чем встроенная библиотека ElementTree. Если вы используете только API ElementTree и хотите, чтобы обработка выполнялась как можно быстрее, то можно попробовать импортировать библиотеку lxml и, в случае её отсутствия, использовать встроенную ElementTree.

try:
    from lxml import etree
except ImportError:
    import xml.etree.ElementTree as etree

Однако библиотека lxml не только быстрее, чем ElementTree. Ее метод findall() поддерживает более сложные выражения.

>>> import lxml.etree                                                                   ①
>>> tree = lxml.etree.parse('examples/feed.xml')
>>> tree.findall('//{http://www.w3.org/2005/Atom}*[@href]')                             ②
[<Element {http://www.w3.org/2005/Atom}link at eeb8a0>,
 <Element {http://www.w3.org/2005/Atom}link at eeb990>,
 <Element {http://www.w3.org/2005/Atom}link at eeb960>,
 <Element {http://www. w3.org/2005/Atom}link at eeb9c0>]
>>> tree.findall("//{http://www.w3.org/2005/Atom}*[@href='http://diveintomark.org/']")  ③
[<Element {http://www.w3.org/2005/Atom}link at eeb930>]
>>> NS = '{http://www.w3.org/2005/Atom}'
>>> tree.findall('//{NS}author[{NS}uri]'.format(NS=NS))                                 ④
[<Element {http://www.w3.org/2005/Atom}author at eeba80>,
 <Element {http://www.w3.org/2005/Atom}author at eebba0>]
  1. Строка 1. В данном примере я импортирую lxml.etree (вместо предыдущего способа: from lxml import etree), чтобы подчеркнуть, что описываемые возможности характерны именно для lxml.
  2. Строка 3. Этот запрос найдёт все элементы в пространстве имён Atom (любой вложенности), которые имеют атрибут href. Двойной слеш // в начале запроса означает «элементы любой вложенности (а не только дочерние элементы корневого элемента)». {http://www.w3.org/2005/Atom} означает «только элементы пространства имён Atom». Символ * значит «элементы с любым локальным именем». И [@href] означает «элемент имеет атрибут href».
  3. Строка 8. Запрос находит все элементы Atom с атрибутом href, значение которого равно http://diveintomark.org/.
  4. Строка 11. После небольшого форматирования строки (иначе составные запросы становятся неимоверно длинными) данный запрос ищет элементы Atom author, имеющие дочерние элементы Atom uri. Запрос возвращает только 2 элемента author: в первом и во втором элементах entry. В последнем элементе entry элемент author содержит только name, uri у него нет.

Вам недостаточно? lxml также имеет встроенную поддержку для выражений XPath 1. 0. Мы не будем детально рассматривать синтаксис XPath, так как это тема для отдельной книги. Но мы рассмотрим пример использования XPath в lxml.

>>> import lxml.etree
>>> tree = lxml.etree.parse('examples/feed.xml')
>>> NSMAP = {'atom': 'http://www.w3.org/2005/Atom'}                    ①
>>> entries = tree.xpath("//atom:category[@term='accessibility']/..",  ②
...     namespaces=NSMAP)
>>> entries                                                            ③
[<Element {http://www.w3.org/2005/Atom}entry at e2b630>]
>>> entry = entries[0]
>>> entry.xpath('./atom:title/text()', namespaces=NSMAP)               ④
['Accessibility is a harsh mistress']
  1. Строка 3. Чтобы выполнить XPath запрос элементов из пространства имён, необходимо определить отображение префикса этого пространства имен. На самом деле это обычный словарь Python.
  2. Строка 4. А вот и XPath запрос. Данное выражение выполняет поиск элементов category (пространства имён Atom), содержащие атрибут term со значением accessibility. Но это не совсем то, что возвращает запрос. Посмотрите в самый конец строки запроса. Вы заметили символы /..? Это означает, «а затем верни родительский элемент элемента category, которого ты только что нашел». Таким образом, одним XPath запросом мы найдём все элементы entry с дочерними элементами <category term='accessibility'>.
  3. Строка 6. Функция xpath() возвращает список объектов ElementTree. В данном документе всего один элемент entry с дочерним элементом category, у которого атрибут term равен значению accessibility.
  4. Строка 9. Выражение XPath не всегда возвращает список элементов. Формально, DOM разобранного документа XML не содержит элементов, она содержит узлы (node). В зависимости от типа узлы могут быть элементами, атрибутами или даже текстовым контентом. Результатом запроса XPath всегда является список узлов. Данный запрос возвращает список текстовых узлов: текстовый контент (text()) элемента title (atom:title), который является дочерним элементом текущего элемента (./).

12.7 Создание XML

Поддержка XML в Python не ограничивается только парсингом существующих документов. Вы также можете создавать XML документы «с нуля».

>>> import xml.etree.ElementTree as etree
>>> new_feed = etree.Element('{http://www.w3.org/2005/Atom}feed',     ①
...     attrib={'{http://www.w3.org/XML/1998/namespace}lang': 'en'})  ②
>>> print(etree.tostring(new_feed))                                   ③
<ns0:feed xmlns:ns0='http://www.w3.org/2005/Atom' xml:lang='en'/>
  1. Строка 2. Для создания нового элемента необходимо создать объект класса Element. В качестве первого аргумента мы передаём имя элемента (пространство имён + локальное имя). Данное выражение создаёт элемент feed в пространстве Atom. Это будет корневой элемент нашего нового XML документа.
  2. Строка 3. Чтобы добавить атрибуты к только что созданному элементу, мы передаём словарь имён атрибутов и их значений во втором аргументе attrib. Обратите внимание, что имена атрибутов должны задаваться в формате ElementTree, {пространство_имён}локальное_имя.
  3. Строка 4. В любой момент вы можете сериализовать элемент и его дочерние элементы с помощью функции tostring() библиотеки ElementTree.

Результат сериализации стал для вас неожиданностью? Формально ElementTree сериализует XML элементы правильно, но не оптимально. Пример XML документа в начале главы определял пространство имен по умолчанию (xmlns='http://www.w3.org/2005/Atom'). Определение пространства по умолчанию полезно для документов (таких как фидов Atom), в которых все элементы принадлежат одному пространству имен, поскольку вы можете объявить пространство один раз, а элементы объявлять, используя только их локальные имена (<feed>, <link>, <entry>). Если вы не собираетесь объявлять элементы из другого пространства имён, то нет необходимости использовать префиксы.

Синтаксический анализатор XML не «заметит» разницы между XML документом с пространством имен по умолчанию и документом, использующим префикс пространства имён перед каждым элементом. Итоговая модель DOM этой сериализации

<ns0:feed xmlns:ns0='http://www.w3.org/2005/Atom' xml:lang='en'/>

что идентична модели DOM этой сериализации

<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'/>

Единственная разница заключается в том, что второй вариант на несколько символов короче. Если мы переделаем весь наш пример, используя префикс ns0: в каждом открывающем и закрывающем тегах, это добавило бы 4 символа на открывающий тег × 79 тегов + 4 символа на объявление собственно пространства имён, всего 320 символов. В кодировке UTF-8 это составило бы 320 байт. (После архивации gzip разница уменьшается до 21 байта; однако, 21 байт – это всё еще 21 байт). Возможно, для вас это не имеет значения, но для чего-то, подобного фидам Atom, которые могут скачиваться несколько тысяч раз при каждом изменении, выигрыш нескольких байт на одном запросе может быстро разрастись.

Встроенная библиотека ElementTree не предоставляет тонкого управления над сериализацией элементов в пространствах имен. И тут снова в игру вступает lxml.

>>> import lxml.etree
>>> NSMAP = {None: 'http://www. w3.org/2005/Atom'}                     ①
>>> new_feed = lxml.etree.Element('feed', nsmap=NSMAP)                ②
>>> print(lxml.etree.tounicode(new_feed))                             ③
<feed xmlns='http://www.w3.org/2005/Atom'/>
>>> new_feed.set('{http://www.w3.org/XML/1998/namespace}lang', 'en')  ④
>>> print(lxml.etree.tounicode(new_feed))
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'/>
  1. Строка 2. Для начала определим пространство имён, используя словарь. Значения словаря – это пространства имен; ключи словаря – это задаваемый префикс. Используя объект None в качестве префикса, мы задаем пространство имен по умолчанию.
  2. Строка 3. Теперь, при создании элемента, мы можем передать специфичный для lxml аргумент nsmap, используемый для передачи префиксов пространств имён.
  3. Строка 4. Как и ожидалось, данная сериализация определяет пространство имён по умолчанию Atom и объявляет элемент feed без префикса пространства имён.
  4. Строка 6. Упс, мы забыли добавить атрибут xml:lang. Добавить атрибут к любому элементу всегда можно с помощью метода set(). Он принимает два аргумента: имя атрибута в стандартном формате ElementTree и значение атрибута. (Данный метод не специфичен для библиотеки lxml. Единственная особенность, специфичная для lxml, в данном примере – это аргумент nsmap для управления префиксами пространств имён в сериализованном выводе.)

Разве XML документы ограничиваются только одним элементом в документе? Конечно, нет. Мы так же легко можем создавать дочерние элементы.

>>> title = lxml.etree.SubElement(new_feed, 'title',          ①
...     attrib={'type':'html'})                               ②
>>> print(lxml. etree.tounicode(new_feed))                     ③
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'><title type='html'/></feed>
>>> title.text = 'dive into &hellip;'                         ④
>>> print(lxml.etree.tounicode(new_feed))                     ⑤
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'><title type='html'>dive into &amp;hellip;</title></feed>
>>> print(lxml.etree.tounicode(new_feed, pretty_print=True))  ⑥
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'>
<title type='html'>dive into&amp;hellip;</title>
</feed>
  1. Строка 1. Для создания дочернего элемента существующего элемента необходимо создать объект класса SubElement. Обязательные аргументы – это родительский элемент (в данном случае new_feed) и имя нового элемента. Поскольку дочерний элемент наследует пространство имён от родителя, то здесь нет необходимости заново объявлять пространство имён или префикс.
  2. Строка 2. Также вы можете передать словарь с атрибутами. Ключи – это имена атрибутов; значения словаря – это значения атрибутов.
  3. Строка 3. Как и ожидалось, новый элемент title был создан в пространстве Atom, и он является дочерним элементом элемента feed. Так как элемент title не имеет текстового контента и дочерних элементов, то lxml сериализует его как пустой элемент (с помощью сокращенной записи />).
  4. Строка 5. Чтобы добавить текстовый контент в элемент, просто задаём его свойство .text.
  5. Строка 6. Теперь элемент title сериализуется со своим текстовым контентом. Если в тексте содержатся символы «меньше чем» или амперсанды, то при сериализации они должны быть экранированы. lxml обрабатывает это экранирование автоматически.
  6. Строка 8. При сериализации вы можете применить «красивую печать» (pretty_print), при которой вставляются разрывы строки после закрывающих тегов и после открывающих тегов элементов, содержащих дочерние элементы, но не имеющих текстового контента. С технической точки зрения, lxml добавляет «незначащие пробельные символы», чтобы сделать вывод более читаемым.

Вам, возможно, будет интересно попробовать xmlwitch, ещё одну стороннюю библиотеку для создания XML. Она повсеместно использует оператор with, чтобы сделать код создания XML более читаемым.

12.8 Синтаксический анализ «сломанного» XML

Спецификация XML предписывает, что все синтаксические анализаторы XML должны выполнять «драконовскую (строгую) обработку ошибок». То есть, они должны остановиться и выкинуть исключение при обнаружении в XML документе «некорректности» любого типа. Ошибки корректности включают в себя несовпадающие открывающий и закрывающий теги, неопределённые объекты, неправильные символы Юникод и другие эзотерические ситуации. Такая обработка ошибок сильно контрастирует на фоне других известных форматов, например, HTML, – ваш браузер не останавливает отрисовку web-страницы, если вы забыли закрыть HTML тег или экранировать амперсанд в значении атрибута. (Существует распространённое заблуждение, что в HTML не оговорена обработка ошибок. На самом деле, обработка HTML ошибок отлично документирована, но она гораздо сложнее, чем просто «остановиться и выдать аварийное сообщение».)

Некоторые (и я в том числе) считают, что со стороны разработчиков формата XML было ошибкой заставлять так строго обрабатывать ошибки. Не поймите меня неправильно, я, конечно же, за упрощение правил обработки ошибок. Однако на практике понятие «корректности» оказывается коварнее, чем кажется, особенно для XML документов (таких как фиды Atom), которые публикуются в интернете и передаются по протоколу HTTP. Несмотря на зрелость XML, который стандартизовал драконовскую обработку ошибок в 1997, исследования постоянно показывают, что значительная часть фидов Atom в интернете содержат ошибки корректности.

У меня есть и теоретические, и практические причины обрабатывать XML документы «любой ценой», то есть не останавливаться и взрываться при первой ошибке. Если вы окажетесь в похожей ситуации, то lxml может вам помочь.

Ниже приведён фрагмент «битого» XML документа.

<?xml version='1.0' encoding='utf-8'?>
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'>
  <title>dive into &hellip;</title>
...
</feed>

Здесь есть ошибка, так как последовательность &hellip; не определена в формате XML (она определена в HTML). Если попробовать разобрать этот битый фид с настройками по умолчанию, lxml споткнётся на неопределённой последовательности.

>>> import lxml.etree
>>> tree = lxml.etree.parse('examples/feed-broken.xml')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "lxml.etree.pyx", line 2693, in lxml.etree.parse (src/lxml/lxml.etree.c:52591)
  File "parser.pxi", line 1478, in lxml.etree._parseDocument (src/lxml/lxml.etree.c:75665)
  File "parser.pxi", line 1507, in lxml.etree._parseDocumentFromURL (src/lxml/lxml.etree.c:75993)
  File "parser.pxi", line 1407, in lxml.etree._parseDocFromFile (src/lxml/lxml.etree.c:75002)
  File "parser.pxi", line 965, in lxml.etree._BaseParser._parseDocFromFile (src/lxml/lxml.etree.c:72023)
  File "parser.pxi", line 539, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:67830)
  File "parser.pxi", line 625, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:68877)
  File "parser.pxi", line 565, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:68125)
lxml.etree.XMLSyntaxError: Entity 'hellip' not defined, line 3, column 28

Чтобы обработать этот битый XML документ, необходимо создать новый синтаксический анализатор XML.

>>> parser = lxml. etree.XMLParser(recover=True)                  ①
>>> tree = lxml.etree.parse('examples/feed-broken.xml', parser)  ②
>>> parser.error_log                                             ③
examples/feed-broken.xml:3:28:FATAL:PARSER:ERR_UNDECLARED_ENTITY: Entity 'hellip' not defined
>>> tree.findall('{http://www.w3.org/2005/Atom}title')
[<Element {http://www.w3.org/2005/Atom}title at ead510>]
>>> title = tree.findall('{http://www.w3.org/2005/Atom}title')[0]
>>> title.text                                                   ④
'dive into '
>>> print(lxml.etree.tounicode(tree.getroot()))                  ⑤
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'>
  <title>dive into </title>
.
. [rest of serialization snipped for brevity]
.
  1. Строка 1. Чтобы создать новый парсер, инициализируем класс lxml.etree.XMLParser. Он может принимать ряд различных именованных аргументов. В данном случае нас интересует аргумент recover. При присвоении этому аргументу значения True парсер XML будет делать всё, чтобы «восстановить» документ и избавиться от ошибки построения.
  2. Строка 2. Чтобы разобрать XML документ новым анализатором, передаём в функцию parse() объект parser в качестве второго аргумента. Обратите внимание, что lxml не выбрасывает исключение при неопределённой последовательности &hellip;.
  3. Строка 3. Анализатор хранит журнал о найденных ошибках корректности (на самом деле это не зависит от включения восстановления).
  4. Строка 8. Так как анализатор не знает, что делать с неопределённым &hellip;, то он просто тихо отбрасывает его. Текстовый контент элемента title превращается в ‘dive into ‘.
  5. Строка 10. Как видно из сериализации, последовательность &hellip; была просто выброшена.

Важно отметить, что нет никакой гарантии совместимости «восстановления» у XML анализаторов. Другой анализатор может быть умнее и распознать, что &hellip; является корректной последовательностью HTML, и заменить её на &amp;hellip;. «Лучше» ли это? Возможно. Является ли это «более правильным»? Нет, так как оба решения с точки зрения формата XML неверны. Правильное поведение (согласно спецификации XML) – прекратить обработку и выдать исключение. Если же вы решили не следовать спецификации, то вы делаете это на свой страх и риск.

12.9 Материалы для дальнейшего чтения

Источник:

  • Mark Pilgrim. Dive Into Python 3

Теги

lxmlPythonXMLВысокоуровневые языки программированияПарсерПрограммированиеЯзыки программирования

Сохранить или поделиться

Импорт данных XML — Excel

Если вы ранее создали карту XML,вы можете использовать ее для импорта данных XML в ячейки, которые были совмещены, но есть несколько способов и команд импорта данных XML без карты XML.

При наличии карты XML сделайте следующее для импорта данных XML в сопоставленные ячейки:

  1. В карте XML выберите одну из сопоставленных ячеек.

  2. На вкладке Разработчик нажмите кнопку Импорт.

    Если вкладка Разработчик не отображается, см. раздел Отображение вкладки «Разработчик».

  3. В диалоговом окне Импорт XML найдите и выберите файл данных XML (XML-файл), который вы хотите импортировать, и нажмите кнопку Импорт.

Другие способы импорта данных XML

Дополнительные сведения о проблемах см. в разделе Типичные проблемы при импорте данных XML в конце этой статьи.

Импорт файла данных XML в качестве XML-таблицы

  1. На вкладке Разработчик нажмите кнопку Импорт.

    Если вкладка Разработчик не отображается, см. раздел Отображение вкладки «Разработчик».

  2. В диалоговом окне Импорт XML найдите и выберите файл данных XML (XML-файл), который вы хотите импортировать, и нажмите кнопку Импорт.

    Если файл данных XML не ссылается ни на какую схему, Excel создает ее на основе этого файла.

  3. В диалоговом окне Импорт данных выполните одно из следующих действий:

    1. Выберите XML-таблицу на существующем компьютере, чтобы импортировать содержимое файла данных XML в XML-таблицу на вашем компьютере в указанной ячейке.

    2. Выберите XML-таблицу на новом файле, чтобы импортировать содержимое файла в XML-таблицу на новом файле, начиная с ячейки A1. Карта файла данных XML отобразится в области задач Источник XML.

  4. Если файл данных XML не ссылается ни на какую схему, Excel создает ее на основе этого файла.

  5. Чтобы управлять поведением данных XML (например, привязки данных, формата и макета), нажмите кнопку «Свойства», чтобы отобразить диалоговое окно свойств карты XML. Например, существующие данные в таком диапазоне будут перезаписаны при импорте данных по умолчанию, но это можно изменить.

Импорт нескольких файлов данных XML

  1. Выберите сопоставленную ячейку, чтобы импортировать несколько XML-файлов в один набор сопоставленных ячеек.

    Если вы хотите импортировать несколько XML-файлов в несколько наборов сопоставленных ячеек, щелкните любую несопоставленную ячейку листа.

  2. На вкладке Разработчик нажмите кнопку Импорт.

    Если вкладка Разработчик не отображается, см. раздел Отображение вкладки «Разработчик».

  3. В диалоговом окне Импорт XML найдите и выберите файл данных XML (XML-файл), который вы хотите импортировать.

    • Если файлы являются смежными, нажмите клавишу SHIFT, а затем щелкните первый и последний файл в списке. Все данные из XML-файлов будут импортированы и добавлены в сопоставленные ячейки.

    • Если файлы не являются смежными, нажмите клавишу CTRL, а затем щелкните все файлы списка, которые вы хотите импортировать.

  4. Нажмите кнопку Импорт.

    Если вы выбрали файлы, которые не являются contiguous, появится диалоговое окно <>.xml импортируемых файлов. Выберите карту XML, соответствующую импортируемому файлу данных XML.

    Чтобы использовать одну карту для всех выделенных файлов, которые еще не были импортированы, установите флажок Использовать эту карту XML для всех выбранных файлов этой схемы.

Импорт нескольких файлов данных XML в качестве внешних данных

Если нужно импортировать несколько XML-файлов с одним пространством имен, но с разными схемами XML, вы можете воспользоваться командой Из импорта данных XML. Excel создаст уникальную карты XML для каждого импортируемого файла данных XML.

Примечание: При импорте нескольких XML-файлов, в которых не определено пространство имен, считается, что они используют одно пространство имен.

  1. Если вы используете Excel с подпискойMicrosoft 365, нажмите кнопку Data > Get Data > From File > From XML.

    Если вы используете Excel 2016 или более раннюю версию, на вкладке Данные нажмите кнопку Из других источников, а затем щелкните Из импорта данных XML.

  2. Выберите диск, папку или расположение в Интернете, где находится файл данных XML (XML-файл), который вы хотите импортировать.

  3. Выберите файл и нажмите кнопку Открыть.

  4. В диалоговом окне Импорт данных выберите один из следующих параметров:

    • В XML-таблицу в существующей книге.    Содержимое файла импортируется в новую таблицу XML на новом листе. Если файл данных XML не ссылается ни на какую схему, Excel создает ее на основе этого файла.

    • Существующий таблица    Данные XML импортируется в двумерную таблицу со строками и столбцами, в качестве заголовков столбцов в качестве XML-тегов показаны XML-теги, а данные — в строках под заголовками столбцов. Первый элемент (корневой узел) используется в качестве названия и отображается в указанной ячейке. Остальные теги отсортировали по алфавиту во второй строке. В этом случае схема не создается и вы не можете использовать карту XML.

    • На новый лист.    Excel добавляет в книгу новый лист и автоматически помещает данные XML в его левый верхний угол. Если файл данных XML не ссылается ни на какую схему, Excel создает ее на основе этого файла.

  5. Чтобы контролировать поведение данных XML, таких как привязка данных, форматирование и макет, нажмите кнопку «Свойства», чтобы отобразить диалоговое окно свойств карты XML. Например, при импорте данных по умолчанию существующие данные в таком диапазоне перезаписываются, но это можно изменить.

Открытие файла данных XML для импорта данных

  1. Выберите команду Файл > Открыть.

    Если вы используете Excel 2007, нажмите Microsoft Office кнопку >«Открыть».

  2. В диалоговом окне Открытие файла выберите диск, папку или веб-адрес, где расположен нужный файл.  

  3. Выберите файл и нажмите кнопку Открыть.

  4. Если открывается диалоговое окно импорта XML, файл ссылается на одну или несколько таблиц стилей XSLT, поэтому можно использовать один из следующих параметров:

    • Открытие файла без применения таблицы стилей    Данные XML импортируется в двумерную таблицу со строками и столбцами, в качестве заголовков столбцов в качестве XML-тегов показаны XML-теги, а данные — в строках под заголовками столбцов. Первый элемент (корневой узел) используется в качестве названия и отображается в указанной ячейке. Остальные теги отсортировали по алфавиту во второй строке. В этом случае схема не создается и вы не можете использовать карту XML.

    • Открыть файл, применив следующую таблицу стилей (выберите одну).    Выберите таблицу стилей, которую вы хотите применить, и нажмите кнопку ОК. Данные XML будут отформатированы в соответствии с выбранным листом стилей.

      Примечание: Данные XML будут открыты в Excel в режиме «только для чтения», что позволяет предотвратить случайное сохранение первоначального исходного файла в формате книги Excel с поддержкой макросов (XLSM). В этом случае схема не создается и вы не можете использовать карту XML.

  5. Если появится диалоговое окно «Открытие XML», в XML-файле нет ссылок на таблицу стилей XSLT. Чтобы открыть файл, выберите один из следующих параметров:

    • Щелкните XML-таблица для создания XML-таблицы в новой книге.

      Содержимое файла импортируется в XML-таблицу. Если файл данных XML не ссылается ни на какую схему, Excel создает ее на основе этого файла.

    • Щелкните «Как книгу, которая будет только для чтения».

      Данные XML импортируется в двумерную таблицу со строками и столбцами, в качестве заголовков столбцов в качестве XML-тегов показаны XML-теги, а данные — в строках под заголовками столбцов. Первый элемент (корневой узел) используется в качестве названия и отображается в указанной ячейке. Остальные теги отсортировали по алфавиту во второй строке. В этом случае схема не создается и вы не можете использовать карту XML.

      Данные XML будут открыты в Excel в режиме «только для чтения», что позволяет предотвратить случайное сохранение первоначального исходного файла в формате книги Excel с поддержкой макросов (XLSM). В этом случае схема не создается и вы не можете использовать карту XML.

    • Щелкните Использовать область задач XML-источника.

      Карта файла данных XML отобразится в области задач Источник XML. Для сопоставления элементов схемы с листом их можно перетащить на лист.

      Если файл данных XML не ссылается ни на какую схему, Excel создает ее на основе этого файла.

Распространенные проблемы при импорте данных XML

Excel выводит диалоговое окно ошибки импорта XML, если не может проверить данные в соответствии с картой XML. Чтобы получить дополнительные сведения об ошибке, нажмите кнопку Сведения в этом диалоговом окне. В следующей ниже таблице описаны ошибки, которые часто возникают при импорте данных.

Ошибка

Объяснение

Ошибка при проверке схемы

Когда вы выбрали в диалоговом окне Свойства карты XML параметр Проверять данные на соответствие схеме при импорте и экспорте, данные были импортированы, но не проверены на соответствие указанной карте XML.

Некоторые данные были импортированы как текст

Часть импортированных данных или все данные были преобразованы из объявленного типа в текст. Чтобы использовать эти данные в вычислениях, необходимо преобразовать их в числа или даты. Например, значение даты, преобразованное в текст, не будет работать должным образом в функции ГОД, пока не будет преобразовано в тип данных «Дата». Excel преобразует данные в текст в следующих случаях:

  • Данные в формате, который не поддерживается в Excel.

  • Данные несовместимы с внутренним представлением типа данных XSD в Excel. Чтобы исправить эту проблему, удостоверьтесь, что данные XML соответствуют XML-схеме, проверив каждое из определений типа данных.

Ошибка разбора XML

Средству синтаксического анализа XML не удается открыть указанный XML-файл. Убедитесь, что в XML-файле отсутствуют синтаксические ошибки и XML построен правильно.

Не удается найти карту XML, соответствующую этим данным

Эта проблема может возникнуть в том случае, если для импорта выбрано несколько файлов данных XML и Excel не удается найти соответствующую карту XML для одного из них. Импортируйте схему для файла, указанного в строке заголовка этого диалогового окна, сначала следует, а затем повторно выполните импорт файла.

Не удается изменить размер XML-таблицы для включения данных

Вы пытаетесь добавить строки путем импорта или добавления данных в XML-таблицу, однако таблицу невозможно расширить. XML-таблицу можно дополнять только снизу. Например, сразу под XML-таблицей может находиться объект, такой как рисунок или даже другая таблица, который не позволяет расширить ее. Кроме того, возможно, что при расширении XML-таблицы будет превышен установленный в Excel предел по количеству строк (1 048 576). Чтобы исправить эту проблему, измените расположение таблиц и объектов на листе, чтобы XML-таблица могла дополняться снизу.

Указанный XML-файл не ссылается на схему

XML-файл, который вы пытаетесь открыть, не ссылается на схему XML. Для работы с данными XML, содержащимися в файле, Excel требуется схема, основанная на его содержимом. Если такая схема неверна или не отвечает вашим требованиям, удалите ее из книги. Затем создайте файл схемы XML и измените файл данных XML так, чтобы он ссылался на схему. Дополнительные сведения см. в статье Сопоставление XML-элементов с ячейками карты XML.

Примечание: Схему, созданную Excel, невозможно экспортировать в качестве отдельного файла данных схемы XML (XSD-файла). Хотя существуют редакторы схем XML и другие способы создания файлов схемы XML, возможно, вы не имеете к ним доступа или не знаете, как ими пользоваться.

Выполните следующие действия, чтобы удалить из книги схему, созданную Excel:

  1. На вкладке Разработчик выберите команду Источник.

    Если вкладка Разработчик не отображается, см. раздел Отображение вкладки «Разработчик».

  2. В области задач Источник XML выберите пункт Карты XML.

  3. В диалоговом окне Карты XML щелкните карту XML, созданную Excel ,и нажмите кнопку Удалить.

Возникают проблемы при импорте нескольких XML-файлов, которые используют одно пространство имен, но разные схемы

При работе с несколькими файлами данных XML и несколькими схемами XML стандартным подходом является создание карты XML для каждой схемы, сопоставление нужных элементов, а затем импорт каждого из файлов данных XML в соответствующую карту XML. При использовании команды Импорт для открытия нескольких XML-файлов с одним пространством имен можно использовать только одну схему XML. Если эта команда используется для импорта нескольких XML-файлов, использующих одно пространство имен при разных схемах, можно получить непредсказуемые результаты. Например, это может привести к тому, что данные будут перезаписаны или файлы перестанут открываться.

Если нужно импортировать несколько XML-файлов с одним пространством имен, но с разными схемами XML, вы можете воспользоваться командой Из импорта данных XML (выберите Данные > Из других источников). Эта команда позволяет импортировать несколько XML-файлов с одним пространством имен и разными схемами XML. Excel создаст уникальную карты XML для каждого импортируемого файла данных XML.

Примечание: При импорте нескольких XML-файлов, в которых не определено пространство имен, считается, что они используют одно пространство имен.

Отображение вкладки «Разработчик»

Если вкладка Разработчик недоступна, выполните следующие действия, чтобы открыть ее.

См. также

Просмотр XML в Excel

Сопоставление XML-элементов с ячейками карты XML

Экспорт данных XML

Записать, прочитать XML файл из DomDocument

В 1С можно распарсить XML файл с помощью COM объекта «Msxml2.DOMDocument». В зависимости от установленного программного обеспечения, доступны различные версии «Дом документа». Подробно, свойства и методы различных версий DOMDocument описаны в MSDN.

Версии DomDocument
Msxml2.DOMDocument.3.0
Msxml2.DOMDocument.4.0
Msxml2.DOMDocument.5.0
Msxml2.DOMDocument.6.0

Для того чтобы создать или парсить xml, существуют примеры написанные с использованием встроенных объектов (ЗаписьXML, ЧтениеXML) языка программирования 1С. При сложной структуре xml, объём программного кода в таких примерах может быть очень большим. При использовании «Msxml2.DOMDocument» программный код можно сделать более компактным и получить более гибкий механизм обращения к узлам XML документа.

Технология DOMDocument предоставляет удобные методы для работы с данными в виде XML. В данном объекте, структура данных представлена в виде дерева узлов. Все узлы, являются подчиненными к корневому. Благодаря DOMDocument можно перебирать, создавать, удалять, копировать узлы и выполнять многие другие действия.

Создать, записать XML файл

Функция СоздатьXML()

Попытка
DomDocument = Новый COMОбъект("MSXML2.DOMDocument.6.0");
Исключение
Сообщить("Ошибка: объект MSXML2.DOMDocument не создан");
Возврат Ложь;
КонецПопытки;

//Записать объявление XML
XML = DomDocument.createProcessingInstruction("xml", "version=""1.0"" encoding=""UTF-8""");
DomDocument.insertBefore(XML,);

//Создать корневой узел
ElementRootTag = DomDocument.createElement("RootTag");

//Создать подчиненный узел
ElementTag = DomDocument.createElement("Tag");
ElementTag.setAttribute("ИмяАтрибута","ЗначениеАтрибута");
ElementText = DomDocument.createTextNode("Текст");
ElementTag.appendChild(ElementText);
CDATA = DomDocument.createCDATASection("Значение");
ElementTag.appendChild(CDATA);

//Записать узлы
ElementRootTag.appendChild(ElementTag);
DomDocument.appendChild(ElementRootTag);

//Записать файл
DomDocument.Save("C:\Test.xml");

//Сформированный XML текст
XMLТекст = DomDocument.xml;

КонецФункции

Прочитать XML файл

Функция СчитатьXML()

Попытка
DomDocument = Новый COMОбъект("MSXML2.DOMDocument.6.0");
Исключение
Сообщить("Ошибка: объект MSXML2.DOMDocument не создан");
Возврат Ложь;
КонецПопытки;

//Загрузить XML из строки
DomDocument.loadXML("<?xml version=""1.0"" encoding=""UTF-8""?>
|<RootTag>
|<Tag Имя=""Значение"">Текст[CDATA[Значение]]</Tag>
|</RootTag>");

//Загрузить файл XML
DomDocument.load("C:\Test.xml");

Если DomDocument.parseError.errorCode <> 0 Тогда
Сообщить("Ошибка: XML файл не валидный");
Возврат Ложь;
КонецЕсли;

//Выбрать узлы
Nodes = DomDocument.SelectNodes("Tag");

Для Индекс = 0 По Nodes.Length - 1 Цикл
ЗначениеАтрибута = Nodes.Item(Индекс).getAttribute("ИмяАтрибута");
Tag = Nodes.Item(Индекс);
КонецЦикла;

КонецФункции

Похожие статьи:
ЗаписьXML, ЧтениеXML в 1С:Предприятии
Запись, чтение XML из ДокументDOM

XML — Погружение в Python 3

Погружение

Большинство глав в этой книге строятся на отрывках, примерах кода. Но xml это больше данные, нежели код. Один из способов применения xml это «синдикация контента» такого, как последние статьи с блога, форума или других часто обновляемых сайтов. Большинство популярного ПО для ведения блогов может создавать ленты (фиды) и обновлять их, когда новые статьи, темы публикуются. Вы можете следить за блогом подписавшись на его канал, также вы можете следить за несколькими блогами при помощи «программ-агрегаторов» таких, как Google Reader [1]

Итак, ниже представлены XML данные с которыми мы будем работать в этой главе. Это фид формата Atom syndication feed

<?xml version='1.0' encoding='utf-8'?>
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'>
  <title>dive into mark</title>
  <subtitle>currently between addictions</subtitle>
  <id>tag:diveintomark.org,2001-07-29:/</id>
  <updated>2009-03-27T21:56:07Z</updated>
  <link rel='alternate' type='text/html' href='http://diveintomark.org/'/>
  <link rel='self' type='application/atom+xml' href='http://diveintomark.org/feed/'/>
  <entry>
    <author>
      <name>Mark</name>
      <uri>http://diveintomark.org/</uri>
    </author>
    <title>Dive into history, 2009 edition</title>
    <link rel='alternate' type='text/html'
      href='http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edition'/>
    <id>tag:diveintomark.org,2009-03-27:/archives/20090327172042</id>
    <updated>2009-03-27T21:56:07Z</updated>
    <published>2009-03-27T17:20:42Z</published>
    <category scheme='http://diveintomark.org' term='diveintopython'/>
    <category scheme='http://diveintomark.org' term='docbook'/>
    <category scheme='http://diveintomark.org' term='html'/>
  <summary type='html'>Putting an entire chapter on one page sounds
    bloated, but consider this &amp;mdash; my longest chapter so far
    would be 75 printed pages, and it loads in under 5 seconds&amp;hellip;
    On dialup.</summary>
  </entry>
  <entry>
    <author>
      <name>Mark</name>
      <uri>http://diveintomark.org/</uri>
    </author>
    <title>Accessibility is a harsh mistress</title>
    <link rel='alternate' type='text/html'
      href='http://diveintomark.org/archives/2009/03/21/accessibility-is-a-harsh-mistress'/>
    <id>tag:diveintomark.org,2009-03-21:/archives/20090321200928</id>
    <updated>2009-03-22T01:05:37Z</updated>
    <published>2009-03-21T20:09:28Z</published>
    <category scheme='http://diveintomark.org' term='accessibility'/>
    <summary type='html'>The accessibility orthodoxy does not permit people to
      question the value of features that are rarely useful and rarely used.</summary>
  </entry>
  <entry>
    <author>
      <name>Mark</name>
    </author>
    <title>A gentle introduction to video encoding, part 1: container formats</title>
    <link rel='alternate' type='text/html'
      href='http://diveintomark.org/archives/2008/12/18/give-part-1-container-formats'/>
    <id>tag:diveintomark.org,2008-12-18:/archives/20081218155422</id>
    <updated>2009-01-11T19:39:22Z</updated>
    <published>2008-12-18T15:54:22Z</published>
    <category scheme='http://diveintomark.org' term='asf'/>
    <category scheme='http://diveintomark.org' term='avi'/>
    <category scheme='http://diveintomark.org' term='encoding'/>
    <category scheme='http://diveintomark.org' term='flv'/>
    <category scheme='http://diveintomark.org' term='GIVE'/>
    <category scheme='http://diveintomark.org' term='mp4'/>
    <category scheme='http://diveintomark.org' term='ogg'/>
    <category scheme='http://diveintomark.org' term='video'/>
    <summary type='html'>These notes will eventually become part of a
      tech talk on video encoding.</summary>
  </entry>
</feed>

5-минутное введение в XML

Если Вы уже знакомы с XML, то можете пропустить эту главу.

XML — это язык разметки для описания иерархии структурированных данных. XML документ содержит один или более элементов разделённых открывающими и закрывающими тегами. Это правильный, хотя и неинтересный, XML документ:

① Это открывающий (начальный) тег элемента foo.

② Это соответствующий закрывающий (конечный) тег элемента foo. Как в математике и языках программирования каждая открывающая скобка должна иметь соответствующую закрывающую, в XML каждый открывающий тег должен быть закрыт соответствующим закрывающим.

Элементы могут быть неограниченно вложены друг в друга. Так как элемент bar вложен в элемент foo, то его называют подэлементом или дочерним элементом элемента foo.

Первый элемент каждого XML документа называется корневым. XML документ может содержать только один корневой элемент. Пример представленный ниже не является XML документом, так как он имеет два корневых элемента:

Элементы могут иметь атрибуты состоящие из пары имя-значение. Атрибуты перечисляются внутри открывающего тега элемента и разделяются пробелами. Имена атрибутов не могут повторяться внутри одно элемента. Значения атрибутов должны быть обрамлены одинарными или двойными кавычками.

<foo lang='en'>                          ①
  <bar lang="fr"></bar>  ②
</foo>

① Элемент foo имеет один атрибут именованный как lang. Значению атрибута lang присваивается строка en.

② Элемент bar имеет два атрибута: id и lang. Значение lang есть fr. Это не приводит к конфликту с атрибутом lang элемента foo, так как каждый элемент имеет свой набор атрибутов.

Если элемент имеет больше чем один атрибут, то порядок атрибутов не играет роли. Атрибуты элементов есть неупорядоченный набор ключей и значений подобно словарям в Python. Для каждого элемента можно указать неограниченное число атрибутов.

Элементы могут иметь текст (текстовое содержание).

<foo lang='en'>
  <bar lang='fr'>PapayaWhip</bar>
</foo>

Элементы которые не содержат текста и дочерних элементов называются пустыми.

Существует сокращённая запись пустого элемента. Поместив знак дроби / в конце открывающего тега, вы можете пропустить закрывающий тег. XML документ предыдущего примера с пустым элементов может быть записан следующим образом:

Подобно тому как функции Python могут быть объявлены в разных модулях, XML элементы могут быть объявлены в разных пространствах имён (namespaces). Пространства имён обычно выглядят как URL-пути. Для объявления пространства имён по умолчанию используется директива xmlns. Объявление пространства имён очень похоже на атрибут, но имеет специальное значение.

<feed xmlns='http://www.w3.org/2005/Atom'>  ①
  <title>dive into mark</title>             ②
</feed>

① Элемент feed находится в пространстве имён http://www.w3.org/2005/Atom.

② Элемент title также находится в пространстве имён http://www.w3.org/2005/Atom. Пространство имён применяется как к элементу в котором оно было определено так и ко всем дочерним элементам.

Вы можете объявлять пространство имён xmlns:prefix и ставить ему в соответствие префикс prefix. Тогда каждый элемент в данном пространстве имён должен быть явно объявлен с указанием префикса prefix.

<atom:feed xmlns:atom='http://www.w3.org/2005/Atom'>  ①
  <atom:title>dive into mark</atom:title>             ②
</atom:feed>

① Элемент feed находится в пространстве имён http://www.w3.org/2005/Atom.

② Элемент title также находится в пространстве имён http://www.w3.org/2005/Atom.

С точки зрения синтаксического анализатора XML, предыдущие два XML документа идентичны. Пара «пространство имён» + «имя элемента» задают XML идентичность. Префиксы используются только для ссылки на пространство имён, но не изменяют имени атрибута. Если пространства имён совпадают, имена элементов совпадают, атрибуты (или их отсутствие) совпадают и тексты элементов совпадают, то XML документы одинаковы.

И, наконец, XML документы могут содержать информацию о кодировке символов в первой строке до корневого элемента. (Если Вам интересно как документ может содержать информацию которая должна быть известна XML-анализатору до анализа XML документа, то смотрите Catch-22 раздел F XML спецификации)

<?xml version='1.0' encoding='utf-8'?>

Теперь Вы знаете об XML достаточно чтобы «вынести» следующие разделы главы!

Структура формата синдикации фида Atom

Рассмотрим блог (weblog) или любой сайт с часто обновляемым контентом, например CNN.com. Сайт содержит заголовок («CNN.com»), подзаголовок («Breaking News, U.S., World, Weather, Entertainment & Video News»), дату последнего изменения («обновлено 12:43 p.m. EDT, Sat May 16, 2009») и список статей опубликованных в разное время. Каждая статья в свою очередь также имеет заголовок, дату первой публикации (и, возможно, дату последнего обновления, в случае если статья была корректирована) и уникальный URL.

Формат синдикации Atom разработан с целью хранить информацию подобного рода стандартным образом. Мой блог и CNN.com абсолютно разные по дизайну, содержанию и посетителям сайты, но оба имеют сходную структуру. Оба сайта имеют заголовки и публикуют статьи.

На верхнем уровне фид Atom должен иметь корневой элемент по имени feed находящийся в пространстве имен http://www.w3.org/2005/Atom.

<feed xmlns='http://www.w3.org/2005/Atom'  ①
      xml:lang='en'>                       ②

① http://www.w3.org/2005/Atom — пространство имён Atom

② Каждый элемент может содержать атрибут xml:lang который определяет язык элемента и его дочерних элементов. В данном случае атрибут xml:lang объявленный в корневом элементе задаёт английский язык для всего фида.

Фид Atom содержит дополнительную информацию о себе в дочерних элементах корневого элемента:

<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'>
  <title>dive into mark</title>                                             ①
  <subtitle>currently between addictions</subtitle>                         ②
  <id>tag:diveintomark.org,2001-07-29:/</id>                                ③
  <updated>2009-03-27T21:56:07Z</updated>                                   ④
  <link rel='alternate' type='text/html' href='http://diveintomark.org/'/>  ⑤

① Заголовок title содержит текст ‘dive into mark’.

② Подзаголовок subtitle фида есть строка ‘currently between addictions’.

③ Каждый фид должен иметь глобальный уникальный идентификатор. RFC 4151 содержит информацию как создавать такие идентификаторы.

④ Данный фид был обновлён последний раз 27 марта 2009 в 21:56 GMT. Обычно элемент updated эквивалентен дате последнего изменения какой-либо из статей на сайте.

⑤ А вот здесь начинается самое интересное. Элемент ссылки link не имеет текстового содержания, но имеет три атрибута: rel, type и href. Значение атрибута rel говорит о том какого типа ссылка. rel=’alternate’ значит, что это альтернативная ссылка этого фида. Атрибут type=’text/html’ говорит, что это ссылка на HTML страницу. И, собственно, путь ссылки содержится в атрибуте href.

Теперь мы знаем, что представленный выше фид получен с сайта «dive into mark». Сайт доступен по адресу http://diveintomark.org/ и последний раз был обновлён 27 марта 2009.

Хотя в некоторых XML документах порядок элементов может иметь значение, в фидах Atom порядок элементов — произвольный.

Продолжим дальше рассматривать строение фида: после метаинформации о фиде идёт список последних статей. Статья выглядит следующим образом:

<entry>
  <author>                                                                 ①
    <name>Mark</name>
    <uri>http://diveintomark.org/</uri>
  </author>
  <title>Dive into history, 2009 edition</title>                           ②
  <link rel='alternate' type='text/html'                                   ③
    href='http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edition'/>
  <id>tag:diveintomark.org,2009-03-27:/archives/20090327172042</id>        ④
  <updated>2009-03-27T21:56:07Z</updated>                                  ⑤
  <published>2009-03-27T17:20:42Z</published>
  <category scheme='http://diveintomark.org' term='diveintopython'/>       ⑥
  <category scheme='http://diveintomark.org' term='docbook'/>
  <category scheme='http://diveintomark.org' term='html'/>
  <summary type='html'>Putting an entire chapter on one page sounds        ⑦
    bloated, but consider this &amp;mdash; my longest chapter so far
    would be 75 printed pages, and it loads in under 5 seconds&amp;hellip;
    On dialup.</summary>
</entry>                                                                   ⑧

① Элемент author сообщает о том, кто написал статью: некоторый парень по имени Марк (Mark), который валяет дурака на сайте http://diveintomark.org/ (В данном случае ссылка на сайт автора совпадает с альтернативной ссылкой в метаинформации о фиде, но это не всегда правда, так как многие блоги имеют несколько авторов, у каждого из которых — свой сайт.)

② Элемент title содержит заголовок статьи «Dive into history, 2009 edition».

③ Как и с альтернативной ссылкой на фид, в элементе link находится адрес HTML версии данной статьи.

④ Элемент entry, подобно фидам, имеет уникальный идентификатор.

⑤ Элемент entry имеет две даты: дату первой публикации и дату последнего изменения.

⑥ Элементы entry могут иметь произвольное количество категорий category. Рассматриваемая статья попадёт в категории diveintopython, docbook и html.

⑦ Элемент summary даёт краткий обзор статьи. (Бывает также не представленный здесь элемент содержания content предназначенный для включения в фид полного текста статьи.) Данный элемент summary содержит специфичный для фидов Atom атрибут type=’html’ указывающий что содержимое элемента есть текст в формате HTML. Это важно, так как HTML-объекты &mdash; и &hellip; присутствующие в элементе должны отображаться как «—» и «…», а не печататься «как есть».

⑧ И, наконец, закрывающий тег элемента entry говорит о конце метаданных для этой статьи.

Синтаксический разбор XML

В Python документы XML могут быть обработаны c использованием разных библиотек. Язык имеет обычные синтаксические анализаторы DOM и SAX, но я буду использовать другую библиотеку ElementTree.

>>> import xml.etree.ElementTree as etree    ①
>>> tree = etree.parse('examples/feed.xml')  ②
>>> root = tree.getroot()                    ③
>>> root                                     ④
<Element {http://www.w3.org/2005/Atom}feed at cd1eb0>

① Модуль ElementTree входит в стандартную библиотеку Python, путь для импорта xml.etree.ElementTree.

② Функция parse() — это базовая функция модуля ElementTree. Функция принимает имя файла или файлоподобный объект. Эта функция выполняет синтаксическй анализ документа за раз. Если разрабатываемая программа должна экономить память, то можно анализировать XML документ частями.

③ Функция parse() возращает объект, который является представлением всего документа. Однако объект tree не является корневым элементом. Чтобы получить ссылку на корневой элемент, необходимо вызвать метод getroot().

④ Как и следовало ожидать, корневой элемент есть элемент фида в пространстве имён http://www.w3.org/2005/Atom. Строковое представление объекта root ещё раз подчёркивает важный момент: XML элемент — это комбинация пространства имён и его имени-тега (так же называемого локальным именем). Каждый элемент в данном документе находится в пространстве Atom, поэтому корневой элемент представлен как {http://www.w3.org/2005/Atom}feed.

Модуль ElementTree всегда представляет элементы XML как ‘{пространство имён}локальное имя’. Вам неоднократно предстоит использовать этот формат при использовании API ElementTree.

Элементы XML есть списки Python

В API ElementTree элементы представляются встроенным типом Python — списком. Каждый из элементов списка представляет собой дочерние XML элементы.

# продолжение предыдущего примера
>>> root.tag                        ①
'{http://www.w3.org/2005/Atom}feed'
>>> len(root)                       ②
8
>>> for child in root:              ③
...   print(child)                  ④
...
<Element {http://www.w3.org/2005/Atom}title at e2b5d0>
<Element {http://www.w3.org/2005/Atom}subtitle at e2b4e0>
<Element {http://www.w3.org/2005/Atom}id at e2b6c0>
<Element {http://www.w3.org/2005/Atom}updated at e2b6f0>
<Element {http://www.w3.org/2005/Atom}link at e2b4b0>
<Element {http://www.w3.org/2005/Atom}entry at e2b720>
<Element {http://www.w3.org/2005/Atom}entry at e2b510>
<Element {http://www.w3.org/2005/Atom}entry at e2b750>

① Продолжим предыдущий пример: корневой элемент root — {http://www.w3.org/2005/Atom}feed

② «Длина» корневого элемента есть количество дочерних элементов root.

③ Вы можете использовать элемент как итератор по всем дочерним элементам.

④ Из сообщений видно, что в элементе root 8 дочерних элементов: 5 элементов с метаинформацией о фиде (title, subtitle, id, updated и link) и 3 элемента со статьями entry.

Вы, должно быть, уже догадались, но я хочу явно указать на следующее: список дочерних элементов содержит только прямые дочерние элементы. В свою очередь каждый дочерний элемент entry может содержать свои дочерние элементы, но они не будут включены в список. Они будут включены в список элемента entry, а не в список подэлементов элемента feed. Найти определённые элементы любого уровня вложенности можно несколькими способами; ниже мы рассмотрим 2 из них.

Атрибуты XML есть словари Python

Напомним, что документ XML это не только набор элементов; каждый элемент так же имеет набор атрибутов. Имея конкретный XML элемент, Вы можете легко получить его атрибуты как словарь Python.

# продолжение предыдущего примера
>>> root.attrib                           ①
{'{http://www.w3.org/XML/1998/namespace}lang': 'en'}
>>> root[4]                               ②
<Element {http://www.w3.org/2005/Atom}link at e181b0>
>>> root[4].attrib                        ③
{'href': 'http://diveintomark.org/',
 'type': 'text/html',
 'rel': 'alternate'}
>>> root[3]                               ④
<Element {http://www.w3.org/2005/Atom}updated at e2b4e0>
>>> root[3].attrib                        ⑤
{}

① Свойство attrib возращает словарь атрибутов элемента. Исходная разметка XML была следующая <feed xmlns=’http://www.w3.org/2005/Atom’ xml:lang=’en’>. Префикс xml: ссылается на стандартное пространство имён, которое любой XML документ может использовать без объявления.

② Пятый подэлемент есть элемент link (используется индекс [4], так как списки Python индексируются начиная с 0).

③ Подэлемент link имеет три атрибута href, type и rel.

④ Четвёртый подэлемент (с индексом [3] в списке начинающемся с 0) — это элемент updated.

⑤ Подэлемент updated не имеет атрибутов, следовательно свойство .attrib возращает пустой словарь.

Поиск узлов в XML документе

До настоящего момента мы рассматривали XML документ «сверху вниз», начиная с корневого элемента, далее к его дочерним элементы и так вглубь всего документа. Однако во многих случаях при работе с XML Вам необходимо искать конкретные элементы. Etree справится и с этой задачей.

>>> import xml.etree.ElementTree as etree
>>> tree = etree.parse('examples/feed.xml')
>>> root = tree.getroot()
>>> root.findall('{http://www.w3.org/2005/Atom}entry')    ①
[<Element {http://www.w3.org/2005/Atom}entry at e2b4e0>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b510>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b540>]
>>> root.tag
'{http://www.w3.org/2005/Atom}feed'
>>> root.findall('{http://www.w3.org/2005/Atom}feed')     ②
[]
>>> root.findall('{http://www.w3.org/2005/Atom}author')   ③
[]

① Метод findall() выполняет поиск дочерних элементов удовлетворяющих запросу. (Формат запроса рассматривается ниже.)

② Все элементы (включая корневой и дочерние) имеют метод findall(). Метод находит все элементы среди дочерних соответствующие запросу. Почему же метод вернул пустой список? Хотя это может показаться неочевидным, данный запрос ищет только в дочерних элементах. Так как корневой элемент feed не имеет дочерних элементов по имени feed, то запрос возвращает пустой список.

③ Этот результат также может Вас удивить. В документе XML действительно есть элемент author; на самом деле, их даже три (по одному в каждом элементе entry). Но эти элементы author не являются прямыми подэлементами (direct children) корневого элемента; они — «подподэлементы» (подэлементы подэлемента). Если Вам нужно найти элементы author любого уровня вложенности, то придётся изменить строку запроса.

>>> tree.findall('{http://www.w3.org/2005/Atom}entry')    ①
[<Element {http://www.w3.org/2005/Atom}entry at e2b4e0>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b510>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b540>]
>>> tree.findall('{http://www.w3.org/2005/Atom}author')   ②
[]

① Для удобства объект tree (который возвращает функция etree.parse()) имеет несколько методов идентичных методам корневого элемента. Результаты функции такие же как при вызове метода tree.getroot().findall().

② Наверное, удивлены, однако этот запрос не находит элемента author в данном документе. Почему же? Потому что, этот вызов идентичен вызову tree.getroot().findall(‘{http://www.w3.org/2005/Atom}author’), что значит «найти все элементы author, которые являются подэлементами корневого элемента». Элементы author не являются дочерними для корневого элемента; они подэлементы элементов entry. Таким образом, при выполнении запроса совпадений не найдено.

Помимо метода findall() есть метод find() который возвращает только первый найденный элемент. Метод может быть полезен в случаях когда в результате поиска Вы ожидаете только один элемент или Вам важен только первый элемент из списка найденных.

>>> entries = tree.findall('{http://www.w3.org/2005/Atom}entry')           ①
>>> len(entries)
3
>>> title_element = entries[0].find('{http://www.w3.org/2005/Atom}title')  ②
>>> title_element.text
'Dive into history, 2009 edition'
>>> foo_element = entries[0].find('{http://www.w3.org/2005/Atom}foo')      ③
>>> foo_element
>>> type(foo_element)
<class 'NoneType'>

① Как Вы видели в предыдущем примере findall() возвращает список элементов atom:entry.

② Метод find() принимает запрос ElementTree и возвращает первый удовлетворяющий запросу элемент.

③ Во элементе foo отсутствуют дочерние элементы, поэтому find() возвращает объект None.

Здесь необходимо отметить закавыку при использовании метода find(). В логическом контексте объекты элементов ElementTree не содержащие дочерних элементов равны значению False (т.е if len(element) вычисляется как 0). Код if element.find(‘…’) проверяет не то, что нашёл ли метод find() удовлетворяющий запросу элемент; код проверяет содержит ли найденный элемент дочерние элементы! Для того чтобы проверить нашёл ли метод find() элемент необходимо использовать if element.find(‘…’) is not None.

Рассмотрим поиск внутри дочерних элементов, т.е подэлементов, подподэлементов и так далее любого уровня вложенности.

>>> all_links = tree.findall('//{http://www.w3.org/2005/Atom}link')  ①
>>> all_links
[<Element {http://www.w3.org/2005/Atom}link at e181b0>,
 <Element {http://www.w3.org/2005/Atom}link at e2b570>,
 <Element {http://www.w3.org/2005/Atom}link at e2b480>,
 <Element {http://www.w3.org/2005/Atom}link at e2b5a0>]
>>> all_links[0].attrib                                              ②
{'href': 'http://diveintomark.org/',
 'type': 'text/html',
 'rel': 'alternate'}
>>> all_links[1].attrib                                              ③
{'href': 'http://diveintomark.org/archives/2009/03/27/dive-into-history-2009-edition',
 'type': 'text/html',
 'rel': 'alternate'}
>>> all_links[2].attrib
{'href': 'http://diveintomark.org/archives/2009/03/21/accessibility-is-a-harsh-mistress',
 'type': 'text/html',
 'rel': 'alternate'}
>>> all_links[3].attrib
{'href': 'http://diveintomark.org/archives/2008/12/18/give-part-1-container-formats',
 'type': 'text/html',
 'rel': 'alternate'}

① Этот запрос — //{http://www.w3.org/2005/Atom}link — очень похож на запросы из предыдущих примеров. Отличие заключается в двух символах косой черты // в начале строки запроса. Символы // обозначают «Я хочу найти все элементы независимо от уровня вложенности, а не только непосредственные дочерние элементы». Поэтому метод возвращает список из четырёх элементов, а не из одного.

② Первый элемент результата — прямой подэлемент корневого элемента. Как мы видим из его атрибутов, это альтернативная ссылка уровня фида, которая указывает на html версию вебсайта на котором располагается фид.

③ Остальные три элемента результата есть альтернативные ссылки уровня элементов entry. Каждый из элементов entry имеет по одному подэлементу link. Так как запрос findall() содержал символы двойной черты в начале запроса, то результат поиска содержит все подэлементы link.

В целом, метод findall() библиотеки ElementTree довольно мощный инструмент поиска, однако формат запроса может быть немного непредсказуем. Официально формат запросов ElementTree описан как «ограниченная поддержка выражений XPath». XPath это стандарт организации W3C для построения запросов поиска внутри XML документа. С одной стороны формат запросов ElementTree достаточно похож на формат XPath для выполнения простейших поисков. С другой стороны он отличается настолько, что может начать раздражать если Вы уже знаете XPath. Далее мы рассмотрим сторонние библиотеки XML позволяющие расширить API ElementTree до полной поддержки стандарта XPath.

Работаем с LXML

lxml это сторонняя библиотека с открытым кодом основанная на известном синтаксическом анализаторе libxml2. Библиотека обеспечивает стопроцентную совместимость с API ElementTree, полностью поддерживает XPath 1.0 и имеет несколько других приятных фишек. Для Windows можно скачать инсталлятор; пользователям Linux следует проверить наличие скомпилированных пакетов в репозиториях дистрибутива (например, используя инструменты yum или apt-get). В противном случае придётся устанавливать lxml вручную.

>>> from lxml import etree                   ①
>>> tree = etree.parse('examples/feed.xml')  ②
>>> root = tree.getroot()                    ③
>>> root.findall('{http://www.w3.org/2005/Atom}entry')  ④
[<Element {http://www.w3.org/2005/Atom}entry at e2b4e0>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b510>,
 <Element {http://www.w3.org/2005/Atom}entry at e2b540>]

① При импорте lxml предоставляет абсолютно такой же API как встроенная библиотека ElementTree.

② Функция parse(): такая же как в ElementTree.

③ Метод getroot(): такой же.

④ Метод findall(): точно такой же.

При обработке больших XML документов lxml значительно быстрее чем встроенная библиотека ElementTree. Если Вы используете функции только из API ElementTree и хотите чтобы обработка выполнялась как можно быстрее, то можно попробовать импортировать библиотеку lxml и, в случае её отсутствия, использовать ElementTree.

try:
    from lxml import etree
except ImportError:
    import xml.etree.ElementTree as etree

Однако, lxml не только быстрее чем ElementTree: метод findall() поддерживает более сложные запросы.

>>> import lxml.etree                                                                   ①
>>> tree = lxml.etree.parse('examples/feed.xml')
>>> tree.findall('//{http://www.w3.org/2005/Atom}*[@href]')                             ②
[<Element {http://www.w3.org/2005/Atom}link at eeb8a0>,
 <Element {http://www.w3.org/2005/Atom}link at eeb990>,
 <Element {http://www.w3.org/2005/Atom}link at eeb960>,
 <Element {http://www.w3.org/2005/Atom}link at eeb9c0>]
>>> tree.findall("//{http://www.w3.org/2005/Atom}*[@href='http://diveintomark.org/']")  ③
[<Element {http://www.w3.org/2005/Atom}link at eeb930>]
>>> NS = '{http://www.w3.org/2005/Atom}'
>>> tree.findall('//{NS}author[{NS}uri]'.format(NS=NS))                                 ④
[<Element {http://www.w3.org/2005/Atom}author at eeba80>,
 <Element {http://www.w3.org/2005/Atom}author at eebba0>]

① В этом примере я импортирую объект lxml.etree (вместо объекта etree: from lxml import etree) чтобы подчеркнуть, что описываемые возможности реализуемы только с lxml.

② Этот запрос найдёт все элементы в пространстве имён Atom (любой вложенности), которые имеют атрибут href. Символы // в начале запроса обозначают «элементы любой вложенности, а не только потомки корневого элемента». {http://www.w3.org/2005/Atom} обозначает «только элементы пространства имён Atom». Символ * значит «элементы с любым локальным именем». И [@href] обозначает «элемент имеет атрибут href».

③ В результате запроса найдены все элементы Atom с атрибутом href равным http://diveintomark.org/.

④ После преобразования строки (иначе эти запросы становятся неимоверно длинны) данный запрос ищет элементы Atom author имеющие подэлементы Atom uri. Запрос возвращает только 2 элемента author: в первом и во втором элементах entry. В последнем элементе entry элемент author содержит только имя name, но не uri.

Вам мало? lxml имеет встроенную поддержку для выражений XPath 1.0. Мы не будем детально рассматривать синтаксис XPath, так как это тема для отдельной книги. Однако мы рассмотрим пример использования XPath в lxml.

>>> import lxml.etree
>>> tree = lxml.etree.parse('examples/feed.xml')
>>> NSMAP = {'atom': 'http://www.w3.org/2005/Atom'}                    ①
>>> entries = tree.xpath("//atom:category[@term='accessibility']/..",  ②
...     namespaces=NSMAP)
>>> entries                                                            ③
[<Element {http://www.w3.org/2005/Atom}entry at e2b630>]
>>> entry = entries[0]
>>> entry.xpath('./atom:title/text()', namespaces=NSMAP)               ④
['Accessibility is a harsh mistress']

① Чтобы выполнить XPath запрос элементов из пространства имён, необходимо определить отображение префикса этого пространства. На самом деле это обычный словарь Python.

② А вот и XPath запрос. Данное выражение выполняет поиск элементов category (пространства имён Atom) содержащие атрибут с парой имя-значение term=’accessibility’. Но это не совсем то, что возвращает запрос. Вы заметили символы /.. в конце строки запроса? Это обозначает «верни не найденный элемент, а его родителя». И так, одним запросом мы найдём все элементы entry с дочерними элементами <category term=’accessibility’>.

③ Функция xpath() возвращает список объектов ElementTree. В анализируемом документе всего один элемент entry с атрибутом term=’accessibility’.

④ Выражение XPath не всегда возвращает список элементов. Формально, DOM разобранного документа XML не содержит элементов, она содержит узлы (nodes). В зависимости от их типа узлы могут быть элементами, атрибутами или даже текстом. Результатом запроса XPath всегда является список узлов. Этот запрос возвращает список текстовых узлов: текст text() элемента title (atom:title) есть подэлемент текущего элемента (./).

Создание XML

ElementTree умеет не только разбирать существующие XML документы, но и создавать их «с нуля».

>>> import xml.etree.ElementTree as etree
>>> new_feed = etree.Element('{http://www.w3.org/2005/Atom}feed',     ①
...     attrib={'{http://www.w3.org/XML/1998/namespace}lang': 'en'})  ②
>>> print(etree.tostring(new_feed))                                   ③
<ns0:feed xmlns:ns0='http://www.w3.org/2005/Atom' xml:lang='en'/>

① Для создания нового элемента необходимо создать объект класса Element. В качестве первого параметра в конструктор мы передаём имя элемента (пространство имён и локальное имя). Данное выражение создаёт элемент feed в пространстве Atom. Этот будет корневой элемент нашего нового документа XML.

② Для того чтобы добавить атрибуты к создаваемому элементу мы передаём словарь имён атрибутов и их значений в втором аргументе attrib. Заметьте, что имена атрибутов должны задаваться в формате ElementTree {пространство_имён}локальное_имя.

③ В любой момент Вы можете сериализовать элемент и его подэлементы используя функцию tostring() библиотеки ElementTree.

Вы удивлены результату сериализации new_feed? Формально ElementTree сериализует XML элементы правильно, но не оптимально. Пример XML документа в начале главы определён в пространстве по умолчанию xmlns=’http://www.w3.org/2005/Atom’. Определение пространства по умолчанию полезно для документов (например, фидов Atom), где все элементы принадлежат одному пространству, то есть Вы можете объявить пространство один раз, а на элементы ссылаться используя локальное имя (<feed>, <link>, <entry>). Если Вы не собираетесь объявлять элементы из другого пространства имён, то нет необходимости использовать префикс пространства по умолчанию.

Синтаксический анализатор XML не «заметит» разницы между документом XML с пространством по умолчанию и документом с использованием префикса пространства имён перед каждым элементом. Результирующая модель DOM данной сериализации выглядит как

<ns0:feed xmlns:ns0='http://www.w3.org/2005/Atom' xml:lang='en'/>

что равнозначно

<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'/>

Единственная разница в том, что второй вариант на несколько символов короче. Если мы переделаем наш пример с использованием префикса ns0: в каждом открывающем и закрывающем тэгах, это добавило бы 4 символа на открывающий тэг × 79 тэгов + 4 символа на объявление собственно пространства имён, всего 320 символов. В кодировке UTF-8 это составило бы 320 байт. (После архивации gzip разница уменьшается до 21 байта; однако 21 байт это 21 байт). Возможно, Вы бы не обратили внимания на эти десятки байтов, но для фидов Atom, которые загружаются тысячу раз при изменении, выигрыш нескольких байт на одном запросе быстро превращается в килобайты.

Ещё одно преимущество lxml: в отличие от стандартной библиотеки ElementTree lxml предоставляет более тонкое управление сериализацией элементов.

>>> import lxml.etree
>>> NSMAP = {None: 'http://www.w3.org/2005/Atom'}                     ①
>>> new_feed = lxml.etree.Element('feed', nsmap=NSMAP)                ②
>>> print(lxml.etree.tounicode(new_feed))                             ③
<feed xmlns='http://www.w3.org/2005/Atom'/>
>>> new_feed.set('{http://www.w3.org/XML/1998/namespace}lang', 'en')  ④
>>> print(lxml.etree.tounicode(new_feed))
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'/>

① Для начала определим пространство имён используя словарь. Значения словаря и есть пространство имён; ключи словаря — задаваемый префикс. Используя объект None в качестве префикса мы задаём пространство имён по умолчанию.

② При создании элемента мы передаём специфичный для lxml аргумент nsmap, используемый для передачи префиксов пространств имён.

③ Как и ожидали, при сериализации определено пространство имён по умолчанию Atom и объявлен один элемент feed без префикса пространства имён.

④ Опа, мы забыли добавить атрибут xml:lang. Используя метод set(), можно всегда добавить атрибут к любому элементу. Метод принимает два аргумента: имя атрибута в стандартном формате ElementTree и значение атрибута. (Данный метод есть и в библиотеке ElementTree. Единственное отличие lxml и ElementTree в данном примере это передача аргумента nsmap для указания префиксов пространств имён.)

Разве наши документы ограничены только одним элементом? Конечно, нет. Мы можем запросто создать дочерние элементы.

>>> title = lxml.etree.SubElement(new_feed, 'title',          ①
...     attrib={'type':'html'})                               ②
>>> print(lxml.etree.tounicode(new_feed))                     ③
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'><title type='html'/></feed>
>>> title.text = 'dive into &hellip;'                         ④
>>> print(lxml.etree.tounicode(new_feed))                     ⑤
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'><title type='html'>dive into &amp;hellip;</title></feed>
>>> print(lxml.etree.tounicode(new_feed, pretty_print=True))  ⑥
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'>
<title type='html'>dive into&amp;hellip;</title>
</feed>

① Для создания подэлемента существующего элемента необходимо создать объект класса SubElement. В конструктор класса передаются элемент родителя (в данном случае new_feed) и имя нового элемента. Мы не объявляем заново пространство имён для создаваемого потомка, так как он наследует пространство имён от родителя.

② Также мы передаём словарь с атрибутами для элемента. В качестве имён атрибутов выступают ключи словаря, в качестве значений атрибутов — значения словаря.

③ Неудивительно, что новый элемент title был создан в пространстве Atom и является подэлементом элемента feed. Так как элемент title не имеет текстового содержания и подэлементов, то lxml сериализует его как пустой элемент и закрывает символами />.

④ Для того чтобы добавить текстовое содержание, мы задаём свойство .text.

⑤ Теперь элемент title сериализуется с только что заданным текстовым содержанием. Если в тексте содержатся знаки «меньше чем» < или «амперсанд» ‘, то при сериализации они должны быть экранированы escape-последовательностью. Такие ситуации lxml обрабатывает автоматически.

⑥ При сериализации Вы можете применить «приятную печать» («pretty printing»), при которой вставляется разрыв строки после закрывающего тэга или открывающего тэга элементов с подэлементами но без текстового содержания. С технической точки зрения lxml добавляет незначащие пробелы и переносы строк («insignificant whitespace») чтобы вывести XML более читаемым.

Вам, возможно, будет интересно попробовать ещё одну стороннюю библиотеку xmlwitch, которая повсеместно использует оператор Python with для того чтобы сделать код создания XML более читаемым.

Синтаксический разбор нецелых XML

XML спецификация предписывает, что все XML синтаксические анализаторы должны выполнять «драконову (строгую) обработку ошибок». То есть, при обнаружении в XML документе формальной ошибки или не«правильнопостроенности» (wellformedness) анализаторы должны сразу же прервать анализ и «вспыхнуть». Ошибки правильнопостроенности включают несогласованность открывающих и закрывающих тэгов, неопределённые элементы, неправильные символы Юникод и другие эзотерические ситуации. Такая обработка ошибок сильно контрастирует на фоне других известных форматов, например, HTML — браузер не останавливается отрисовывать web-страницу если в странице забыт закрывающий HTML тэг или значение атрибута тэга содержит неэкранированный амперсанд. (Существует распространённое заблуждение, что в формате HTML не оговорена обработка ошибок. На самом деле, обработка HTML ошибок отлично документирована, но она гораздо сложнее чем просто «остановиться и загореться на первой ошибке».)

Некоторые считают (и я в том числе), что это было ошибкой со стороны разработчиков формата XML заставлять так строго обрабатывать ошибки. Не поймите меня неправильно, я конечно же за упрощение правил обработки ошибок. Однако, на практике понятие «правильнопостроенности» оказывается коварнее чем кажется, особенно для XML документов которые публикуются в интернете и передаются по протоколу HTTP (например, фиды Atom). Несмотря на зрелость XML, который стандартизовал драконову обработку ошибок в 1997, исследования постоянно показывают, что значительная часть фидов Atom в интернете содержат ошибки правильнопостроенности.

Итак, у меня есть и теоретические и практические причины обрабатывать XML документы «любой ценой», то есть не останавливаться и взрываться при первой ошибке. Если Вы окажетесь в похожей ситуации, то lxml может помочь.

Ниже приведён фрагмент «битого» XML документа.

<?xml version='1.0' encoding='utf-8'?>
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'>
  <title>dive into &hellip;</title>
...
</feed>

В фиде ошибка, так как последовательность &hellip; не определена в формате XML (она определена в HTML). Если попробовать разобрать битый фид с настройками по умолчанию, то lxml споткнётся на неопределённом вхождении hellip.

>>> import lxml.etree
>>> tree = lxml.etree.parse('examples/feed-broken.xml')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "lxml.etree.pyx", line 2693, in lxml.etree.parse (src/lxml/lxml.etree.c:52591)
  File "parser.pxi", line 1478, in lxml.etree._parseDocument (src/lxml/lxml.etree.c:75665)
  File "parser.pxi", line 1507, in lxml.etree._parseDocumentFromURL (src/lxml/lxml.etree.c:75993)
  File "parser.pxi", line 1407, in lxml.etree._parseDocFromFile (src/lxml/lxml.etree.c:75002)
  File "parser.pxi", line 965, in lxml.etree._BaseParser._parseDocFromFile (src/lxml/lxml.etree.c:72023)
  File "parser.pxi", line 539, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:67830)
  File "parser.pxi", line 625, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:68877)
  File "parser.pxi", line 565, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:68125)
lxml.etree.XMLSyntaxError: Entity 'hellip' not defined, line 3, column 28

Для того чтобы обрабатывать XML документ с ошибками, необходимо создать новый синтаксический анализатор XML.

>> parser = lxml.etree.XMLParser(recover=True)                   ①
>>> tree = lxml.etree.parse('examples/feed-broken.xml', parser)  ②
>>> parser.error_log                                             ③
examples/feed-broken.xml:3:28:FATAL:PARSER:ERR_UNDECLARED_ENTITY: Entity 'hellip' not defined
>>> tree.findall('{http://www.w3.org/2005/Atom}title')
[<Element {http://www.w3.org/2005/Atom}title at ead510>]
>>> title = tree.findall('{http://www.w3.org/2005/Atom}title')[0]
>>> title.text                                                   ④
'dive into '
>>> print(lxml.etree.tounicode(tree.getroot()))                  ⑤
<feed xmlns='http://www.w3.org/2005/Atom' xml:lang='en'>
  <title>dive into </title>
.
. [остальной вывод сериализации пропущен для краткости]
.

① Для того чтобы создать новый анализатор мы создаём новый класс lxml.etree.XMLParser. Хотя он может принимать много разных параметров, для нас представляет интерес только один — аргумент восстановления recover. При присвоении аргументу значения True lxml будет из кожи вон лезть чтобы восстановить ошибки правильнопостроенности.

② Для того чтобы разобрать XML документ новым анализатором мы передаём объект parser в качестве второго аргумента в функцию parse(). На этот раз lxml не выбрасывает исключительную ситуацию при неопределённой последовательности &hellip;.

③ Анализатор содержит сообщения обо всех найденных ошибках. (На самом деле эти сообщения сохраняются независимо от параметра recover.)

④ Так как анализатор не знает что делать с неопределённым &hellip;, то он просто выбрасывает слово. Текстовое содержание элемента title превращается в ‘dive into ‘.

⑤ И ещё раз: после сериализации последовательность &hellip; исчезла, lxml её выбросил.

Важно отметить, что нет никакой гарантии переносимости восстановления ошибок у XML анализаторов. Другой анализатор может быть умнее и распознать что &hellip; является валидной последовательностью HTML и восстановить её как амперсанд. «Лучше» ли это? Возможно. Является ли это «более правильным»? Нет, так как оба решения с точки зрения формата XML неверны. Правильное поведение (согласно XML спецификации) прекратить обработку и загореться. Если же необходимо не следовать спецификации, то Вы делаете это на свой страх и риск.

Материалы для дальнейшего чтения

XML на Википедии

The ElementTree XML API(англ.)

Elements and Element Trees — Элементы и деревья элементов(англ.)

XPath Support in ElementTree — Поддержка XPath в ElementTree(англ.)

The ElementTree iterparse Function — Функция iterparse в ElementTree(англ.)

lxml(англ.)

Parsing XML and HTML with lxml — обработка XML и HTML в lxml(англ.)

XPath and XSLT with lxml — XPath и XSLT в lxml(англ.)

xmlwitch(англ.)

java — Ошибка синтаксического анализа XML-документа

java — Ошибка синтаксического анализа XML-документа — qaru

Присоединяйтесь к Stack Overflow , чтобы учиться, делиться знаниями и строить свою карьеру.

Спросил

Просмотрено 542 раза

Я использую Xerces 2.11.0 для моего проекта. Но во время рома я получаю сообщение об ошибке. Трассировка стека ошибки выглядит следующим образом:

  java.lang.Exception: org.openid4java.discovery.DiscoveryException: 0x70d: ошибка синтаксического анализа XML-документа
        в org.iitk.brihaspati.modules.actions.GoogleRequest.performDiscoveryOnUserSuppliedIdentifier (GoogleRequest.java:83)
        на org.iitk.brihaspati.modules.actions.GoogleLogin.doPerform (GoogleLogin.java:86)
        в org.apache.turbine.modules.actions.VelocityAction.doPerform (VelocityAction.java:84)
        в org.apache.turbine.util.velocity.VelocityActionEvent.perform (VelocityActionEvent.java:120)
        в org.apache.turbine.modules.actions.VelocityAction.perform (VelocityAction.java:110)
        в org.apache.turbine.modules.ActionLoader.exec (ActionLoader.java:134)
        в org.apache.turbine.modules.pages.DefaultPage.doBuild (DefaultPage.java:154)
        в org.apache.turbine.modules.Page.build (Page.java:91)
        в org.apache.turbine.modules.PageLoader.exec (PageLoader.java:136)
        на org.apache.turbine.Turbine.doGet (Turbine.java:796)
        на org.apache.turbine.Turbine.doPost (Turbine.java:891)
        в javax.servlet.http.HttpServlet.service (HttpServlet.java:760)
        в javax.servlet.http.HttpServlet.service (HttpServlet.java:853)
        в org.apache.catalina.servlets.InvokerServlet.serveRequest (InvokerServlet.java:466)
        в org.apache.catalina.servlets.InvokerServlet.doPost (InvokerServlet.java:216)
        на javax.servlet.http.HttpServlet.service (HttpServlet.java:760)
        в javax.servlet.http.HttpServlet.service (HttpServlet.java:853)
        в org.apache.catalina.core.ApplicationFilterChain.internalDoFilter (ApplicationFilterChain.java:247)
        в org.apache.catalina.core.ApplicationFilterChain.doFilter (ApplicationFilterChain.java:193)
        в org.apache.catalina.core.StandardWrapperValve.invoke (StandardWrapperValve.java:256)
        в org.apache.catalina.core.StandardPipeline $ StandardPipelineValveContext.invokeNext (StandardPipeline.java:643)
        в org.apache.catalina.core.StandardPipeline.invoke (StandardPipeline.java:480)
        в org.apache.catalina.core.ContainerBase.invoke (ContainerBase.java:995)
        в org.apache.catalina.core.StandardContextValve.invoke (StandardContextValve.java:191)
        в org.apache.catalina.core.StandardPipeline $ StandardPipelineValveContext.invokeNext (StandardPipeline.java:643)
        в org.apache.catalina.authenticator.AuthenticatorBase.invoke (AuthenticatorBase.java: 494)
        в org.apache.catalina.core.StandardPipeline $ StandardPipelineValveContext.invokeNext (StandardPipeline.java:641)
        в org.apache.catalina.core.StandardPipeline.invoke (StandardPipeline.java:480)
        в org.apache.catalina.core.ContainerBase.invoke (ContainerBase.java:995)
        в org.apache.catalina.core.StandardContext.invoke (StandardContext.java:2417)
        в org.apache.catalina.core.StandardHostValve.invoke (StandardHostValve.java:180)
        на org.apache.catalina.core.StandardPipeline $ StandardPipelineValveContext.invokeNext (StandardPipeline.java:643)
        в org.apache.catalina.valves.ErrorDispatcherValve.invoke (ErrorDispatcherValve.java:171)
        в org.apache.catalina.core.StandardPipeline $ StandardPipelineValveContext.invokeNext (StandardPipeline.java:641)
        в org.apache.catalina.valves.ErrorReportValve.invoke (ErrorReportValve.java:172)
        в org.apache.catalina.core.StandardPipeline $ StandardPipelineValveContext.invokeNext (StandardPipeline.java: 641)
        в org.apache.catalina.valves.AccessLogValve.invoke (AccessLogValve.java:577)
        в org.apache.catalina.core.StandardPipeline $ StandardPipelineValveContext.invokeNext (StandardPipeline.java:641)
        в org.apache.catalina.core.StandardPipeline.invoke (StandardPipeline.java:480)
        в org.apache.catalina.core.ContainerBase.invoke (ContainerBase.java:995)
        в org.apache.catalina.core.StandardEngineValve.invoke (StandardEngineValve.java:174)
        на org.apache.catalina.core.StandardPipeline $ StandardPipelineValveContext.invokeNext (StandardPipeline.java:643)
        в org.apache.catalina.core.StandardPipeline.invoke (StandardPipeline.java:480)
        в org.apache.catalina.core.ContainerBase.invoke (ContainerBase.java:995)
        в org.apache.catalina.connector.http.HttpProcessor.process (HttpProcessor.java:1040)
        в org.apache.catalina.connector.http.HttpProcessor.run (HttpProcessor.java:1151)
        в java.lang.Thread.run (Thread.java:636)
Вызвано: org.openid4java.discovery.DiscoveryException: 0x70d: ошибка синтаксического анализа XML-документа
        в org.openid4java.discovery.xrds.XrdsParserImpl.parseXmlInput (XrdsParserImpl.java:197)
        в org.openid4java.discovery.xrds.XrdsParserImpl.parseXrds (XrdsParserImpl.java:50)
        в org.openid4java.discovery.yadis.YadisResolver.retrieveXrdsLocation (YadisResolver.java:448)
        в org.openid4java.discovery.yadis.YadisResolver.discover (YadisResolver.java:252)
        в org.openid4java.discovery.yadis.YadisResolver.обнаружить (YadisResolver.java:232)
        в org.openid4java.discovery.yadis.YadisResolver.discover (YadisResolver.java:166)
        в org.openid4java.discovery.Discovery.discover (Discovery.java:147)
        в org.openid4java.discovery.Discovery.discover (Discovery.java:129)
        в org.openid4java.consumer.ConsumerManager.discover (ConsumerManager.java:542)
        в org.iitk.brihaspati.modules.actions.GoogleRequest.performDiscoveryOnUserSuppliedIdentifier (GoogleRequest.java:74)
        ... еще 46
Вызвано: org.xml.sax.SAXParseException: s4s-att-invalid-value: недопустимое значение атрибута для 'targetNamespace' в элементе 'schema'. Записанная причина: cvc-datatype-valid.1.2.1: 'xri: // $ xrd * ($ v * 2.0)' не является допустимым значением для 'anyURI'.
        в org.apache.xerces.parsers.DOMParser.parse (неизвестный источник)
        в org.apache.xerces.jaxp.DocumentBuilderImpl.parse (неизвестный источник)
        в javax.xml.parsers.DocumentBuilder.parse (неизвестный источник)
        в org.openid4java.discovery.xrds.XrdsParserImpl.parseXmlInput (XrdsParserImpl.java: 188)
        ... еще 55
  

Я пробовал и другие версии, такие как Xerces 2.8.1 и Xerces 2.8.0. Но каждый раз я получаю одну и ту же ошибку.

UVM

9,51655 золотых знаков3939 серебряных знаков6363 бронзовых знака

задан 16 мая ’12 в 9: 222012-05-16 09:22

Проблема и возможное решение приведены здесь:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *