Лучший анализатор XML для Java

Question

Лучший анализатор XML для Java

362

Мне нужно прочитать маленькие (всего несколько МБ, кодированных в формате UTF-8) XML файлов, рыться вокруг различных элементов и атрибутов, возможно, изменить несколько и снова записать XML на диск (желательно с приятным, форматирование с отступом).

Каким будет лучший синтаксический анализатор XML для моих нужд? Есть много на выбор. Некоторые из них мне известны:

И, конечно, тот, что в JDK (я использую Java 6). Я знаком с Xerces, но считаю это неуклюжим.

Рекомендации

Evan 17 дек. 2008, в 05:09

Источник

6

Я думаю, вы можете найти больше игроков здесь: xml.com/lpt/a/1703
dma_k 18 март 2010, в 12:59
1

Я думаю, что есть реальные проблемы с этим вопросом. 1 - он сравнивает совершенно разные вещи, объединяя парсеры (xerces, crimson) вместе с библиотеками dom-манипуляций (dom4j, xom, jdom). также ответы имеют тенденцию к защите и не настолько конструктивны.
Nathan Hughes 22 янв. 2014, в 14:05
51

+220 и не конструктивно. Очевидно, что модераторы и пользователи имеют разные взгляды на то, что конструктивно.
tbroberg 09 июнь 2014, в 06:40
5

Да, кажется, что моды близоруки, когда дело доходит до таких вопросов. Да, ответы будут взвешенными, но определенно основанными на опыте, и в большинстве случаев ответы количественно определены. Модам необходимо создать, вероятно, другой тег, чтобы переместить эти вопросы, которые открыты для обсуждения, что приводит к конструктивной критике и выводам.
Ashraff Ali Wahab 11 фев. 2016, в 16:26
0

@Manius Это не место для оспаривания общих правил сайта. Если вы готовы дать конструктивный и обоснованный аргумент по этому вопросу, вы можете привести его в Meta . Однако обратите внимание, что есть очень веские причины, по которым мы закрываем запросы на сторонние ресурсы.
E_net4 10 фев. 2019, в 15:34
0

Представитель полиции цензуры в жутких групповых размышлениях: я объяснил, почему «Мета» была бесполезна для этого в сообщении, которое теперь удобно удалять, несмотря на то, что половина комментариев (включая ваши собственные) здесь имеют схожий характер. По вашему предвзятому мнению, это всего лишь "очень веские причины", и только 374 человека по этому вопросу не согласны, как правильно указывает tbroberg.
Manius 13 фев. 2019, в 19:31

Показать ещё 4 комментария

Теги:

java

xml

parsing

8 ответов

234

Я думаю, вы не должны рассматривать какую-либо конкретную реализацию парсера. Java API для обработки XML позволяет использовать стандартную реализацию любой совместимой парсера. Код должен быть гораздо более портативным, и когда вы поймете, что определенный синтаксический анализатор стал слишком старым, вы можете заменить его другим без изменения строки вашего кода (если вы сделаете это правильно).

В принципе существует три способа обработки XML стандартным образом:

SAX Это самый простой API. Вы читаете XML, определяя класс Handler, который получает данные внутри элементов/атрибутов, когда XML обрабатывается последовательным образом. Это быстрее и проще, если вы только планируете читать некоторые атрибуты/элементы и/или записывать некоторые значения обратно (ваш случай).
DOM Этот метод создает дерево объектов, которое позволяет вам изменять/получать доступ к нему случайным образом, чтобы было лучше для сложных манипуляций и обработки XML.
StAX Это находится в середине пути между SAX и DOM. Вы просто пишете код, чтобы извлекать данные из парсера, который вас интересует, когда он обрабатывается.

Забудьте о проприетарных API, таких как JDOM или Apache (т.е. Apache Xerces XMLSerializer), потому что привяжет вас к конкретной реализации, которая может развиваться в или потерять обратную совместимость, что заставит вас изменить свой код в будущем, когда вы захотите перейти на новую версию JDOM или любой другой парсер, который вы используете. Если вы придерживаетесь стандартного API Java (используя фабрики и интерфейсы), ваш код будет намного более модульным и поддерживаемым.

Нет необходимости говорить, что все (я не проверял все, но я почти уверен) из предложенных парсеров согласен с реализацией JAXP, поэтому технически вы можете использовать все, независимо от того, что.

Fernando Miguélez 17 дек. 2008, в 08:20

11

На самом деле, 3 способа: StAX (javax.xml.stream) является третьим стандартным.
StaxMan 23 апр. 2009, в 04:00
1

java-samples.com/showtutorial.php?tutorialid=152 (лично люблю SAX)
kitokid 15 дек. 2012, в 06:42
0

@kitokid Chrome говорит мне, что на странице есть неприятные вещи. Я использовал это вместо: sce.uhcl.edu/yue/courses/xml/notes/xmlparser/IntroDOM.asp
Ryan Shillington 17 дек. 2012, в 18:56

Показать ещё 1 комментарий

133

Вот хорошее сравнение DOM, SAX, StAX и TrAX (Источник: http://download.oracle.com/docs/cd/E17802_01/webservices/webservices/docs/1.6/tutorial/doc/SJSXP2.html)

StAX SAX DOM TrAX

Тип API Pull, streaming Push, streaming В дереве данных XSLT Rule

Простота использования Средний Средний

Возможности XPath Нет N Да

ЦП и память Varies Изменяется

Только вперед Да Да N Нет

Чтение XML Да Да Да Да

Write XML Да N Да Да

CRUD ; N N Да Нет

Kadir 14 апр. 2011, в 16:48

6

Вы можете написать XML с SAX. Приемник предоставляет реализацию обработчика, с помощью которой пользователь может вызывать события SAX для генерации вывода XML. (Я вижу, что таблица получена из исходного материала, а не из оригинального материала, хотя таблица неверна)
Dev 10 сен. 2013, в 20:38

8

Простой XML http://simple.sourceforge.net/ очень упрощен для (де) сериализации объектов.

asdf 23 июль 2011, в 20:34

4

В дополнение к SAX и DOM существует синтаксический анализ STaX, доступный с использованием XMLStreamReader, который представляет собой синтаксический анализатор xml.

kitsuneymg 18 дек. 2008, в 01:59

3

Я нашел dom4j инструментом для работы с XML. Особенно по сравнению с Xerces.

Brian Matthews 17 дек. 2008, в 08:29

2

Я бы не рекомендовал, что у вас есть много "мышления" в вашем приложении, но использование XSLT может быть лучше (и, возможно, быстрее с компиляцией XSLT-to-bytecode), чем манипуляции с Java.

Thomas Barker 18 дек. 2008, в 03:03

3

Лучше, возможно: быстрее, очень маловероятно.
StaxMan 09 апр. 2009, в 06:18
0

Чтение, манипулирование и запись XML - это именно то, для чего предназначен XSLT. Это хороший ответ из коробки.
james.garriss 17 нояб. 2014, в 14:01

1

Если вам небезразлична производительность, я большой поклонник Apache Digester, поскольку он по существу позволяет вам напрямую сопоставлять XML с Java Beans.

В противном случае вы должны сначала разобрать, а затем построить свои объекты.

Uri 18 дек. 2008, в 01:38

0

Мне не нужно создавать Java Beans, просто немного манипулировать необработанными XML-элементами и просматривать определенные элементы для получения данных из них, поэтому парсер стиля DOM, вероятно, является моим идеальным решением.
Evan 18 дек. 2008, в 01:48
0

Да, dom4j, вероятно, был бы лучшим решением там ... Я использовал его интенсивно, пока не поднялся на один уровень, чтобы переварить
Uri 18 дек. 2008, в 06:03

Ещё вопросы

Я думаю, вы можете найти больше игроков здесь: xml.com/lpt/a/1703
Я думаю, что есть реальные проблемы с этим вопросом. 1 - он сравнивает совершенно разные вещи, объединяя парсеры (xerces, crimson) вместе с библиотеками dom-манипуляций (dom4j, xom, jdom). также ответы имеют тенденцию к защите и не настолько конструктивны.
+220 и не конструктивно. Очевидно, что модераторы и пользователи имеют разные взгляды на то, что конструктивно.
Да, кажется, что моды близоруки, когда дело доходит до таких вопросов. Да, ответы будут взвешенными, но определенно основанными на опыте, и в большинстве случаев ответы количественно определены. Модам необходимо создать, вероятно, другой тег, чтобы переместить эти вопросы, которые открыты для обсуждения, что приводит к конструктивной критике и выводам.
@Manius Это не место для оспаривания общих правил сайта. Если вы готовы дать конструктивный и обоснованный аргумент по этому вопросу, вы можете привести его в Meta . Однако обратите внимание, что есть очень веские причины, по которым мы закрываем запросы на сторонние ресурсы.
Представитель полиции цензуры в жутких групповых размышлениях: я объяснил, почему «Мета» была бесполезна для этого в сообщении, которое теперь удобно удалять, несмотря на то, что половина комментариев (включая ваши собственные) здесь имеют схожий характер. По вашему предвзятому мнению, это всего лишь "очень веские причины", и только 374 человека по этому вопросу не согласны, как правильно указывает tbroberg.
На самом деле, 3 способа: StAX (javax.xml.stream) является третьим стандартным.
java-samples.com/showtutorial.php?tutorialid=152 (лично люблю SAX)
@kitokid Chrome говорит мне, что на странице есть неприятные вещи. Я использовал это вместо: sce.uhcl.edu/yue/courses/xml/notes/xmlparser/IntroDOM.asp
Вы можете написать XML с SAX. Приемник предоставляет реализацию обработчика, с помощью которой пользователь может вызывать события SAX для генерации вывода XML. (Я вижу, что таблица получена из исходного материала, а не из оригинального материала, хотя таблица неверна)
Лучше, возможно: быстрее, очень маловероятно.
Чтение, манипулирование и запись XML - это именно то, для чего предназначен XSLT. Это хороший ответ из коробки.
Мне не нужно создавать Java Beans, просто немного манипулировать необработанными XML-элементами и просматривать определенные элементы для получения данных из них, поэтому парсер стиля DOM, вероятно, является моим идеальным решением.
Да, dom4j, вероятно, был бы лучшим решением там ... Я использовал его интенсивно, пока не поднялся на один уровень, чтобы переварить

zehrer · Accepted Answer · 2008-12-17T09-40-00.000Z

Если скорость и память не проблема, dom4j - действительно хороший вариант. Если вам нужна скорость, использование парсера StAX, такого как Woodstox, является правильным путем, но вам нужно написать больше кода, чтобы все было сделано, и вам нужно привыкнуть обрабатывать XML в потоках.

dom4j довольно хорош, но определенно не без проблем. Для хороших альтернатив DOM4J см stackoverflow.com/questions/831865/...