Соответствие регулярному выражению узла json

Question

Соответствие регулярному выражению узла json

1

Мне нужно извлечь одно значение узла внутри определенного узла в длинной строке JSON.

т.е. узел описания узла пользователя:

" person ": {"age": "10", " description ": "example", job: {"title": "sales", "pay": "$ 3000"}, "sex": "male"}

Поскольку использование JSON-библиотеки для десериализации длинной строки JSON тратилось слишком много времени, я googled и нашел регулярное выражение, чтобы соответствовать одному значению узла JSON, и он работает быстро большую часть времени (за несколько мс)

Regex regex = new Regex("\"person\":{(?:[^{}]|(?<open>{)|(?<-open>}))*\"description\":\"(.*?)\"(?:.*?)(?(open)(?!))}");

Он работает медленно (используя полную секунду), когда дублированное имя узла существует в каком-либо внутреннем узле после того, как совпадение произошло по неизвестной причине:

"person": {"age": "10", " description ": "example", job: {"title": "sales", "pay": "$ 3000", " description ": "example"} секс ":" мужчина "}

Я хочу улучшить эффективность этого регулярного выражения, чтобы он проверял только внешний контент для узла пользователя (полужирный):

"человек": { "возраст": "10", "Описание": "пример", работа: { "название": "продажа", "зарплата": "$ 3000", "Описание": "пример"}, " секс ":" мужчина " }

Я новичок в regex, это регулярное выражение может не соответствовать моей ситуации.
Есть идеи?

Isolet Chan 03 окт. 2014, в 14:24

Источник

1

Должно быть проще (и, возможно, быстрее) просто проанализировать JSON и получить нужные значения. Ссылка в System.Web.Helpers.Json
wdosanjos 03 окт. 2014, в 12:22
0

Что происходит, когда в описании есть кавычки типа "description":"example \"blah\""
Toto 03 окт. 2014, в 12:22
0

Что вы хотите извлечь?
Avinash Raj 03 окт. 2014, в 12:24
0

@wdosanjos Я использовал JSON.NET для анализа довольно короткого json с помощью JObject.Parse (json) и уже использовал около 60 мс.
Isolet Chan 03 окт. 2014, в 12:35
0

@ M42 Ты прав. К счастью, в моем случае значение никогда не будет содержать \ "упрощающий этот вопрос
Isolet Chan 03 окт. 2014, в 12:37
0

@AvinashRaj Я хочу извлечь узел описания узла человека, но регулярное выражение должно быть эффективным и игнорирует содержимое во всем внутреннем узле, как узел задания
Isolet Chan 03 окт. 2014, в 12:39
0

Может ли описание быть «позади» рабочей части или вы точно знаете, что оно находится перед какими-либо подузлами?
funkwurm 03 окт. 2014, в 13:53
0

@funkwurm Да, это может быть за работой. Выбранный ответ может соответствовать любой ситуации, если он принадлежит внешнему узлу
Isolet Chan 03 окт. 2014, в 14:07

Показать ещё 6 комментариев

Теги:

c#

json

regex

.net

1 ответ

Ещё вопросы

Должно быть проще (и, возможно, быстрее) просто проанализировать JSON и получить нужные значения. Ссылка в System.Web.Helpers.Json
Что происходит, когда в описании есть кавычки типа "description":"example \"blah\""
@wdosanjos Я использовал JSON.NET для анализа довольно короткого json с помощью JObject.Parse (json) и уже использовал около 60 мс.
@ M42 Ты прав. К счастью, в моем случае значение никогда не будет содержать \ "упрощающий этот вопрос
@AvinashRaj Я хочу извлечь узел описания узла человека, но регулярное выражение должно быть эффективным и игнорирует содержимое во всем внутреннем узле, как узел задания
Может ли описание быть «позади» рабочей части или вы точно знаете, что оно находится перед какими-либо подузлами?
@funkwurm Да, это может быть за работой. Выбранный ответ может соответствовать любой ситуации, если он принадлежит внешнему узлу

Lucas Trzesniewski · Accepted Answer · 2014-10-03T10-27-00.000Z

Это регулярное выражение должно работать для вашего случая и должно быть быстрее:

"person"\s*:\s*\{(?:
  (?(open)(?!)|(?>"description"\s*:\s*"(?<description>(?:\\.|(?>[^\\"]+))*)"))
  |(?>[^{}"]+)
  |(?>(?:"(?:\\.|(?>[^\\"]+))*"))
  |(?<open>\{)
  |(?<-open>\})
)*?
(?(open)(?!))
(?(description)|(?!))

DEMO

Используйте его с IgnorePatternWhitespace. Он также будет правильно обрабатывать экранированные кавычки (\"). Ваше описание будет описано в description именем group.

Это должно быть быстрее, потому что я использовал атомные группы ((?>...)) в нескольких местах, где я знаю, что обратное отслеживание бесполезно, а также я прекратил сканирование текста, как только он находит нужное ему описание.

О, и вы должны использовать дословные строки для регулярных выражений, чтобы вам не приходилось избегать всего:

var regex = new Regex(@".....")

Это не улавливает свойства "за" листом job , в примере OP "sex":"male" .
В моем понимании @funkwurm, запрашивающему нужен только узел description , поэтому мое регулярное выражение останавливается, как только оно его захватывает.
Да, мне просто нужен один узел. И это регулярное выражение работает очень хорошо и быстрее в любой ситуации по сравнению с регулярным выражением, которое я использовал! Я бы хотел создать такой сложный, но эффективный регулярный оператор, как вы. Спасибо вам большое!
@IsoletChan Не за что. Если вы хотите освоить регулярные выражения, посмотрите этот пост и особенно совет о книге Джеффри Фридла.