python re.search (regex) для поиска слов с шаблоном типа {{world}}

Question

python re.search (regex) для поиска слов с шаблоном типа {{world}}

1

У меня есть файл HTML, в который я вставил пользовательские теги, например {{name}}, {{surname}}. Теперь я хочу найти теги, которые точно соответствуют шаблону, например {{world}}, только не {world}}, {{world}, {world}, { word }, {{ world }} и т.д. Я написал небольшой код для

re.findall(r'\{(\w.+?)\}', html_string)

Он возвращает слова, которые следуют шаблону {{world}}, {world}, {world}} что я не хочу. Я хочу точно сопоставить {{world}}. Кто-нибудь может направить меня?

Shashi 29 апр. 2011, в 08:57

Источник

Теги:

python

regex

matching

5 ответов

2

Если вы хотите совместить скобки с двойными фигурами, вы должны указать их в своем регулярном выражении:

re.findall(r'\{\{(\w[^}]?)\}\}', html_string)

Achim 29 апр. 2011, в 04:59

0

это также будет соответствовать шаблону как {слово}} {{мир} как то, что не должно соответствовать
Shashi 29 апр. 2011, в 06:18
0

Смотрите мое редактирование. В этом случае вы должны указать «not}» вместо использования простой точки.
Achim 29 апр. 2011, в 06:36
0

Ахим, вам понадобится какой-то квантификатор в вашем регулярном выражении, так как в настоящее время он будет соответствовать только одному символу слова и необязательному символу, который не является '}', между двойными скобками.
ThomasH 29 апр. 2011, в 10:15

Показать ещё 1 комментарий

2

Вы говорите, что другие ответы не работают, но они кажутся мне:

>>> import re
>>> html_string = '{{realword}} {fake1}} {{fake2} {fake3} fake4'
>>> re.findall(r'\{\{(\w.+?)\}\}', html_string)
['realword']

Если вам это не сработает, вам нужно будет предоставить более подробную информацию.

Изменить: как насчет следующего? Избавление от точки (.) и использование только \w также позволяет использовать жадные квалификаторы и работает для примера HTML из вашего комментария:

>>> html_string = 'html>\n <head>\n </head>\n <title>\n </title>\n <body>\n <h1>\n T - Shirts\n </h1>\n <img src="March-Tshirts/skull_headphones_tshirt.jpg" />\n <img src="/March-Tshirts/star-wars-t-shirts-6.jpeg" />\n <h2>\n we - we - we\n </h2>\n {{unsubscribe}} -- {{tracking_beacon} -- {web_url}} -- {name} \n </body>\n</html>\n'
>>> re.findall(r'\{\{(\w+)\}\}', html_string)
['unsubscribe']

\w соответствует буквенно-цифровым символам и подчеркиванию; если вам нужно сопоставить больше символов, вы можете добавить их в набор (например, [\w\+], чтобы также совместить знак плюса).

Blair 29 апр. 2011, в 04:22

0

Вы правы, это работает для вашего примера, но когда я попробовал, например: html_string = 'html> \ n <head> \ n </ head> \ n <title> \ n </ title> \ n <body> \ n <h1> \ n Футболки \ n </ h1> \ n <img src = "March-Tshirts / skull_headphones_tshirt.jpg" /> \ n <img src = "/ March-Tshirts / star-war-t-shirts -6.jpeg "/> \ n <h2> \ n мы - мы - мы \ мы <мы h>> \ n {{unsubscribe}} - {{tracking_beacon} - {web_url}} - {имя} \ n </ body> \ n </ html> \ n 'это дает результат: [' unsubscribe ',' tracking_beacon} - {web_url ']
Shashi 29 апр. 2011, в 06:42
0

Хорошо, обновлено, чтобы оно работало с этим примером.
Blair 29 апр. 2011, в 07:07

2

Как насчет этого?

re.findall('{{(\w+)}}', html_string)

Или, если вы хотите, чтобы фигурные фигурные скобки включались в результаты:

re.findall('({{\w+}})', html_string)

Если вы пытаетесь выполнить html-шаблонизацию, я рекомендую использовать хороший механизм шаблонов.

ʇsәɹoɈ 29 апр. 2011, в 03:54

0

Это работает ... именно я хочу.
Shashi 29 апр. 2011, в 06:33

2

Это не будет соответствовать фигурным скобкам в вашем результате, вы хотите?

'\{\{(\w[^\{\}]+?)\}\}'

http://rubular.com/r/79YwR13MS0

stema 29 апр. 2011, в 03:30

0

это работает .... спасибо большое.
Shashi 29 апр. 2011, в 07:03

Ещё вопросы

это также будет соответствовать шаблону как {слово}} {{мир} как то, что не должно соответствовать
Смотрите мое редактирование. В этом случае вы должны указать «not}» вместо использования простой точки.
Ахим, вам понадобится какой-то квантификатор в вашем регулярном выражении, так как в настоящее время он будет соответствовать только одному символу слова и необязательному символу, который не является '}', между двойными скобками.
Вы правы, это работает для вашего примера, но когда я попробовал, например: html_string = 'html> \ n <head> \ n </ head> \ n <title> \ n </ title> \ n <body> \ n <h1> \ n Футболки \ n </ h1> \ n <img src = "March-Tshirts / skull_headphones_tshirt.jpg" /> \ n <img src = "/ March-Tshirts / star-war-t-shirts -6.jpeg "/> \ n <h2> \ n мы - мы - мы \ мы <мы h>> \ n {{unsubscribe}} - {{tracking_beacon} - {web_url}} - {имя} \ n </ body> \ n </ html> \ n 'это дает результат: [' unsubscribe ',' tracking_beacon} - {web_url ']
Хорошо, обновлено, чтобы оно работало с этим примером.

manojlds · Accepted Answer · 2011-04-29T04-16-00.000Z

5

Лучший ответ

Um, не должно быть регулярное выражение:

'\{\{(\w.+?)\}\}'

Хорошо, после комментариев, я больше понимаю ваши требования:

'\{\{\w+?\}\}'

должен работать на вас.

В принципе, вы хотите {{любое количество символов слова, включая символ подчеркивания}}. Вы даже не нуждаетесь в ленивом совпадении в этом случае, так что вы можете удалить th ? в выражении.

Что-то вроде {{keyword1}} other stuff {{keyword2}} теперь не будет соответствовать целиком.

Чтобы получить только ключевое слово, не используя {{}}, используйте ниже:

'(?<=\{\{)\w+?(?=\}\})'

manojlds 29 апр. 2011, в 04:16

0

нет, это также будет соответствовать шаблону {word}} {{word} вот так ... :(
Shashi 29 апр. 2011, в 06:17
0

Как это будет соответствовать? Обратите внимание на явные две фигурные скобки в регулярном выражении
manojlds 29 апр. 2011, в 06:19
0

он должен точно соответствовать шаблону {{world}} вот так
Shashi 29 апр. 2011, в 06:20
0

q = 'html> \ n <head> \ n </ head> \ n <title> \ n </ title> \ n <body> \ n <h1> \ n T-Shirts \ n </ h1> \ n <img src = "Футболки / skull_headphones_tshirt.jpg" /> \ n <img src = "рубашки / звездные войны-футболки-6.jpeg" /> \ n <h2> \ n мы - мы - мы \ n </ h2> \ n {{unsubscribe}} - {{tracking_beacon} - {web_url}} - {name} \ n </ body> \ n </ html> \ n '
Shashi 29 апр. 2011, в 06:22
0

рассмотрим пример выше
Shashi 29 апр. 2011, в 06:24
0

Вы пробовали приведенный выше шаблон, который я дал в вашем коде?
manojlds 29 апр. 2011, в 06:24
0

@ Шаши: этот шаблон должен работать, потому что он сделал внутреннюю часть ленивым, а не жадным. Это что? знак делает после * или +.
Justin Peel 29 апр. 2011, в 06:29
0

Я думаю, что я работаю над сообщением re.findall ('({{\ w +}})', html_string), предоставленным ʇsәɹoɈ. Я должен попробовать это, прежде чем извините за мою лень
Shashi 29 апр. 2011, в 06:35
0

@Justin, это было уже ленивое совпадение в его вопросе, я предполагаю из его примера, что проблема в том, что оно соответствует {{tracking_beacon} -- {web_url}}
stema 29 апр. 2011, в 06:35
0

извините за это, я не очистил это, это должно соответствовать {{unsubscribe}} только слово .. спасибо за комментарии
Shashi 29 апр. 2011, в 06:38
0

Фу, я думаю, к чему ты клонишь. Обновить мой ответ
manojlds 29 апр. 2011, в 06:44
0

Приведенное выше решение дает правильный шаблон сопоставления, такой как {{unsbscribe}}, но я хочу получить от этого слова отписаться не с {{,}}, надеюсь, я очистил
Shashi 29 апр. 2011, в 07:00
0

этот шаблон \ {\ {(\ w [^ \ {\}] +?) \} \} будет использовать полный текст, чтобы получить слово без фигурных букв
Shashi 29 апр. 2011, в 07:04
0

Хорошо, я обновил свой ответ снова. Вы сделали {{}} без захвата
manojlds 29 апр. 2011, в 07:04
0

точно большое спасибо ....
Shashi 29 апр. 2011, в 07:05
0

Отметьте как ответ, если это то, что вы хотите!
manojlds 29 апр. 2011, в 07:06

Показать ещё 14 комментариев