Регулярное выражение для проверки тега и получения определенной части строк

Question

Регулярное выражение для проверки тега и получения определенной части строк

1

У меня проблема с регулярным выражением. Я проверяю строки как тег: <a href="/abc/def/ghk/">test_test</a>. Я хочу захватить только часть /abc/def/ghk, используя регулярное выражение.

Я использую python и пытаюсь использовать разные выражения.

mushfiq 22 апр. 2011, в 19:13

Источник

1

Это не URL. Это тег, который содержит URL. Хотите проанализировать HTML-код, содержащий тег? Или вы хотите проанализировать URL, который является значением атрибута href тега?
S.Lott 22 апр. 2011, в 16:36
0

Кроме того, какие выражения вы пробовали?
Martijn Pieters♦ 22 апр. 2011, в 16:37

Теги:

python

regex

3 ответа

Ещё вопросы

Это не URL. Это тег, который содержит URL. Хотите проанализировать HTML-код, содержащий тег? Или вы хотите проанализировать URL, который является значением атрибута href тега?
Кроме того, какие выражения вы пробовали?

Blender · Answer 1 · 2011-04-22T14-04-00.000Z

4

Я бы использовал BeautifulSoup, как это делалось для таких действий:

>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup('<a href="/abc/def/ghk/">test_test</a>')
>>> print soup.findAll('a', {'href': True})[0]['href']
/abc/def/ghk/

Blender 22 апр. 2011, в 14:04

0

Не все a элементы имеют href атрибута; чтобы извлечь первый a элемент с href атрибута можно использовать: soup.find('a', href=True)
jfs 22 апр. 2011, в 20:00
0

Вопрос был - регулярное выражение.
Anatolij 22 апр. 2011, в 20:04
0

@Anatolij, я предоставляю альтернативное решение, более универсальное, чем регулярное выражение.
Blender 22 апр. 2011, в 21:27
0

@JF Себастьян, спасибо за информацию. Я никогда серьезно не использовал BeautifulSoup, так что спасибо за совет!
Blender 22 апр. 2011, в 21:28
2

@Anatolij: Каждый раз, когда вы пытаетесь анализировать HTML с помощью регулярных выражений, нечестивый ребенок плачет кровью девственниц, а русские хакеры набивают ваше веб-приложение. stackoverflow.com/questions/1732348/… stackoverflow.com/q/701166
jfs 22 апр. 2011, в 21:33
0

@JF Себастьян, это верно, полностью согласен.
Anatolij 25 апр. 2011, в 10:49
0

@Blender: BeautifulSoup() не принимает ключевое слово href . Вы можете использовать soup('a', href=True)[0]['href'] или soup.find('a', href=True)['href'] .
jfs 16 дек. 2011, в 18:01
0

@JFSebastian: Не уверен, что моя логика была, когда я написал это. Я думаю, что новый код должен работать.
Blender 16 дек. 2011, в 18:04

Показать ещё 6 комментариев

jfs · Answer 2 · 2011-04-22T18-15-00.000Z

Вы можете использовать lxml для работы со ссылками:

from lxml import html

for _, attr, link, _ in html.iterlinks('<a href="/abc/def/ghk/">test_test</a>'):
    if attr == 'href':
       print link

Выход

/abc/def/ghk/

Mike Pennington · Answer 3 · 2011-04-22T14-20-00.000Z

1

Достаточно ли этого?

>>> re.search('<a\s+href="(\S+?)\/"', tags).group(1)
'/abc/def/ghk'
>>>

Mike Pennington 22 апр. 2011, в 14:20

0

Теперь добавьте атрибут class ;)
Blender 22 апр. 2011, в 16:46
0

@Blender, я в порядке в любом случае ... но, честно говоря, я предпочитаю lxml вместо BS для этой задачи.
Mike Pennington 22 апр. 2011, в 16:47
0

Я никогда не слышал об этом, но это выглядит довольно круто. Я посмотрю на это.
Blender 22 апр. 2011, в 16:52
0

@Blender, посмотрите lxml.html.soupparser
Mike Pennington 22 апр. 2011, в 16:53
0

@ Майк Пеннингтон: Вам не нужно супперсер. Есть модуль lxml.html stackoverflow.com/questions/5757627/…
jfs 22 апр. 2011, в 21:37
0

@JF Себастьян, что произойдет, если вы используете lxml.html с плохим HTML?
Mike Pennington 22 апр. 2011, в 22:35
0

@Mike Pennington: Из ссылки, которую вы предоставили: «Нередко lxml / libxml2 лучше разбирает и исправляет поврежденный HTML, но BeautifulSoup имеет превосходную поддержку для обнаружения кодирования. Это во многом зависит от того, какой анализатор работает лучше».
jfs 22 апр. 2011, в 23:31
0

@JF Себастьян, по ссылке, которую вы «прочитали»: «Чтобы пользователи не могли заранее выбирать свою библиотеку синтаксического анализатора, lxml может взаимодействовать с возможностями синтаксического анализа BeautifulSoup через модуль lxml.html.soupparser».
Mike Pennington 23 апр. 2011, в 03:28

Показать ещё 6 комментариев