Соответствует первому вхождению строки

Question

Соответствует первому вхождению строки

0

У меня есть код HTML, который должен удалить содержимое тега. Их около 30 человек. Он находится в разных местах внутри HTML-кода, например

 <A class=tooltiplink href="javascript:void;" style="color:#000000"><img src="images/footnote.jpg" border="0"><SPAN style="margin:0 0 0 0px;"> unwanted info 4:6 </SPAN></A> 
<b>Hello </b>  
<A class=tooltiplink href="javascript:void;" style="color:#000000"><img src="images/footnote.jpg" border="0"><SPAN style="margin:0 0 0 0px;"> unwanted info 4:6 </SPAN>
</A><b>World</b>
<A class=tooltiplink href="javascript:void;" style="color:#000000"><img src="images/footnote.jpg" border="0"><SPAN style="margin:0 0 0 0px;"> unwanted info 4:6 </SPAN></A>

Желаемый результат: Hello World

Когда я пытаюсь удалить содержимое тега как $_=~s/A(.+)?\/A//gs; , Он также обрабатывает полезную информацию внутри последнего тега. Слишком эффект g тоже имеет тот же эффект. Как удалить только содержимое тега без первого и последнего совпадения друг с другом, а также удалить полезную информацию.

xtreak 13 дек. 2013, в 10:05

Источник

0

У вас есть пример ввода и требуемый вывод?
chooban 13 дек. 2013, в 08:44
0

Я разместил образец кода. Мне нужен только Привет и мир.
xtreak 13 дек. 2013, в 08:48
0

Некоторая информация необходима для того, чтобы дать общий исчерпывающий ответ: 1) я предполагаю, что это только частичная часть большего HTML-кода, возможно, в нескольких случаях, как в вашем примере. 2) как мы можем определить, что (какие критерии) </A> принимать в качестве разделителя - это тот, который соответствует вашему «первому» <A ...>. 3) нежелательная информация - та, которая находится между первым узлом <A ...> </A> блока 4) можем ли мы предположить, что блок ВСЕГДА находится в нескольких строках или также может быть в одной строке (и в этом случае необходимо исправить) )
NeronLeVelu 13 дек. 2013, в 09:26
0

Я хочу заменить ВСЕХ <A> </A> пиров. Это внутри большого HTML-кода без новых строк между <A> и </A>. Я не понимаю твоего второго предположения. @NeronLeVelu
xtreak 13 дек. 2013, в 09:38
0

Не могли бы вы поставить образец желаемого результата (в запросе, а не в комментариях из-за отсутствия там формата), мне не ясно, что сохранить и что удалить
NeronLeVelu 13 дек. 2013, в 10:13
0

Я добавил вывод, я просто хочу Hello World внутри жирного тега @NeronLeVelu
xtreak 13 дек. 2013, в 10:21
0

Я разместил код и вывод. @chooban
xtreak 13 дек. 2013, в 10:21

Показать ещё 5 комментариев

Теги:

html

regex

perl

2 ответа

Ещё вопросы

У вас есть пример ввода и требуемый вывод?
Я разместил образец кода. Мне нужен только Привет и мир.
Некоторая информация необходима для того, чтобы дать общий исчерпывающий ответ: 1) я предполагаю, что это только частичная часть большего HTML-кода, возможно, в нескольких случаях, как в вашем примере. 2) как мы можем определить, что (какие критерии) </A> принимать в качестве разделителя - это тот, который соответствует вашему «первому» <A ...>. 3) нежелательная информация - та, которая находится между первым узлом <A ...> </A> блока 4) можем ли мы предположить, что блок ВСЕГДА находится в нескольких строках или также может быть в одной строке (и в этом случае необходимо исправить) )
Я хочу заменить ВСЕХ <A> </A> пиров. Это внутри большого HTML-кода без новых строк между <A> и </A>. Я не понимаю твоего второго предположения. @NeronLeVelu
Не могли бы вы поставить образец желаемого результата (в запросе, а не в комментариях из-за отсутствия там формата), мне не ясно, что сохранить и что удалить
Я добавил вывод, я просто хочу Hello World внутри жирного тега @NeronLeVelu

chooban · Answer 1 · 2013-12-13T09-08-00.000Z

Я думаю, что, хотя вы можете сделать это с помощью регулярного выражения, это не лучший способ. Подобные TreeBuilder и некоторые XPath предоставят вам гораздо более удобное решение.

После того, как вы загрузили HTML в древовидную структуру, требуемый XPath может быть таким же простым, как:

my $tree= HTML::TreeBuilder::XPath->new;
$tree->parse_file( "mypage.html");

my @nodes = $tree->find_nodes( '//b' );

JohnB · Answer 2 · 2013-12-13T06-50-00.000Z

Ваша проблема в том, что регулярное выражение является жадным, то есть оно соответствует самой длинной подстроке (формирует самый первый A до самого последнего /A). Попробуйте нежелательную версию оператора +:

$_=~s/A(.+?)?\/A//gs;

или

$_=~s/A(.*?)\/A//gs;

Кстати, где <> символы в вашем регулярном выражении? Разве вы не хотите найти <A> а не просто A?

Вы, вероятно, имеете ввиду

$_=~s/\<A\>.*?\<\/A\>//gs;

См. Здесь: Как написать регулярное выражение, которое соответствует не жадным?

Комментарий: Не рекомендуется анализировать HTML с регулярными выражениями, так как слишком много может пойти не так (например, с помощью вышеуказанного подхода вы не найдете тегов с пробелами в них). Если упражнение предназначено для быстрого и грязного решения специальной проблемы, используйте анализатор HTML!

Как остановить это сначала на самой подстроке? @JohnB
Тем не менее я получаю содержание внутри ссылки. Спасибо попробую парсер HTML. Но я не хочу, чтобы содержимое внутри <A>. Так может ли анализатор HTML пренебрегать контентом внутри определенных тегов? @JohnB