PHP preg_match_all удаляет параметры URL на лету

Question

PHP preg_match_all удаляет параметры URL на лету

0

Я хочу получить только "чистую" версию URL без каких-либо параметров. IOW... если в URL-адресе есть вопросительный знак, удалите его и все после этого.

Вот моя текущая строка:

preg_match_all('/<a(.*?)href=("|\'|)(.*?)("|\'| )(.*?)>/s',$content,$ahref);

И просто для того, чтобы быть более ясным здесь... Я ожидаю, что этот URL (например):

/go/page/mobile_download_apps.html?&who=r,6GDewh28SCW3/fUSqmWqR_E9ljkcH1DheIMqgbiHjlX3OBDbskcuCZ22iDvk0zeZR7BEthcEaXGFWaQ4Burmd4eKuhMpqojjDE6BrCiUtLClkT32CejpMIdnqVOUmWBD

Было бы:

/go/page/mobile_download_apps.html

davidmarko 26 янв. 2015, в 01:56

Источник

1

Разве это не поможет? /(<a href=")(.*)(\?.*)/s (отсутствует некоторая информация, чтобы дать более подробный ответ ...)
Benoît 26 янв. 2015, в 00:30
1

@Benoît Бенуа Да, это так. Но только в этом примере, а не для других случаев, например, когда ? отсутствовал (И OP будет просто повторять эти вопросы регулярных выражений, не пытаясь понять, что они делают.)
mario 26 янв. 2015, в 00:32
0

Лучший способ - получить URL с помощью некоторого парсера DOM, а затем использовать регулярное выражение для удаления этой завершающей части ... т.е. получить все до первого ? => regex101.com/r/mD3sB1/1
Enissay 26 янв. 2015, в 00:36
0

Это очень легко удалить все после? но я спрашивал, можно ли сделать это на лету напрямую через регулярные выражения
davidmarko 26 янв. 2015, в 00:39
0

@Enissay Enissay полностью удалить его ... (не нужно захватывать)
davidmarko 26 янв. 2015, в 00:51
0

regex101.com/r/aO1uU3/2
Enissay 26 янв. 2015, в 01:05
0

Почему бы не использовать php.net/manual/en/function.parse-url.php
Book Of Zeus 26 янв. 2015, в 04:06

Показать ещё 5 комментариев

Теги:

php

string

regex

preg-match

preg-match-all

4 ответа

0

Вы имеете в виду это поведение:

<a\s+href\s*=\s*"\K[^"?]+


$result = preg_replace('/<a\s+href\s*=\s*"\K[^"?]+/im', '', $text);

Andie2302 25 янв. 2015, в 22:39

0

Как упоминалось в комментариях, вы не должны получать тег с регулярным выражением, вы должны использовать синтаксический анализатор. Тем не менее, здесь вы идете:

<a[^>]+href=("|')([^"'?]*)[^"']*\1[^>]*>

Демо: https://regex101.com/r/tV5pP8/3

AMDcze 25 янв. 2015, в 22:21

2

Обратные ссылки [^\1] не работают в классах символов.
mario 26 янв. 2015, в 01:05
0

Ах да, исправил это.
AMDcze 26 янв. 2015, в 01:14

-1

Оппс... Отсутствие концентрации с моей стороны :)

Решил его сам... (Это было очень просто)

Вот окончательная строка:

preg_match_all('/<a(.*?)href=("|\'|)(.*?)(\?|"|\'| )(.*?)>/s',$content,$ahref);

davidmarko 25 янв. 2015, в 23:13

Ещё вопросы

Разве это не поможет? /(<a href=")(.*)(\?.*)/s (отсутствует некоторая информация, чтобы дать более подробный ответ ...)
@Benoît Бенуа Да, это так. Но только в этом примере, а не для других случаев, например, когда ? отсутствовал (И OP будет просто повторять эти вопросы регулярных выражений, не пытаясь понять, что они делают.)
Лучший способ - получить URL с помощью некоторого парсера DOM, а затем использовать регулярное выражение для удаления этой завершающей части ... т.е. получить все до первого ? => regex101.com/r/mD3sB1/1
Это очень легко удалить все после? но я спрашивал, можно ли сделать это на лету напрямую через регулярные выражения
@Enissay Enissay полностью удалить его ... (не нужно захватывать)
Почему бы не использовать php.net/manual/en/function.parse-url.php
Обратные ссылки [^\1] не работают в классах символов.

Casimir et Hippolyte · Accepted Answer · 2015-01-25T23-16-00.000Z

С DOMDocument, strpos, substr:

$dom = new DOMDocument;
$dom->loadHTML($content);

$linkNodeList = $dom->getElementsByTagName('a');

foreach($linkNodeList as $linkNode) {
    $href = $linkNode->getAttribute('href');

    if ( false !== ($offset = strpos($href, '?')) )
        $linkNode->setAttribute('href', substr($href, 0, $offset));
}

$newContent = $dom->saveHTML();

или с взрывом:

$linkNode->setAttribute('href', explode('?', $href)[0]);