Регулярное выражение для захвата и хранения URL

Question

Регулярное выражение для захвата и хранения URL

0

Я очень новичок в Perl, и я пытаюсь собрать ссылки и изображения с веб-сайта. В настоящее время я читаю о регулярных выражениях, и до сих пор мне удалось получить строки html, содержащие ссылки или изображения (по крайней мере, я так считаю) с

/<img src|<a href/i     #I'm just comparing every line of html to this

Но как я могу захватить и сохранить фактический URL? В основном, чтобы сделать что-то вроде этого:

<img src="http://i1.nyt.com/images/2014/03/23/us/23marriage2/23marriage2-largeHorizontal375.jpg"

В этом:

http://i1.nyt.com/images/2014/03/23/us/23marriage2/23marriage2-largeHorizontal375.jpg

Dodidly 23 март 2014, в 01:18

Источник

0

Вы можете рассмотреть синтаксический анализ данных, а не рассматривать их как текстовую строку, чтобы сопоставить регулярные выражения. Существует намного больше перестановок HTML, чем когда-либо сможет найти любое регулярное выражение. search.cpan.org/~msergeant/XML-Parser-2.36/Parser.pm
Daniel Farrell 22 март 2014, в 23:48

Теги:

html

regex

web-scraping

perl

3 ответа

1

Одним из наиболее современных веб-клиентов и парсеров является Mojo::UserAgent и Mojo::DOM. Есть 8-минутная веб-трансляция, в которой очень хорошая работа по представлению своих возможностей: MojoCast episode 5

Чтобы вытащить все ссылки и изображения из вашего запрошенного примера, необходимо следующее:

use strict;
use warnings;

use Mojo::UserAgent;

my $ua = Mojo::UserAgent->new;
my $dom = $ua->get('http://www.nytimes.com')->res->dom;

# Print all href's
for my $href ($dom->find('a')->attr('href')->each) {
    print "$href\n";
}

# Print all img src's
for my $img ($dom->find('img')->attr('src')->each) {
    print "$img\n";
}

Примечание: эти модули включены в базовую установку Mojolicious

Miller 23 март 2014, в 07:09

0

Быстрая и грязная: /(<img src|<a href)="([^"]*?)"/i тогда вы должны использовать вторую группу захвата (вторая группа круглых скобок).

Xavier Rubio Jansana 22 март 2014, в 20:54

0

Кстати, это регулярное выражение не пытается захватить действительный URL, оно соответствует всему, что находится внутри "" (до следующего "").
Xavier Rubio Jansana 22 март 2014, в 23:41
0

Отредактировано: я забыл * повторить, чтобы соответствовать 0 или более символов. Также добавлено? сделать это не жадным.
Xavier Rubio Jansana 22 март 2014, в 23:43
1

Также не работает, если есть какие-либо другие атрибуты между '<img | <a' и 'src | href 'соответственно.
Daniel Farrell 22 март 2014, в 23:43
0

Я знаю, поэтому быстро и грязно;)
Xavier Rubio Jansana 22 март 2014, в 23:45
0

Вы также должны удалить <img и <a, потому что раньше могут быть некоторые атрибуты ;-)
rjanjic 22 март 2014, в 23:47
0

@ user1934618 Я не понимаю, что ты имеешь в виду.
Xavier Rubio Jansana 22 март 2014, в 23:54
0

Я имею в виду, например, <a class = "asdf" href = "... / (src | href) =" ([^ "] *?)" / Ig
rjanjic 22 март 2014, в 23:55
0

Я пытаюсь проверить, работает ли он или нет, или я поступаю неправильно. Я попытался сделать push @array, /(<img src|<a href)="([^"]*?)"\i затем распечатать этот массив, как только я закончу цикл, и все, что я получаю, это очень небольшое количество html с без кавычек ... <href материал все еще там, просто без кавычек.
Dodidly 23 март 2014, в 00:10
0

Я пытаюсь сделать это с домашней страницей nytimes, и когда я попытался распечатать этот массив, все, что я получил, было как 10 ссылок
Dodidly 23 март 2014, в 00:16

Показать ещё 7 комментариев

Ещё вопросы

Вы можете рассмотреть синтаксический анализ данных, а не рассматривать их как текстовую строку, чтобы сопоставить регулярные выражения. Существует намного больше перестановок HTML, чем когда-либо сможет найти любое регулярное выражение. search.cpan.org/~msergeant/XML-Parser-2.36/Parser.pm
Кстати, это регулярное выражение не пытается захватить действительный URL, оно соответствует всему, что находится внутри "" (до следующего "").
Отредактировано: я забыл * повторить, чтобы соответствовать 0 или более символов. Также добавлено? сделать это не жадным.
Также не работает, если есть какие-либо другие атрибуты между '<img | <a' и 'src | href 'соответственно.
Вы также должны удалить <img и <a, потому что раньше могут быть некоторые атрибуты ;-)
@ user1934618 Я не понимаю, что ты имеешь в виду.
Я имею в виду, например, <a class = "asdf" href = "... / (src | href) =" ([^ "] *?)" / Ig
Я пытаюсь проверить, работает ли он или нет, или я поступаю неправильно. Я попытался сделать push @array, /(<img src|<a href)="([^"]*?)"\i затем распечатать этот массив, как только я закончу цикл, и все, что я получаю, это очень небольшое количество html с без кавычек ... <href материал все еще там, просто без кавычек.
Я пытаюсь сделать это с домашней страницей nytimes, и когда я попытался распечатать этот массив, все, что я получил, было как 10 ссылок

M Somerville · Accepted Answer · 2014-03-22T21-50-00.000Z

В общем, я рекомендую использовать что-то вроде, например, HTML :: TreeBuilder, а не регулярные выражения для синтаксического анализа HTML.

Говоря это, вы можете, конечно, попробовать и использовать регулярные выражения, чтобы получить то, что вам нужно, но это очень зависит от вашего исходного материала. Что-то, что в общем случае захватило бы img src или href, было бы чем-то вроде (например, такие вещи, как, например, двойные кавычки, которые будут использоваться, и будут намного более хрупкими, чем решение для синтаксического анализа):

/<img[^>]*?src="([^"]*)"|<a[^>]*?href="([^"]*)"/i

Затем, если он совпадает, URL-адрес изображения будет равен $1, или ссылка будет равна $2.