Получить конкретные ссылки в HTML

Question

Получить конкретные ссылки в HTML

0

прекрасные люди. Я пытаюсь получить массив Perl файлов, к которым привязан HTML файл. Я все еще довольно новичок в Perl, и я в значительной степени не знаком с HTML, поэтому, пожалуйста, несите меня. Некоторые из файлов отмечены звездочкой (*), за пределами текста ссылки, что указывает на то, что файл регулярно обновляется. Я хочу только извлекать ссылки на файлы, которые регулярно обновляются. HTML файл выглядит следующим образом:

<tr>
    <td height="34" nowrap width="170">
    <a href="/Files/link1.pdf">Link 1</a>*</td>
</tr>

<!--
<tr>
    <td height="34" nowrap width="170">
    <a href="/Files/link2.pdf">Link 2</a>*</td>
</tr>
-->

<tr>
    <td height="34" nowrap width="170">
    <a href="/Files/link3.pdf">Link 3</a>
    *</td>
</tr>

<tr>
    <td height="34" nowrap width="170">
    <a href="/Files/link4.pdf">Link 4</a></td>
</tr>

Так что я хочу в моем массиве - это URL для ссылок 1 и 3, которые помечены как обновление звездочкой, но не 2, потому что это в комментарии, а не 4, потому что у него нет звездочки. Я попробовал следующее на основе принятого ответа на этот вопрос:

use strict;
use warnings;
use WWW::Mechanize;

my $page = "file://server/web/site.htm";

my $mech = WWW::Mechanize->new();
$mech->get($page);

my @links = $mech->links();
my @urls;

for my $lnk (@links) {
    push(@urls, $lnk->url);
}

Я все еще получаю ссылку # 2, хотя это в комментарии. Кроме того, я не знаю, где начать с только push ING в связи со звездочкой, тем более, что звездочка для связи № 3 находится на новой линии. Я изначально пробовал это с использованием регулярных выражений и без использования WWW :: Mechanize, но мне не удалось получить звездочку на следующей строке.

use strict;
use warnings;

my $html = do {
    local $/ = undef;
    open(my $fh, "<", "file") || die $!;
    <$fh>;
};

$html =~ s/(<!--)+.*(-->)+//;

my @urls = ($html =~ /\bhref[ ]?=[ ]?"([^"]+)".*\*/gc);

Это будет получать ссылки 1 и 2, но не 3. Это получает ссылки в комментариях, потому что, видимо, мое нахождение и замена regex не работает, как я ожидаю.

Итак, как мне получить только выделенные ссылки и пропустить прокомментированные? Я открыт для любых идей вообще - возможно, мой подход от выхода был неправильным. Любая помощь, понимание или направление были бы фантастическими. Большое спасибо всем вам!

Alex A. 20 дек. 2013, в 22:09

Источник

3

Regex - это, вероятно, не тот путь, которым нужно ... использовать настоящий HTML-парсер .
ThisSuitIsBlackNot 20 дек. 2013, в 20:16
2

Пони, это приходит ...
everton 20 дек. 2013, в 20:21
0

CPAN имеет довольно полный анализатор HTML . Используй это.
Jim Garrison 20 дек. 2013, в 20:21
0

@ThisSuitIsBlackNot: Ответ на странице об использовании регулярных выражений для анализа HTML, данный Кейтлин Дак Шервуд, более точно описывает мою ситуацию. Я не разбираю произвольный HTML; У меня есть ограниченный, известный набор HTML, который отформатирован, как в моем примере. Принятый ответ на этот вопрос прекрасно работает в моей ситуации.
Alex A. 20 дек. 2013, в 20:42
1

Справедливо. Однако, это, вероятно, не тот случай для многих пользователей, которые появятся на этой странице в будущем. Они заслуживают предупреждения о возможных подводных камнях подхода регулярных выражений (хотя конкретный ответ, на который я ссылаюсь, является просто юмористическим выражением этого).
ThisSuitIsBlackNot 20 дек. 2013, в 20:45
0

@ThisSuitIsBlackNot: Согласен. +1 за указание на это. Можете ли вы дать ответ, который использует альтернативный метод, подходящий для более широко применимых случаев? До сих пор мне не повезло с использованием HTML :: Parser.
Alex A. 20 дек. 2013, в 21:37
0

Я поработаю над ответом, хотя, вероятно, я не смогу писать до следующей недели.
ThisSuitIsBlackNot 20 дек. 2013, в 22:11
0

@ThisSuitIsBlackNot: Звучит отлично, но вы не должны делать эту работу за меня. :) Если вы можете предоставить какую-либо схему того, как будет использоваться HTML :: Parser, тогда я могу разработать его и опубликовать полный ответ, как только я закончу.
Alex A. 20 дек. 2013, в 22:22

Показать ещё 6 комментариев

Теги:

html

regex

perl

2 ответа

1

Основываясь на вашем примере, он должен работать.

$html =~ s/<!--.*?-->//sg;
my @urls = ($html =~ /\bhref\s*=\s*"([^"]*)"[^>]*>[^<]*<\/a>\s*\*/sg);
## my @urls = ($html =~ /<a\s+[^>]*href\s*=\s*"([^"]*)"[^>]*>[^<]*<\/a>\s*\*/sg);

Sabuj Hassan 20 дек. 2013, в 18:05

2

если текстовая ссылка содержит теги, [^<]* завершится ошибкой. Поскольку вы используете модификатор /s , вы можете заменить его на .*?
Casimir et Hippolyte 20 дек. 2013, в 20:31
1

@sabuj hassan: Использование ваших модифицированных регулярных выражений сделало эту работу отлично. Спасибо!
Alex A. 20 дек. 2013, в 20:36

Ещё вопросы

Regex - это, вероятно, не тот путь, которым нужно ... использовать настоящий HTML-парсер .
CPAN имеет довольно полный анализатор HTML . Используй это.
@ThisSuitIsBlackNot: Ответ на странице об использовании регулярных выражений для анализа HTML, данный Кейтлин Дак Шервуд, более точно описывает мою ситуацию. Я не разбираю произвольный HTML; У меня есть ограниченный, известный набор HTML, который отформатирован, как в моем примере. Принятый ответ на этот вопрос прекрасно работает в моей ситуации.
Справедливо. Однако, это, вероятно, не тот случай для многих пользователей, которые появятся на этой странице в будущем. Они заслуживают предупреждения о возможных подводных камнях подхода регулярных выражений (хотя конкретный ответ, на который я ссылаюсь, является просто юмористическим выражением этого).
@ThisSuitIsBlackNot: Согласен. +1 за указание на это. Можете ли вы дать ответ, который использует альтернативный метод, подходящий для более широко применимых случаев? До сих пор мне не повезло с использованием HTML :: Parser.
Я поработаю над ответом, хотя, вероятно, я не смогу писать до следующей недели.
@ThisSuitIsBlackNot: Звучит отлично, но вы не должны делать эту работу за меня. :) Если вы можете предоставить какую-либо схему того, как будет использоваться HTML :: Parser, тогда я могу разработать его и опубликовать полный ответ, как только я закончу.
если текстовая ссылка содержит теги, [^<]* завершится ошибкой. Поскольку вы используете модификатор /s , вы можете заменить его на .*?
@sabuj hassan: Использование ваших модифицированных регулярных выражений сделало эту работу отлично. Спасибо!

Alex A. · Accepted Answer · 2013-12-23T16-33-00.000Z

В моем примере звездочка обозначает файл, который регулярно обновляется, и звездочки живут в тегах td. Я определил, как извлечь эти файлы, используя HTML :: TokeParser.

use strict;
use warnings;
use HTML::TokeParser;

my $html = HTML::TokeParser->new("file.html");

my @urls;

while(my $td = $html->get_tag("td")) {
    my $txt = $html->get_trimmed_text("/td");
    my $url = $html->get_tag("a")->[1]{href};
    if ($txt =~ /\*/) {
        push(@urls, $url);
    }
}

Спасибо @sabujhassan за ваше рабочее решение и спасибо @ThisSuitIsBlackNot за то, что он побудил меня к применению более общеприменимого решения.