Как использовать Linq в C # для анализа веб-страницы с помощью htmlagilitypack?

Question

Как использовать Linq в C # для анализа веб-страницы с помощью htmlagilitypack?

1

Я пытаюсь найти учебное пособие в сети, которое объясняет, как анализировать веб-страницу (в Википедии я работаю), используя Linq... что-то вроде этого, использующее System.Linq:

var reviewBodyChildNodes = newsNode.ChildNodes
                                   .Single(x => x.Id == "review-body")
                                   .ChildNodes;

ИЛИ

newMovie.Title = div.Descendants()
                    .Where(i => 
                           i.Name == "h4" &&
                           i.GetAttributeValue("itemprop", "") == "name"
                    )
                    .FirstOrDefault()
                    .InnerText
                    .Trim();

Но все, что я нашел, это XmlDocument, который использует XML-данные в качестве примера и XmlElement... Как это отличается от предыдущей? Что мне здесь не хватает? Мне нужны некоторые объяснения, как на этой странице:

http://www.codeproject.com/Articles/691119/Html-Agility-Pack-Massive-information-extraction-f

Пожалуйста помоги.

James 19 май 2014, в 16:16

Источник

Теги:

c#

linq

visual-studio

screen-scraping

parsing

1 ответ

Ещё вопросы

n4gy3 · Answer 1 · 2014-05-19T14-31-00.000Z

Скребок веб-страницы специфичны для веб-страницы, с которой вы получаете данные. Я бы подумал, что для того, чтобы кто-то мог использовать htmlagilitypack, вам нужно было хорошо знать Linq и Regular Expressions. Я могу предложить несколько ресурсов, которые помогут вам в этом. Для обучения Linq мне нравится LinqPad, который является бесплатным инструментом с множеством примеров в С# Linq, Linq To XML, Regular Expressions.

Ссылка: https://www.linqpad.net/