xmlRoot не возвращает допустимый элемент при разборе html-документа с использованием пакета XML в R

0

Я хочу разобрать html, чтобы вытащить определенные части, используя xpathSApply, но вызов xmlRoot возвращает элемент, имя которого является текстом всего документа:

> url <- "http://www.achaea.com/game/who"
> doc <- htmlParse(url)
> top <- xmlRoot(doc)
> xmlName(top)

Что отображает весь документ HTML для имени, а не имени корневого элемента. Может ли кто-нибудь сказать мне, в чем причина такого поведения? Я хочу, чтобы можно было вытащить отдельные имена в hrefs "honors".

  • 0
    Спасибо, Рэнди, вы правы, я вышел из RStudio, запустил его и получил ваши результаты. Похоже, у меня было какое-то взаимодействие с ранее выполненным кодом. Я должен был использовать rm на doc, чтобы иметь чистый лист. Это решает мою проблему.
  • 0
    Я подумал, что неправильно понял ваш вопрос и удалил комментарий ... во всяком случае, посмотрите, дает ли мой ответ то, что вы хотите.
Показать ещё 1 комментарий
Теги:
dom

1 ответ

1

Пытаться

xpathSApply(top, "//div[@id='content']//a", xmlValue)

Если вы хотите использовать ссылки

xpathSApply(top, "//div[@id='content']//a", xmlAttrs, "href")

Ещё вопросы

Сообщество Overcoder
Наверх
Меню