Я хочу разобрать html, чтобы вытащить определенные части, используя xpathSApply, но вызов xmlRoot возвращает элемент, имя которого является текстом всего документа:
> url <- "http://www.achaea.com/game/who"
> doc <- htmlParse(url)
> top <- xmlRoot(doc)
> xmlName(top)
Что отображает весь документ HTML для имени, а не имени корневого элемента. Может ли кто-нибудь сказать мне, в чем причина такого поведения? Я хочу, чтобы можно было вытащить отдельные имена в hrefs "honors".
Пытаться
xpathSApply(top, "//div[@id='content']//a", xmlValue)
Если вы хотите использовать ссылки
xpathSApply(top, "//div[@id='content']//a", xmlAttrs, "href")