Разбор HTML - Сохранение только реального текста?

Question

Разбор HTML - Сохранение только реального текста?

0

Поскольку веб-страницы становятся все более сложными и позволяют внедрять все виды визуальных и звуковых сигналов, правильно ли я говорю, что мы не можем равномерно анализировать HTML-страницы для получения реального текста? Подумайте о том, чтобы взять случайную выборку веб-документов из Интернета, например, 500 документов (всего лишь число). Насколько я могу это сделать, мы не можем применять ни одного синтаксического анализатора, который обеспечит получение только "реального" текста веб-страницы, а не заголовков (дома, продуктов и т.д.), Различных заявлений о проблемах с копирайтом и других глупостей.

Конечно, мы можем (а) просмотреть все документы вручную и отметить интересующие теги, между которыми находится интересующий нас текст, или (б) дезинформировать HTML, используя автоматическую процедуру, где мы тщательно сопоставляем шаблоны и удаляем теги + контент, который мы не заинтересованы. Проблема с (а) заключается в том, что она становится невозможной для даже небольших коллекций, а для (б) мы не можем идентифицировать или предсказать теги, содержание которых мы интересуем.

Рассмотрите этот (а) призыв к соглашению или (б) способ спросить, знает ли кто, как это может быть разрешено и какое программное обеспечение должно использоваться.

user1938803 13 апр. 2014, в 18:28

Источник

2

Нет способа сделать это автоматически. НЕТ стандартного тэга или метода сообщения кому-либо «здесь начинается настоящий контент» в HTML-документе. Либо вы вручную анализируете файлы, чтобы определить интересные места (и надеетесь, что сайт, к которому этот файл подходит, соответствует месту размещения), либо вы смирились с тем, что у вас полная база бесполезного мусора, или МНОГО ручной работы.
Marc B 13 апр. 2014, в 16:13
0

Обычно «реальный контент» сайта отображается только при печати. Может, обмануть браузер в режиме печати + OCR? Просто смутная идея ... Если вы ищете что-то твердое, вы вряд ли найдете это.
Wesley Murch 13 апр. 2014, в 16:22
0

Что ты вообще здесь делаешь?
Wesley Murch 13 апр. 2014, в 16:24

Показать ещё 1 комментарий

Теги:

html

1 ответ

Ещё вопросы

Нет способа сделать это автоматически. НЕТ стандартного тэга или метода сообщения кому-либо «здесь начинается настоящий контент» в HTML-документе. Либо вы вручную анализируете файлы, чтобы определить интересные места (и надеетесь, что сайт, к которому этот файл подходит, соответствует месту размещения), либо вы смирились с тем, что у вас полная база бесполезного мусора, или МНОГО ручной работы.
Обычно «реальный контент» сайта отображается только при печати. Может, обмануть браузер в режиме печати + OCR? Просто смутная идея ... Если вы ищете что-то твердое, вы вряд ли найдете это.

Deepak Thomas · Accepted Answer · 2014-04-13T14-25-00.000Z

Вместо написания парсера вы считали, что используете некоторые API-интерфейсы анализаторов контента? Читаемость - мой личный фаворит, и у них отличный API. Другие, такие как ViewText, также предоставляют API.

Это хорошая идея. Спасибо за предложение.