Разбор HTML - Сохранение только реального текста?

0

Поскольку веб-страницы становятся все более сложными и позволяют внедрять все виды визуальных и звуковых сигналов, правильно ли я говорю, что мы не можем равномерно анализировать HTML-страницы для получения реального текста? Подумайте о том, чтобы взять случайную выборку веб-документов из Интернета, например, 500 документов (всего лишь число). Насколько я могу это сделать, мы не можем применять ни одного синтаксического анализатора, который обеспечит получение только "реального" текста веб-страницы, а не заголовков (дома, продуктов и т.д.), Различных заявлений о проблемах с копирайтом и других глупостей.

Конечно, мы можем (а) просмотреть все документы вручную и отметить интересующие теги, между которыми находится интересующий нас текст, или (б) дезинформировать HTML, используя автоматическую процедуру, где мы тщательно сопоставляем шаблоны и удаляем теги + контент, который мы не заинтересованы. Проблема с (а) заключается в том, что она становится невозможной для даже небольших коллекций, а для (б) мы не можем идентифицировать или предсказать теги, содержание которых мы интересуем.

Рассмотрите этот (а) призыв к соглашению или (б) способ спросить, знает ли кто, как это может быть разрешено и какое программное обеспечение должно использоваться.

  • 2
    Нет способа сделать это автоматически. НЕТ стандартного тэга или метода сообщения кому-либо «здесь начинается настоящий контент» в HTML-документе. Либо вы вручную анализируете файлы, чтобы определить интересные места (и надеетесь, что сайт, к которому этот файл подходит, соответствует месту размещения), либо вы смирились с тем, что у вас полная база бесполезного мусора, или МНОГО ручной работы.
  • 0
    Обычно «реальный контент» сайта отображается только при печати. Может, обмануть браузер в режиме печати + OCR? Просто смутная идея ... Если вы ищете что-то твердое, вы вряд ли найдете это.
Показать ещё 1 комментарий
Теги:
tags
parsing

1 ответ

0
Лучший ответ

Вместо написания парсера вы считали, что используете некоторые API-интерфейсы анализаторов контента? Читаемость - мой личный фаворит, и у них отличный API. Другие, такие как ViewText, также предоставляют API.

  • 0
    Это хорошая идея. Спасибо за предложение.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню