Поскольку веб-страницы становятся все более сложными и позволяют внедрять все виды визуальных и звуковых сигналов, правильно ли я говорю, что мы не можем равномерно анализировать HTML-страницы для получения реального текста? Подумайте о том, чтобы взять случайную выборку веб-документов из Интернета, например, 500 документов (всего лишь число). Насколько я могу это сделать, мы не можем применять ни одного синтаксического анализатора, который обеспечит получение только "реального" текста веб-страницы, а не заголовков (дома, продуктов и т.д.), Различных заявлений о проблемах с копирайтом и других глупостей.
Конечно, мы можем (а) просмотреть все документы вручную и отметить интересующие теги, между которыми находится интересующий нас текст, или (б) дезинформировать HTML, используя автоматическую процедуру, где мы тщательно сопоставляем шаблоны и удаляем теги + контент, который мы не заинтересованы. Проблема с (а) заключается в том, что она становится невозможной для даже небольших коллекций, а для (б) мы не можем идентифицировать или предсказать теги, содержание которых мы интересуем.
Рассмотрите этот (а) призыв к соглашению или (б) способ спросить, знает ли кто, как это может быть разрешено и какое программное обеспечение должно использоваться.
Вместо написания парсера вы считали, что используете некоторые API-интерфейсы анализаторов контента? Читаемость - мой личный фаворит, и у них отличный API. Другие, такие как ViewText, также предоставляют API.