Как получить все внешние ссылки на всех страницах HTML

0

мне нужно найти все страницы перехода, которые мы размещаем на моем корпоративном портале, например, когда пользователь обращается к внешней ссылке при нажатии ссылки c-ref или ссылки, где у нас есть страница, которая информирует пользователя о том, что они перенаправляются на внешний сайт,

я искал и нашел это

egrep -o "(mailto|ftp|http(s)?://){1}[^'\"]+" /path/to/file

но -o не работает для меня, может ли кто-нибудь сказать мне обходное решение... и я также пробовал это

find . -type f -name "*.html" -exec grep -i "http:" {} '+' > ~/result_invoi3.txt

он создал большой файл ссылок, но, поскольку я не знаю unix, поэтому я не могу быть уверен, правильно это или нет. Кроме того, мне нужно добавить mailto и ftp.

Может кто-нибудь, пожалуйста, помогите..

  • 0
    Как эта Java связана?
Теги:
grep

1 ответ

0
Лучший ответ

нашел решение,

Сначала сделайте это

find . -type f -name "*.html" -exec egrep -in "http:|mailto:" {} '+' > ~/inv_all.txt

а потом

 egrep -in "http|mailto" inv_all.txt|egrep -iv "wtever.com" > ~/inv_final.txt

Ещё вопросы

Сообщество Overcoder
Наверх
Меню