сканировать список сайтов один за другим с помощью scrapy

Question

сканировать список сайтов один за другим с помощью scrapy

1

Я пытаюсь выполнить сканирование списка сайтов с помощью scrapy. Я попытался разместить список URL-адресов веб-сайта как start_urls, но потом я обнаружил, что не могу позволить себе так много памяти. Есть ли способ установить scrapy сканирование одного или двух сайтов за раз?

David Thompson 12 янв. 2013, в 20:22

Источник

Теги:

python

scrapy

web-crawler

screen-scraping

2 ответа

0

Вы можете определить метод start_requests, который выполняет итерацию с помощью запросов к вашим URL-адресам. Это должно избегать накладных расходов при одновременном хранении всех исходных URL-адресов в памяти и является самым простым подходом к решению описанной вами проблемы.

Если по-прежнему много URL-адресов для хранения в памяти во время обхода, вы можете включить поддержку сохранения.

Если вы действительно хотите подавать только несколько URL-адресов, это возможно, зарегистрировавшись для сигнала spider_idle и в вашем обратном вызове функции добавьте следующие несколько URL-адресов и поднимите DontCloseSpider.

Shane Evans 13 янв. 2013, в 16:18

0

Благодарю. Я попробовал start_requests и итератор внутри него, но это не помогло. Из журнала я заметил, что паук все еще сканировал несколько доменов, прежде чем углубился. Я понимаю, что постоянная поддержка предназначена для хранения того, что переполз паук, поэтому в следующий раз, когда паук может начать с него, это может быть не тот случай, который я ищу. Если я не правильно понял, пожалуйста, поправьте меня. Можете ли вы рассказать больше о третьем подходе с сигналом spider_idle? У меня ограниченный опыт в области скрапа.
David Thompson 13 янв. 2013, в 20:44
0

Я думал, что причиной не использовать start_urls было использование памяти? и в этом случае start_requests означает, что вам не нужно помещать все запросы в память. Поддержка постоянства позволяет избежать удержания невыполненных (еще не выполненных) запросов в памяти. Если вы хотите ограничить параллелизм и контроль порядка сканирования, это также возможно, но я не совсем понимаю, зачем вам это нужно и чего нужно достигать.
Shane Evans 13 янв. 2013, в 22:12
0

Единственная проблема, которую мне нужно решить, - это уменьшить потребление памяти с помощью списка сайтов. Я использовал start_requests и итератор внутри него, но паук все еще сканировал несколько URL-адресов доменов.
David Thompson 14 янв. 2013, в 03:51
0

а как было использование памяти? Вы, кажется, предполагаете, что сканирование URL-адресов из нескольких доменов вызывает проблемы с памятью, но это должно быть хорошо
Shane Evans 14 янв. 2013, в 12:12
0

память увеличивается пропорционально количеству веб-сайтов, которые я включаю в start_urls, поэтому я предполагаю, что сканирование URL-адресов из нескольких доменов вызывает проблемы с памятью.
David Thompson 15 янв. 2013, в 02:32
0

Мне запрещено публиковать вопросы, поэтому я не могу публиковать какие-либо вопросы. Я обращаюсь за помощью: - allowed_domains = ["fake1.com","fake2.com"] start_urls = ["http://www.fake1.com","http://www.fake2.com"] I хотел бы запустить scrapy по одному за другим URL из start_urls и разрешить одинаковые позиционированные / индексированные позволенные_домены. Пример: - когда scrapy загружает www.fake1.com, он должен рекурсивно загружать все внутренние ссылки, т.е. разрешить URL, который содержит только fake1.com
Vinodh Velumayil 13 июль 2015, в 12:29

Показать ещё 4 комментария

Ещё вопросы

Благодарю. Я попробовал start_requests и итератор внутри него, но это не помогло. Из журнала я заметил, что паук все еще сканировал несколько доменов, прежде чем углубился. Я понимаю, что постоянная поддержка предназначена для хранения того, что переполз паук, поэтому в следующий раз, когда паук может начать с него, это может быть не тот случай, который я ищу. Если я не правильно понял, пожалуйста, поправьте меня. Можете ли вы рассказать больше о третьем подходе с сигналом spider_idle? У меня ограниченный опыт в области скрапа.
Я думал, что причиной не использовать start_urls было использование памяти? и в этом случае start_requests означает, что вам не нужно помещать все запросы в память. Поддержка постоянства позволяет избежать удержания невыполненных (еще не выполненных) запросов в памяти. Если вы хотите ограничить параллелизм и контроль порядка сканирования, это также возможно, но я не совсем понимаю, зачем вам это нужно и чего нужно достигать.
Единственная проблема, которую мне нужно решить, - это уменьшить потребление памяти с помощью списка сайтов. Я использовал start_requests и итератор внутри него, но паук все еще сканировал несколько URL-адресов доменов.
а как было использование памяти? Вы, кажется, предполагаете, что сканирование URL-адресов из нескольких доменов вызывает проблемы с памятью, но это должно быть хорошо
память увеличивается пропорционально количеству веб-сайтов, которые я включаю в start_urls, поэтому я предполагаю, что сканирование URL-адресов из нескольких доменов вызывает проблемы с памятью.
Мне запрещено публиковать вопросы, поэтому я не могу публиковать какие-либо вопросы. Я обращаюсь за помощью: - allowed_domains = ["fake1.com","fake2.com"] start_urls = ["http://www.fake1.com","http://www.fake2.com"] I хотел бы запустить scrapy по одному за другим URL из start_urls и разрешить одинаковые позиционированные / индексированные позволенные_домены. Пример: - когда scrapy загружает www.fake1.com, он должен рекурсивно загружать все внутренние ссылки, т.е. разрешить URL, который содержит только fake1.com

user2134226 · Accepted Answer · 2013-01-14T05-56-00.000Z

Вы можете попробовать использовать concurrent_requests = 1, чтобы не перегружать данные

http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests