Вопросы с тегом 'web-crawler'

Веб-искатель (также известный как веб-паук) - это компьютерная программа, которая просматривает Всемирную паутину в методическом, автоматическом или упорядоченном виде. Другие термины для веб-сканеров - это муравьи, автоматические индексы, боты, веб-пауки, веб-роботы или, особенно в сообществе FOAF, - веб-опрокидывания.
4

сохранить rsync от удаления незаконченных исходных файлов

У меня две машины, скорость и масса. скорость имеет быстрое подключение к Интернету и запускает сканер, который загружает большое количество файлов на диск. масса имеет много дискового пространства. Я хочу переместить файлы со скоростью до массы посл...
07 сент. '08 в 14:56
2

Отправка "User-agent" с помощью библиотеки запросов в Python

Я хочу отправить значение для "User-agent" при запросе веб-страницы с использованием запросов Python. Я не уверен, что если это нормально, отправьте это как часть заголовка, как в приведенном ниже коде: debug = {'verbose': sys.stderr} user_agent = ...
15 мая '12 в 17:48
5

Как запросить Google пересканировать мой сайт?

Кто-нибудь знает, как подать запрос Google на повторный обход веб-сайта? Если это возможно, это не должно продолжаться несколько месяцев. Мой сайт показывает старое название в результатах поиска Google. Как я могу показать его с правильным названием ...
27 февр. '12 в 14:09
6

Разница между BeautifulSoup и искателем Scrapy?

Я хочу создать сайт, на котором показано сравнение цены на Amazon и e-bay. Какие из них будут работать лучше и почему? Я немного знаком с BeautifulSoup, но не с помощью Scraw crawler.
30 окт. '13 в 15:43
9

Обнаружение скрытых веб-сканеров

Какие существуют опции для обнаружения веб-сканеров, которые не хотят быть обнаружены? (Я знаю, что методы обнаружения списков позволят умному программисту-разработчику скрытности сделать лучшего паука, но я не думаю, что мы когда-либо будем блокиро...
24 окт. '08 в 11:46
10

как определить поисковые роботы с php?

Как можно обнаружить боты поисковой системы с помощью php?
24 мар. '09 в 13:34
4

Как передать пользовательский аргумент в scrapy spider

Я пытаюсь передать аргумент, определяемый пользователем, в scrapy spider. Может ли кто-нибудь предложить, как это сделать? Я читал о параметре -a где-то, но понятия не имею, как его использовать.
25 мар. '13 в 9:35
3

TypeError: нельзя использовать строковый шаблон для байтовоподобного объекта в re.findall()

Я пытаюсь узнать, как автоматически получать URL-адреса со страницы. В следующем коде я пытаюсь получить заголовок веб-страницы: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re...
21 июн. '15 в 5:24
8

Кто-нибудь знает хороший веб-искатель на основе Python, который я мог бы использовать?

Я испытываю недоумение писать свои собственные, но на самом деле у меня нет достаточно времени. Я видел список Wikipedia сканеры с открытым исходным кодом, но я бы предпочел что-то написанное на Python. Я понимаю, что я мог бы, вероятно, просто испол...
07 янв. '09 в 4:53
5

Как найти все ссылки/страницы на веб-сайте

Можно ли найти все страницы и ссылки на ЛЮБОЙ данный веб-сайт? Я хотел бы ввести URL-адрес и создать дерево каталогов всех ссылок с этого сайта? Я посмотрел на HTTrack, но это загружает весь сайт, и мне просто нужно дерево каталогов.
17 сент. '09 в 14:43
9

Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy

У меня есть проект scrapy, который содержит несколько пауков. Можно ли каким-либо образом определить, какие конвейеры использовать для какого-то паука? Не все конвейеры, которые я определил, применимы для каждого паука. Спасибо
04 дек. '11 в 2:08
10

Проектирование веб-искателя

Я столкнулся с вопросом интервью "Если бы вы разрабатывали веб-искателя, как бы вы избегали попадания в бесконечные циклы?", и я пытаюсь ответить на него. Как все начинается с самого начала. Скажем, Google начал с некоторых страниц-концентраторов ск...
29 апр. '11 в 16:37
6

В чем разница между веб-сканированием и веб-соскабливанием?

Есть ли разница между сканированием и веб-скребком? Если существует разница, какой лучший метод использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в настраиваемой поисковой системе?
01 дек. '10 в 17:54
5

Показатели загрузки PyPi кажутся нереалистичными

Я положил пакет на PyPi в первый раз ~ 2 месяца назад и с тех пор сделал некоторые обновления. На этой неделе я заметил запись отсчета загрузки и был удивлен, увидев, что ее скачали сотни раз. В течение следующих нескольких дней я был более удивлен, ...
10 мар. '12 в 16:23
10

Как написать сканера?

У меня были мысли о попытке написать простой искатель, который мог бы сканировать и составлять список его результатов для наших сайтов и контента на НКО. Есть ли у кого-нибудь мысли о том, как это сделать? Куда вы указываете поисковый робот для нача...
19 сент. '08 в 15:09