Вопросы с тегом 'nutch'

Nutch - хорошо продуманный, готовый к производству веб-гусеничный манипулятор. Nutch обеспечивает мелкозернистую конфигурацию, опираясь на структуры данных Apache Hadoop ™, которые отлично подходят для пакетной обработки.
3

Как просканировать веб-сайт с проверкой SAML с помощью ManifoldCF или nutch?

Я пытаюсь выполнить обход веб-сайта, а именно Google Site с помощью ManifoldCF, который имеет аутентификацию SAML и индексирует обходные данные в Apache Solr. Но когда я просматриваю URL-адрес, он передает мне 302 перенаправление на страницу входа, ...
08 авг. '16 в 14:07
5

Альтернативный веб-гудок для Nutch

Я пытаюсь создать специализированный веб-сайт поисковой системы, который индексирует ограниченное количество веб-сайтов. Решение, которое я придумал, это: используя Nutch в качестве веб-искателя, используя Solr в качестве поисковой системы, интер...
24 нояб. '10 в 17:24
3

Как создается агрегатор?

Скажем, я хочу объединить информацию, связанную с конкретной нишей из многих источников (может быть, путешествия, технологии или что-то еще). Как мне это сделать? У вас есть паук/искатель, который сканирует веб-страницы для поиска необходимой мне ин...
29 мая '09 в 22:36
3

Использование глушителя Nutch с Solr

Можно ли интегрировать сканер Apache Nutch с сервером индексов Solr? Edit: Один из наших разработчиков придумал решение из этих сообщений Запуск Nutch и Solr Обновление для запуска Nutch и Solr Ответ Да
17 окт. '08 в 8:32
2

файл не найден *

Мне нужно получить индекс lucene (созданный путем обхода нескольких веб-страниц с помощью Nutch), но он дает ошибку, показанную выше: java.io.FileNotFoundException: no segments* file found in org.apache.lucene.store.FSDirectory@/home/<path>: f...
27 сент. '10 в 8:06
2

Nutch Нет агентов, перечисленных в 'http.agent.name'

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) at org.apache.nutch.fetcher.Fetcher.fetc...
05 июл. '11 в 12:51
1

Интеграция Apache Nutch и Solr

Я попытался выполнить учебник по орехам, но с небольшим количеством проблем с файлом schema.xml. Мне сказали, чтобы орех предоставил схему моему проекту, в основном это... cp ${NUTCH_RUNTIME_HOME}/conf/schema.xml ${APACHE_SOLR_HOME}/example/solr/co...
11 апр. '13 в 10:02
2

получить ссылки от nutch

Я использую nutch 1.3 для сканирования веб-сайта. Я хочу получить список просканированных URL-адресов и URL-адреса, исходящие из страницы. Я получаю список обследований URL-адресов, используя команду readdb. bin/nutch readdb crawl/crawldb -dump fil...
15 сент. '11 в 2:13
2

nutch vs solr indexing

Недавно я начал работать над nutch, и я пытаюсь понять, как это работает. Насколько я знаю, Nutch в основном используется для сканирования в Интернете, а solr/Lucene используется для индексации и поиска. Но когда я читаю документацию по ореху, он гов...
01 июн. '12 в 5:18
1

Как продлить действие Nutch для обхода статьи

Я ищу фреймворк для захвата статей, затем я нашел Nutch 2.1. Здесь мой план и вопросы в каждом: 1 Добавить страницы списка статей в url/seed.txt   Вот одна проблема. То, что я действительно хочу индексировать, это страницы статей, а не страницы спи...
15 дек. '12 в 15:13
1

Как запустить apache несколько разных задач параллельно

Я использую nutch 2.3. Все задания запускаются один за другим, т.е. Первый генератор, выборка, анализ, индекс и т.д. Я хочу запускать несколько заданий одновременно. Я знаю, что некоторые задания не могут выполняться параллельно, но другие могут, нап...
05 мая '15 в 6:35
1

Apache Nutch - Проблемы с путями

Я пытаюсь настроить Apache Nutch на обход URL-адресов, следуя этому руководству. Будучи старшим гидом (руководство для 1.x, я использую 2.3), я внес необходимые изменения в структуру. Однако, когда я пытаюсь запустить обход, я получаю эту ошибку: ro...
15 нояб. '15 в 8:50
1

может найти или загрузить основной класс org.apache.nutch.crawl.InjectorJob

Я использую Linux с Hadoop, Cloudera и HBase. Не могли бы вы рассказать мне, как исправить эту ошибку? Ошибка: could to find or load main class org.apache.nutch.crawl.InjectorJob Следующая команда дала мне ошибку: src/bin/nutch inject crawl/crawl...
09 мар. '15 в 9:27
0

Проблемы с Nutch, выполняющие сканирование в Windows

Я пытаюсь заставить nutch 1.11 выполнить сканирование. Я использую cygwin для запуска этих команд в Windows 8. Я поместил банку hasoop-core в папку lib, но когда я пытаюсь запустить обход, я получаю: Исключение в потоке "main" java.lang.NoSuchMeth...
12 мая '16 в 8:48
2

Nutch: Вызывать в Java, а не в командной строке?

Неужели я толстый или нет никакого способа вызывать Apache Nutch через некоторый код Java программным путем? Где находится документация (или руководство или учебник) о том, как это сделать? Google провалил меня. Поэтому я действительно попробовал Bin...
24 мар. '11 в 14:50