Вопросы с тегом 'hadoop'

Hadoop - это проект с открытым исходным кодом Apache, который обеспечивает программное обеспечение для надежных и масштабируемых распределенных вычислений. Ядро состоит из распределенной файловой системы (HDFS) и менеджера ресурсов (YARN). Различные другие проекты с открытым исходным кодом, такие как Apache Hive, используют Apache Hadoop в качестве уровня сохранения.
19 отв.

Разница между свиньей и улей? Почему оба?

Мой фон - 4 недели в мире Hadoop. Немного погрузился в Hive, Pig и Hadoop, используя Cloudera Hadoop VM. Прочтите документ Google на странице "Уменьшение карты" и "СГФ" (Ссылка в формате PDF). Я понимаю, что - Язык свиньи Свинья латынь - это смена...
28 июля '10 в 21:42
6 отв.

В чем разница между Apache Spark и Apache Flink?

В чем разница между Apache Spark и Apache Flink? Будет ли Apache Flink заменить Hadoop?
22 янв. '15 в 9:33
20 отв.

Hadoop "Невозможно загрузить встроенную библиотеку для вашей платформы"

В настоящее время я настраиваю hadoop на сервере, на котором запущены CentOs. Когда я запускаю start-dfs.sh или stop-dfs.sh, я получаю следующую ошибку: WARN util.NativeCodeLoader: невозможно загрузить библиотеку native-hadoop для ваша платформа.....
13 нояб. '13 в 4:53
14 отв.

Когда использовать Hadoop, HBase, Hive и Pig?

В чем преимущества использования Hadoop или HBase или Hive? По моему мнению, HBase избегает использования map-reduce и имеет хранилище, ориентированное на столбцы, поверх HDFS. Hive представляет собой sql-подобный интерфейс для Hadoop и ...
17 дек. '12 в 12:33
6 отв.

Apache Spark: количество ядер по сравнению с количеством исполнителей

Я пытаюсь понять взаимосвязь количества ядер и числа исполнителей при запуске задания Spark в YARN. Условия тестирования следующие: Количество узлов данных: 3 Данные node спецификация машины: CPU: Core i7-4790 (# из ядер: 4, # из потоков: 8) О...
08 июля '14 в 3:46
14 отв.

Как отключить ведение журнала INFO в Spark?

Я установил Spark с помощью руководства AWS EC2, и я могу запустить программу с помощью bin/pyspark script, чтобы добраться до подсказки искры, а также успешно выполнить задачу быстрого запуска. Тем не менее, я не могу на всю жизнь понять, как оста...
08 авг. '14 в 1:48
7 отв.

В чем разница между разделением и балансировкой таблицы в Hive?

Я знаю, что оба выполняются в столбце таблицы, но как каждая операция отличается.
02 окт. '13 в 5:09
12 отв.

Объединение нескольких заданий MapReduce в Hadoop

Во многих реальных ситуациях, когда вы применяете MapReduce, конечные алгоритмы заканчиваются несколькими шагами MapReduce. то есть. Map1, Reduce1, Map2, Reduce2 и т.д. Итак, у вас есть результат последнего сокращения, необходимого в качестве ввода...
23 марта '10 в 14:55
7 отв.

Как скопировать файл из HDFS в локальную файловую систему

Как скопировать файл из HDFS в локальную файловую систему. Нет физического расположения файла под файлом, даже не каталога. как я могу перенести их в свой локальный для дальнейших валидаций. Я пробовал через winscp.
24 июля '13 в 18:03
6 отв.

Как записи процесса Hadoop разбиваются по границам блоков?

В соответствии с Hadoop - The Definitive Guide Логические записи, определяемые FileInputFormats, обычно не подходят аккуратно к блокам HDFS. Например, логические записи TextInputFormats - это строки, которые чаще пересекают границы HDFS. Это не вли...
12 янв. '13 в 10:10
12 отв.

Spark - загрузить CSV файл как DataFrame?

Я хотел бы прочитать CSV в искровом режиме и преобразовать его в DataFrame и сохранить его в HDFS с помощью df.registerTempTable("table_name") Я пробовал: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Ошибка, которую я пол...
17 апр. '15 в 19:10
4 отв.

Разница между HBase и Hadoop/HDFS

Это наивный вопрос, но я новичок в парадигме NoSQL и мало знаю об этом. Поэтому, если кто-то может помочь мне четко понять разницу между HBase и Hadoop или дать некоторые указатели, которые могут помочь мне понять разницу. До сих пор я занимался нек...
05 июня '13 в 3:49
15 отв.

Есть ли эквивалент .NET для Apache Hadoop?

Итак, я смотрел на Hadoop с большим интересом, и, честно говоря, я очарован, вещи не намного круче. Моя единственная незначительная проблема: я разработчик С# и это в Java. Это не то, что я не понимаю Java столько, сколько я ищу Hadoop.net или NHad...
04 дек. '08 в 4:18
4 отв.

Как работает алгоритм сортировки MapReduce?

Одним из основных примеров, которые используются для демонстрации мощности MapReduce, является Тестер Terasort. У меня возникли проблемы с пониманием основ алгоритма сортировки, используемого в среде MapReduce. Для меня сортировка просто включает оп...
20 июля '09 в 13:07
15 отв.

Не удалось найти двоичный файл winutils в двоичном пути hadoop

Я получаю следующую ошибку при запуске namenode для последней версии hadoop-2.2. Я не нашел exe файл winutils в папке bin-bin. Я попытался выполнить команды $ bin/hdfs namenode -format $ sbin/yarn-daemon.sh start resourcemanager ERROR [main] util.S...
27 окт. '13 в 19:49