Вопросы с тегом 'hadoop'

Hadoop - это проект с открытым исходным кодом Apache, который обеспечивает программное обеспечение для надежных и масштабируемых распределенных вычислений. Ядро состоит из распределенной файловой системы (HDFS) и менеджера ресурсов (YARN). Различные другие проекты с открытым исходным кодом, такие как Apache Hive, используют Apache Hadoop в качестве уровня сохранения.
19
ответов

Разница между свиньей и улей? Почему оба?

Мой фон - 4 недели в мире Hadoop. Немного погрузился в Hive, Pig и Hadoop, используя Cloudera Hadoop VM. Прочтите документ Google на странице "Уменьшение карты" и "СГФ" (Ссылка в формате PDF). Я понимаю, что - Язык свиньи Свинья латынь - это смена...
задан 28 июля '10 в 21:42
6
ответов

В чем разница между Apache Spark и Apache Flink?

В чем разница между Apache Spark и Apache Flink? Будет ли Apache Flink заменить Hadoop?
задан 22 янв. '15 в 9:33
20
ответов

Hadoop "Невозможно загрузить встроенную библиотеку для вашей платформы"

В настоящее время я настраиваю hadoop на сервере, на котором запущены CentOs. Когда я запускаю start-dfs.sh или stop-dfs.sh, я получаю следующую ошибку: WARN util.NativeCodeLoader: невозможно загрузить библиотеку native-hadoop для ваша платформа.....
задан 13 нояб. '13 в 4:53
14
ответов

Когда использовать Hadoop, HBase, Hive и Pig?

В чем преимущества использования Hadoop или HBase или Hive? По моему мнению, HBase избегает использования map-reduce и имеет хранилище, ориентированное на столбцы, поверх HDFS. Hive представляет собой sql-подобный интерфейс для Hadoop и ...
задан 17 дек. '12 в 12:33
6
ответов

Apache Spark: количество ядер по сравнению с количеством исполнителей

Я пытаюсь понять взаимосвязь количества ядер и числа исполнителей при запуске задания Spark в YARN. Условия тестирования следующие: Количество узлов данных: 3 Данные node спецификация машины: CPU: Core i7-4790 (# из ядер: 4, # из потоков: 8) О...
задан 08 июля '14 в 3:46
12
ответов

Объединение нескольких заданий MapReduce в Hadoop

Во многих реальных ситуациях, когда вы применяете MapReduce, конечные алгоритмы заканчиваются несколькими шагами MapReduce. то есть. Map1, Reduce1, Map2, Reduce2 и т.д. Итак, у вас есть результат последнего сокращения, необходимого в качестве ввода...
задан 23 марта '10 в 14:55
6
ответов

Как записи процесса Hadoop разбиваются по границам блоков?

В соответствии с Hadoop - The Definitive Guide Логические записи, определяемые FileInputFormats, обычно не подходят аккуратно к блокам HDFS. Например, логические записи TextInputFormats - это строки, которые чаще пересекают границы HDFS. Это не вли...
задан 12 янв. '13 в 10:10
4
ответов

Разница между HBase и Hadoop/HDFS

Это наивный вопрос, но я новичок в парадигме NoSQL и мало знаю об этом. Поэтому, если кто-то может помочь мне четко понять разницу между HBase и Hadoop или дать некоторые указатели, которые могут помочь мне понять разницу. До сих пор я занимался нек...
задан 05 июня '13 в 3:49
15
ответов

Есть ли эквивалент .NET для Apache Hadoop?

Итак, я смотрел на Hadoop с большим интересом, и, честно говоря, я очарован, вещи не намного круче. Моя единственная незначительная проблема: я разработчик С# и это в Java. Это не то, что я не понимаю Java столько, сколько я ищу Hadoop.net или NHad...
задан 04 дек. '08 в 4:18
4
ответов

Как работает алгоритм сортировки MapReduce?

Одним из основных примеров, которые используются для демонстрации мощности MapReduce, является Тестер Terasort. У меня возникли проблемы с пониманием основ алгоритма сортировки, используемого в среде MapReduce. Для меня сортировка просто включает оп...
задан 20 июля '09 в 13:07
8
ответов

Имя node находится в безопасном режиме. Не в состоянии уйти

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. не удалось создать что-либо в hdfs Я сделал root# bin/hadoop fs -safemode leave Но по...
задан 04 апр. '13 в 8:34
6
ответов

Как скопировать файл из HDFS в локальную файловую систему

Как скопировать файл из HDFS в локальную файловую систему. Нет физического расположения файла под файлом, даже не каталога. как я могу перенести их в свой локальный для дальнейших валидаций. Я пробовал через winscp.
задан 24 июля '13 в 18:03
10
ответов

Spark - загрузить CSV файл как DataFrame?

Я хотел бы прочитать CSV в искровом режиме и преобразовать его в DataFrame и сохранить его в HDFS с помощью df.registerTempTable("table_name") Я пробовал: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Ошибка, которую я пол...
задан 17 апр. '15 в 19:10
6
ответов

В чем разница между разделением и балансировкой таблицы в Hive?

Я знаю, что оба выполняются в столбце таблицы, но как каждая операция отличается.
задан 02 окт. '13 в 5:09
10
ответов

Как отключить регистрацию INFO в PySpark?

Я установил Spark с помощью руководства AWS EC2, и я могу запустить программу с помощью bin/pyspark script, чтобы добраться до подсказки искры, а также успешно выполнить задачу быстрого запуска. Тем не менее, я не могу на всю жизнь понять, как оста...
задан 08 авг. '14 в 1:48