分类:Hadoop

Hadoop-Impala优化十大指导原则和最佳实践

2016-12-02 seeyouc 143℃

1.1  Hadoop-Impala优化十大指导原则和最佳实践 以下是性能准则和最佳做法。您可以使用在规划过程中实验,和hadoop集群一起进行impala的性能调整。所有这些信息也可在文档的其他地...

Hadoop-HDFS知识点汇总

2016-12-02 weixin_36607803 105℃

LINUX命令汇总: ipconfig  ----查看ip service network restart   ----重新启动网络 setup  ----setup是一个设置公用程序,提供图形...

基于hadoop的分布式分词程序(庖丁分词)

2016-12-01 gywtzh0889 74℃

一、使用的分词包——庖丁分词器介绍 1.1、简介: 庖丁系统是个完全基于lucene的中文分词系统,它就是重新建了一个analyzer,叫做PaodingAnalyzer,这个anal...

Hadoop分布式文件系统——HDFS数据流

2016-11-30 zhaojw_420 120℃

一、剖析文件读取 客户端及与之交互的HDFS、namenode和datanode之间的数据流。如图显示读取文件时事件的发生顺序。 1、客户端通过调用FileSyste对象的open方法来打开希...

Hadoop的HDFS概述

2016-11-29 wanghanlincsdn 79℃

Hadoop的HDFS HDFS设计思想   将数据存储到若干台单独的计算机上。 HDFS特点 1.存储超大文件 2.廉价硬件之上 3.一次写入,多次读取 HDFS架构 1.唯一的Na...

Hadoop研究综述

2016-11-23 leveretz 78℃

大数据时代对于数据分析?管理都提出了不同程度的新要求,许多传统的数据分析技术和数据库技术已经不足以满足现代数据应用的需求。为了给大数据处理分析提供一个性能更高?可靠性更好的平台,Doug Cutt...

Hadoop HA解析

2016-11-20 Pun_C 58℃

HDFS采用的是fsimage + edits的存储方式,fsimage是某个时间的内存文件系统镜像,edits是修改操作,每个修改操作称为一个事务,有一个整形的事务id指定。checkpoint的时...

Hadoop性能调优

2016-11-15 yzhang6_10 72℃

Hadoop性能调优1. 简介Hadoop性能调优不仅涉及Hadoop本身的性能调优,还涉及更底层的硬件、操作系统和Java虚拟机等系统的调优。具体包括以下四部分,系统对这几部分适当地进行调优均可能给...

Hadoop namenode 高可用性分析

2016-10-21 shenjiaxu 58℃

背景介绍 HDFS namenode 在接受写操作时会记录日志,最早 HDFS 日志写本地,每次重启或出现故障后重启,通过本地镜像文件+操作日志,就能还原到宕机之前的状态,不会出现数据不一致。如果要...

hadoop核心知识点总结

2016-10-15 wl1411956542 123℃

1、  安装hadoop需要配置的hadoop中的配置文件有哪些? hadoop-env.shyarn-env.shcore-site.xmlhdfs-site.xmlmapred-site...

Hadoop学习-安装

2016-09-24 jay763836801 92℃

一、hadoop介绍及其环境介绍1.1 Hadoop简介  Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distribute...

CDH5.7.2-Hadoop集群CentOS7下的搭建(离线安装)

2016-09-24 huxin008 206℃

说明:在本地虚拟机环境中进行CDH5.7.2集群的搭建,在搭建之前请先在虚拟机上装好三台CentOS7,三台内存分别为8g,2g,2g准备 JDK环境 版本:jdk-8u101-linux-x64...

Hadoop生态圈介绍

2016-09-22 English0523 95℃

【问】hadoop在生产环境下综合考虑的的数据块副本数多少 【答】默认3个,一般也是用3个副本的比较多,如果有特殊需求的话,可以根据自己需求添加副本数。 1. hadoop 生态概...

Hadoop技术内幕之RPC框架解析(下)

2016-09-20 owen1190 129℃

MapReduce 通信协议分析在Hadoop MapReduce中,不同组件之间的通信协议均是基于RPC的,因为它们,支撑起整个MapReduce系统。MapReduce通信协议概述在Hadoop1...

Hadoop技术内幕之RPC框架解析(上)

2016-09-19 owen1190 98℃

网络通信模块是分布式系统中最底层的模块。它直接支撑了上层分布式环境下复杂的进程间通信逻辑,是所有分布式系统的基础。远程过程调用(RPC)是一种常用的分布式网络通信协议。它允许运行于一台计算机的程序调用...