首页 > hdfs

标签:hdfs

后台-系统设置-扩展变量-手机广告位-栏目顶部广告位
  • Hive表数据量统计原理和源码分析

    在Hive explain获得执行计划时,经常会看到如下图所示的表数据量统计:那么这个数据量,Hive是如何统计出来的呢?一、Data size统计1.1、Hive源码在Hive通过Antlr语法解析器获取到SQL的抽象语法树(AST)并生成校验过元数据的逻辑执行计划后,在优化阶段会使用Statistics统计的规则(rule),如下图所示:在AnnotateWithStatistics这个类中,在对执行计划进行转化(transform)时会调用TableScanStatsRul...

  • Java写文件至HDFS失败

    各位大牛:

    本人在虚拟机上搭建了Hadoop环境,用的是伪cluster的模式搭建。通过Java调用Hadoop 的Api, 写文件至HDFS。

    把写好的代码拿到部署Hadoop的虚拟机上能...

    问答 2021-07-02 0 0 hadoop hdfs Java
  • Hadoop集群配置”

    Hadoop集群配置

    1、集群部署规划提醒:NameNode 和 SecondaryNameNode 不要安装在同一台服务器 ,(它们两个都需要耗内存,分开减少集群的压力)ResourceManager 也很消耗内存,不要和 NameNode、SecondaryNameNode 配置在同一台机器上。2、配置文件说明Hadoop 配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。2.1、默认配置文件2.2、自定义配置文件core-sit...

  • 为啥集群小文件治理那么重要,你真的懂吗?

    小文件是 Hadoop 的常见挑战,如果不小心处理,它们可能会导致许多并发症。Apache Hadoop 分布式文件系统 (HDFS) 旨在存储和处理 TB 和 PB 级的大型数据集。但是,HDFS 存储小文件效率低下,导致 Namenode 内存利用率和 RPC 调用效率低下,块扫描吞吐量下降,应用层性能降低。在这篇博文中,我们将定义小文件存储问题,并研究解决它的方法,同时避免复杂性。......

  • Hadoop-HDFS基础

    问题:提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,......

    云计算 2021-06-01 0 0 hdfs 大数据 hadoop
  • HDFS的API操作

    //使用API进行遍历 Configuration configuration = new Configuration(); configuration.set("fs.defaultFS","hdfs://node01:8020"); //get方法从con中获取fs.defaultFS的值判断是什么类型的文件系统对象,如果不做配置,默认为 本地系统文件对象 FileSystem...

    云计算 2021-06-01 0 0 hdfs
  • 基于Kafka+SparkStreaming+OushuDB搭建批流一体大数据分析架构”

    基于Kafka+SparkStreaming+OushuDB搭建批流一体大数据分析架构

    流式计算。Spark Streaming的实现非常简单,通过微批次将实时数据拆成一个个批处理任务,通过批处理的方式完成各个子Batch。Spark Streaming的API也非常简单灵活,既可以用DStream的java/scala API,也可以使用SQL定义处理逻辑。但Spark Streaming受限于微批次处理模型,业务方需要完成一个真正意义上的实时计算会非常困难,比如基于数据事件时间、数据晚到后的处理,都得用户进行大量编程实现。爱奇艺这边大量使用Spark Streaming的场景往往都在于实...

  • 文件存储 HDFS中SDK示例”

    文件存储 HDFS中SDK示例

    文件存储 HDFS中SDK示例本文列出了创建目录、删除目录、上传文件、下载文件、显示目录、写入文件,读取文件、测试等操作的SDK示例,您可以参考示例工程开发您的应用。准备工作已完成文件存储HDFS的配置已安装SDK在计算节点上安装JDK,版本不能低于1.8。在计算节点上安装hadoop,版本建议不低于2.7.2。配置maven的依赖配置。 <dependency> <groupId>org.apache.hadoop&am...

  • 大数据离线业务场景中的增量技术”

    大数据离线业务场景中的增量技术

    本文讲述大数据离线业务场景中的增量采集、增量处理、增量导出...

    云计算 2021-05-18 0 0 mysql hive hadoop hdfs shell
  • Sqoop基础”

    Sqoop基础

    本文讲述Sqoop基础...

  • 双层flume,中间件kafka,采集到hdfs并按日期分文件夹”

    双层flume,中间件kafka,采集到hdfs并按日期分文件夹

    1.架构要采集的日志位于hadoop102和hadoop103两个节点上,采集数据到kafka中,这是第一层flume。再从Kafka采集到hdfs中,这是第二层flume。2.第一层flume自定义拦截器,过滤非json数据import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import org.apache.flume.Context;import org.apache.flume.Event;...

  • MapReduce入门(一)—— MapReduce概述 + WordCount案例实操”

    MapReduce入门(一)—— MapReduce概述 + WordCount案例实操

    MapReduce入门(一)—— MapReduce概述MapReduce知识点总览图MapReduce入门(一)—— MapReduce 概述1.1 MapReduce 定义MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。1.2 MapReduce 优缺点1.2.1 优点1...

  • 【大数据学习知识点总结】关于Hadoop|HDFS|MapReduce的一些问题与解答”

    【大数据学习知识点总结】关于Hadoop|HDFS|MapReduce的一些问题与解答

    大数据处理技术 作业一、二、三专业班级:计算机科学与技术创新实验19-1班学生姓名及学号:沈奥-2019212368课程教学班号:大数据处理技术-001任 课 教 师:吴共庆指导教师:吴共庆2020~2021学年第 二 学期1、如何解除Hadoop系统的安全模式?答:(1)修改dfs.safemode.threshold.pct为一个比较小的值,默认缺省是0.999f。在hadoop的安装目录中的hdfs-site.xml 加修改的配...

  • HDFS入门(四)—— HDFS的读写流程(图文详解步骤2021)”

    HDFS入门(四)—— HDFS的读写流程(图文详解步骤2021)

    HDFS入门(四)—— HDFS的读写流程(图文详解步骤2021)文章目录HDFS入门(四)—— HDFS的读写流程(图文详解步骤2021)4.1 HDFS 写数据流程4.1.1 剖析文件 写入4.1.2 网络拓扑- 节点 距离计算4.1.3 机架 感知 (副本 存储 节点 选择)1 )机架感知说明2 )Hadoop3.1.3 副本节点选择4.2 HDFS 读数据流程4.1 HDFS 写数据流程4.1.1 剖析文件 写入借用尚硅谷的一个架构图:(1)客户端通过 Distribu...

  • HDFS入门(六)—— DataNode(图文详解步骤2021)”

    HDFS入门(六)—— DataNode(图文详解步骤2021)

    HDFS入门(六)—— DataNode(图文详解步骤2021)文章目录HDFS入门(六)—— DataNode(图文详解步骤2021)6.1 DataNode 工作机制6.2 数据 完整性数据完整性6.3 DataNode掉线时限参数设置6.1 DataNode 工作机制(1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode 启动后向 NameNode 注册,通过后,...

  • MapReduce实战-词频统计、文件合并排序”

    MapReduce实战-词频统计、文件合并排序

    MapReduce编程初级实践,线上linux环境实操。文章目录环境搭建词频统计输入源码输出合并输入源码输出排序输入源码输出...

  • HDFS入门(四)—— HDFS的读写流程(图文详解步骤2021)”

    HDFS入门(四)—— HDFS的读写流程(图文详解步骤2021)

    HDFS入门(四)—— HDFS的读写流程(图文详解步骤2021)文章目录HDFS入门(四)—— HDFS的读写流程(图文详解步骤2021)4.1 HDFS 写数据流程4.1.1 剖析文件 写入4.1.2 网络拓扑- 节点 距离计算4.1.3 机架 感知 (副本 存储 节点 选择)1 )机架感知说明2 )Hadoop3.1.3 副本节点选择4.2 HDFS 读数据流程4.1 HDFS 写数据流程4.1.1 剖析文件 写入借用尚硅谷的一个架构图:(1)客户端通过 Distribu...

  • centos7下cdh集群报错总结,环境CDH6.3.2+cm6.1,持续更新”

    centos7下cdh集群报错总结,环境CDH6.3.2+cm6.1,持续更新

    之前我的虚拟机用的都是ambari搭建的HDP,由于看到网上讲的和朋友讲的企业中用的一般是CDH,且CDH的稳定性和效率也会比较高。所以今晚就在虚拟机上搭建了CDH。(只不过我搭建的不是集群,只是在一个机器上搭建)具体搭建过程,我总结好了,可以私信我直接获取 cdh搭建的有道云笔记,有空再写上来。以下是相关的一些注意事项和错误总结!1.httpd无法进入,重启也不行的解决方法如果已经用启动命令了但是无法进入网页或者报错的话,排除端口开放问题和防火墙问题之后。那么先用yum卸载httpd和mod_ws...

  • centos7下cdh集群报错总结,环境CDH6.3.2+cm6.1,持续更新”

    centos7下cdh集群报错总结,环境CDH6.3.2+cm6.1,持续更新

    之前我的虚拟机用的都是ambari搭建的HDP,由于看到网上讲的和朋友讲的企业中用的一般是CDH,且CDH的稳定性和效率也会比较高。所以今晚就在虚拟机上搭建了CDH。(只不过我搭建的不是集群,只是在一个机器上搭建)具体搭建过程,我总结好了,可以私信我直接获取 cdh搭建的有道云笔记,有空再写上来。以下是相关的一些注意事项和错误总结!1.httpd无法进入,重启也不行的解决方法如果已经用启动命令了但是无法进入网页或者报错的话,排除端口开放问题和防火墙问题之后。那么先用yum卸载httpd和mod_ws...

  • Hive入门(一)”

    Hive入门(一)

    本文讲述Hive的数据映射、转换MapReduce、Metastore共享及简单的配置...

  • Hive部署及简单测试”

    Hive部署及简单测试

    本篇讲述Hive的部署及简单测试...

  • OushuDB与Greenplum之间数据对接”

    OushuDB与Greenplum之间数据对接

    如何高效简洁的完成OushuDB与Greenplum之间数据对接GP集群间对接方案优点方案缺点OushuDB架构OushuDB与GP对接最近有项目需要做偶数云原生数据库(后简称:OushuDB)与Greenplum(后简称:GP)之间数据对接。主要背景是客户使用GP已经有一定历史,很多生态都是按照GP的方式完成,OushuDB需要接入就要兼容原有的接口,这样不仅可以快速上线,还能最小化开发成本。其中有一个需求就是打通OushuDB与GP之间的数据通道,OushuDB的结果数据可以高效简便的导入GP,并且要...

  • HDFS数据安全与Java API的简单使用”

    HDFS数据安全与Java API的简单使用

    本文讲述HDFS数据安全与Java API的简单使用...

  • HDFS概述”

    HDFS概述

    本章节简述HDFS...

  • Hadoop HA高可用架构”

    Hadoop HA高可用架构

    本文讲述Hadoop的HA高可用机制...

  • Hadoop架构、原理、实时计算和离线计算”

    Hadoop架构、原理、实时计算和离线计算



    文章目录
    一、什么是Hadoop二、Hadoop各个组件的作用三、Hadoop核心组件的架构3.1、HDFS3.2、MapReduce3.3、YARN
    四、实时计算和离线计算的过...

后台-系统设置-扩展变量-手机广告位-栏目底部广告位

教程弟

https://www.jcdi.cn/

统计代码 | 京ICP1234567-2号

Powered By 教程弟 教程弟

使用手机软件扫描微信二维码