易商讯
当前位置: 首页 » 资讯 » 科普 » 正文

大数据为什么需要小文件合并

放大字体  缩小字体 发布日期:2023-11-28 19:06:42
导读

‘壹’ hdfs详解之块、小文件和副本数1、block:block是物理切块,在文件上传到HDFS文件系统后,对大文件将以每128MB的大小切分若干,存放在不同的DataNode上。例如一个文件130M,那么他会存被切分成2个块,一个块128M,另一个块2M. 1、HDFS 适应场景: 大文件存

‘壹’ hdfs详解之块、小文件和副本数

1、block:block是物理切块,在文件上传到HDFS文件系统后,对大文件将以每128MB的大小切分若干,存放在不同的DataNode上。例如一个文件130M,那么他会存被切分成2个块,一个块128M,另一个块2M.

1、HDFS 适应场景: 大文件存储,小文件是致命的 2、如果小文件很多的,则有可能将NN(4G=42亿字节)撑爆。例如:1个小文件(阈值<=30M),那么NN节点维护的字节大约250字节。一亿个小文件则是250b * 1亿=250亿.将会把NN节点撑爆。如果一亿个小文件合并成100万个大文件:250b * 1百万=2亿字节。 3、在生产上一般会: 1)调整小文件阈值 2)合并小文件: a.数据未落地到hdfs之前合并 b.数据已经落到hdfs,调用spark service服务 。每天调度去合并 (-15天 业务周期) 3)小文件的危害: a.撑爆NN。 b.影响hive、spark的计算。占用集群计算资源

1、如果是伪分布式,那么副本数只能为一。 2、生成上副本数一般也是官方默认参数: 3份

如果一个文件130M,副本数为3。那么第一个block128M,有三份。另外一个block2M,也有三份。 题目: blockSize128M,副本数3份,那么一个文件260M,请问多少块,多少实际存储? 260%128=2....4M 3个块 3个副本=9块 260M 3=780M


声明:易商讯尊重创作版权。本文信息搜集、整理自互联网,若有来源标记错误或侵犯您的合法权益,请联系我们。我们将及时纠正并删除相关讯息,非常感谢!

 
(文/小编)
免责声明
• 
本文大数据为什么需要小文件合并链接:http://www.esxun.cn/news/402831.html 。本文仅代表作者个人观点,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们,我们将在24小时内处理完毕。如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
 

Copyright © www.esxun.cn 易商讯ALL Right Reserved


冀ICP备2023038169号-3