今天是 2023
年 5
月 15
日,距离我第一次来北京工作的时间刚好跨过了整整三年,关于这个时间我也是在跟朋友的闲聊中才发现原来我已经来北京北漂三年了。
2023 低生产力 PC 装机报告
Posted on
Edited on
Hadoop-Hive
Posted on
Edited on
MySQL-Could not find first log file name in binary log index file
Posted on
Hadoop-Spark
Posted on
Edited on
引入
Spark
是用于处理大数据的集群计算框架 ,与其他大多数数据处理框架不同之处在于 Spark
没有以 MapReduce
作为执行引擎,而是使用它自己的分布式运行环境在集群上执行工作。另外 Spark
与 Hadoop
又紧密集成,Spark
可以在 YARN
上运行,并支持 Hadoop
文件格式及其存储后端(例如 HDFS
)。
Spark
最突出的表现在于其能将 作业与作业之间的大规模的工作数据集存储在内存中。这种能力使得在性能上远超 MapReduce
好几个数量级,原因就在于 MapReduce
数据都是从磁盘上加载。根据 Spark
的处理模型有两类应用获益最大,分别是 迭代算法(即对一个数据集重复应用某个函数,直至满足退出条件)和 交互式分析(用户向数据集发出一系列专用的探索性查询) 。
另外 Spark
还因为其具有的 DAG
引擎更具吸引力,原因在于 DAG
引擎可以处理任意操作流水线,并为用户将其转化为单个任务。
MySQL-mysqldump warning GTID
Posted on
Edited on
复现
工作时需要拉一下测试环境的数据到开发环境,所以就是 mysqldump
老哥出场了…
1 | # mysqldump -h localhost -u root -p --tables test_table --where="str='str1'" > test_table_data.sql |
Hadoop-MapReduce
Posted on
Edited on
Lombok-constructor is already defined
Posted on
Hadoop-HDFS
Posted on
Edited on
Hadoop-基础
Posted on
Edited on
简介
Hadoop
是一个分布式计算开源框架,其提供一个分布式文件系统子项目(HDFS
)和支持 MapReduce
分布式计算的软件架构。
在有了大量数据之后,那么该如何进行存储和分析这些数据呢?Hadoop
需要解决的问题如下:
- 硬件故障问题。一旦使用磁盘存储数据,就会遇到磁盘故障;但是为了避免数据丢失,最常见的做法就是复制(
replication
);系统保存数据的副本(replica
),一旦硬件系统出现故障,就立即使用另外保存的副本。 - 以某种方式结合大部分数据来共同完成分析。各种分布式系统允许不同来源的数据进行分析,但其数据的正确性是无法保证的。因此
MapReduce
提出了一个编程模型,该模型抽象出这些硬盘读/写问题并将其作为对一个数据集(由键值对组成)的计算。