基础
HBase 是一个在 HDFS 上开发的面向列的分布式数据库,如果你需要实时访问超大规模的数据集,那么使用 HBase 就对了。
HBase 自底而上地进行构建,可以简单的通过增加节点来线性扩展。其并不是关系型数据库,并且也不支持 SQL,在特定的空间里,能够做 RDBMS 不能做的事,即在廉价的硬件构成的集群上管理超大规模的稀疏表。
今天是 2023 年 5 月 15 日,距离我第一次来北京工作的时间刚好跨过了整整三年,关于这个时间我也是在跟朋友的闲聊中才发现原来我已经来北京北漂三年了。
Spark 是用于处理大数据的集群计算框架 ,与其他大多数数据处理框架不同之处在于 Spark 没有以 MapReduce 作为执行引擎,而是使用它自己的分布式运行环境在集群上执行工作。另外 Spark 与 Hadoop 又紧密集成,Spark 可以在 YARN 上运行,并支持 Hadoop 文件格式及其存储后端(例如 HDFS)。
Spark 最突出的表现在于其能将 作业与作业之间的大规模的工作数据集存储在内存中。这种能力使得在性能上远超 MapReduce 好几个数量级,原因就在于 MapReduce 数据都是从磁盘上加载。根据 Spark 的处理模型有两类应用获益最大,分别是 迭代算法(即对一个数据集重复应用某个函数,直至满足退出条件)和 交互式分析(用户向数据集发出一系列专用的探索性查询) 。
另外 Spark 还因为其具有的 DAG 引擎更具吸引力,原因在于 DAG 引擎可以处理任意操作流水线,并为用户将其转化为单个任务。
工作时需要拉一下测试环境的数据到开发环境,所以就是 mysqldump 老哥出场了…
1 | # mysqldump -h localhost -u root -p --tables test_table --where="str='str1'" > test_table_data.sql |