您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Modeler   Code  
会员   
 
   
 
 
     
   
 订阅
  捐助
深入浅出解析大数据平台架构
 
作者:昆明小虫 来源:CSDN 发布于:2014-12-24
   次浏览      
 

“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。

大数据的4V特征-来源

公司的“大数据”

随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:

1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;

2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;

……

三国里的“大数据”

“草船借箭”和大数据有什么关系呢?对天象的观察是基于一种对风、云、温度、湿度、光照和所处节气的综合分析这些数据来源于多元化的“非结构”类型,并且数据量较大,只不过这些数据输入到的不是电脑,而是人脑并最终通过计算分析得出结论。

Google分布式计算的三驾马车

1.Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。

2.Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。

3.BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。

Hadoop体系架构

Hadoop核心设计

HDFS介绍-文件读流程

Client向NameNode发起文件读取的请求。

NameNode返回文件存储的DataNode的信息。

Client读取文件信息。

HDFS介绍-文件写流程

Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

MapReduce——映射、化简编程模型

输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果

Hbase——分布式数据存储系统

Client:使用HBase RPC机制与HMaster和HRegionServer进行通信

Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

HMaster: 管理用户对表的增删改查操作

HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据

HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table

HStore:HBase存储的核心。由MemStore和StoreFile组成。

HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件

还有哪些NoSQL产品?

为什么要使用NoSQL?

一个高并发网站的DB进化史

关系模型>聚合数据模型的转换-基本变换

关系模型>聚合数据模型的转换-内嵌变换

关系模型>聚合数据模型的转换-分割变换

关系模型>聚合数据模型的转换-内联变换

Hadoop2.0

MapReduce:

JobTracker:协调作业的运行。

TaskTracker:运行作业划分后的任务。

大数据的技术领域

腾讯大数据现状(资料来自2014.4.11 腾讯分享日大会)

腾讯大数据平台产品架构

腾讯大数据平台与业务平台的关系

公司数据处理平台的基础架构

公司大数据平台架构图

应用一数据分析

应用二视频存储

应用三离线日志分析

应用五在线数据分析

参考资料:京东基于Samza的流式计算实践

   
次浏览       
相关文章

基于EA的数据库建模
数据流建模(EA指南)
“数据湖”:概念、特征、架构与案例
在线商城数据库系统设计 思路+效果
 
相关文档

Greenplum数据库基础培训
MySQL5.1性能优化方案
某电商数据中台架构实践
MySQL高扩展架构设计
相关课程

数据治理、数据架构及数据标准
MongoDB实战课程
并发、大容量、高性能数据库设计与优化
PostgreSQL数据库实战培训
最新活动计划
软件架构设计方法、案例与实践 8-23[特惠]
Linux内核编程及设备驱动 8-15[北京]
Python、数据分析与机器学习 8-23[特惠]
嵌入式软件架构设计 8-22[线上]
QT应用开发 9-5[北京]

MySQL索引背后的数据结构
MySQL性能调优与架构设计
SQL Server数据库备份与恢复
让数据库飞起来 10大DB2优化
oracle的临时表空间写满磁盘
数据库的跨平台设计
更多...   


并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理


GE 区块链技术与实现培训
航天科工某子公司 Nodejs高级应用开发
中盛益华 卓越管理者必须具备的五项能力
某信息技术公司 Python培训
某博彩IT系统厂商 易用性测试与评估
中国邮储银行 测试成熟度模型集成(TMMI)
中物院 产品经理与产品管理
更多...