本書有DRM加密保護,需使用HyRead閱讀軟體開啟
  • Hadoop構建數據倉庫實踐
  • 點閱:27
  • 作者: 王雪迎著
  • 出版社:清華大學出版社
  • 出版年:2017[民106]
  • ISBN:9787302469803
  • 格式:EPUB 流式
  • 附註:簡體字版 書名頁題名誤題為: Hadoop數據倉庫實踐 封面英文題名: Practice of hadoop data warehouse
租期14天 今日租書可閱讀至2021-10-03

本書講述在流行的大數據分布式存儲和計算平台Hadoop上設計實現數據倉庫,將傳統數據倉庫建模與SQL開發的簡單性與大數據技術相結合,快速、高效地建立可擴展的數據倉庫及其應用系統。
 
本書內容包括數據倉庫、Hadoop及其生態圈的相關概念,使用Sqoop從關系數據庫全量或增量抽取數據,使用HIVE進行數據轉換和裝載處理,使用Oozie調度作業周期性執行,使用Impala進行快速聯機數據分析,使用Hue將數據可視化,以及數據倉庫中的漸變維(SCD)、代理鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到的事實、累積的度量等常見問題在Hadoop上的處理等。
 
本書適合數據庫管理員、大數據技術人員、Hadoop技術人員、數據倉庫技術人員,也適合高等院校和培訓機構相關專業的師生教學參考。

作者介紹
 
王雪迎
 
畢業於中國地質大學計算機專業,高級工程師,擁有20年數據庫、數據倉庫相關技術經驗。曾先後供職於北京現代商業信息技術有限公司、北京在線九州信息技術服務有限公司、華北計算技術研究所、北京優貝在線網絡科技有限公司,擔任DBA、數據架構師等職位。

  • 封面页
  • 书名页
  • 版权页
  • 作者简介
  • 内容简介
  • 前言
  • 目录
  • 第1章 ◄数据仓库简介►
    • 1.2 操作型系统与分析型系统
    • 1.3 数据仓库架构
    • 1.4 抽取-转换-装载
    • 1.5 数据仓库需求
    • 1.6 小结
    • 1.1 什么是数据仓库
  • 第2章 ◄数据仓库设计基础►
    • 2.1 关系数据模型
    • 2.2 维度数据模型
    • 2.3 Data Vault模型
    • 2.4 数据集市
    • 2.5 数据仓库实施步骤
    • 2.6 小结
  • 第3章 ◄Hadoop生态圈与数据仓库►
    • 3.1 大数据定义
    • 3.2 Hadoop简介
    • 3.3 Hadoop基本组件
    • 3.4 Hadoop生态圈的其他组件
    • 3.5 Hadoop与数据仓库
    • 3.6 小结
  • 第4章 ◄安装Hadoop►
    • 4.1 Hadoop主要发行版本
    • 4.2 安装Apache Hadoop
    • 4.3 配置HDFS Federation
    • 4.4 离线安装CDH及其所需的服务
    • 4.5 小结
  • 第5章 ◄Kettle与Hadoop►
    • 5.1 Kettle概述
    • 5.2 Kettle连接Hadoop
    • 5.3 导出导入Hadoop集群数据
    • 5.4 执行Hive的HiveQL语句
    • 5.5 MapReduce转换示例
    • 5.6 Kettle提交Spark作业
    • 5.7 小结
  • 第6章 ◄建立数据仓库示例模型►
    • 6.1 业务场景
    • 6.2 Hive相关配置
    • 6.3 Hive表分类
    • 6.4 向Hive表装载数据
    • 6.5 建立数据库表
    • 6.6 装载日期维度数据
    • 6.7 小结
  • 第7章 ◄数据抽取►
    • 7.1 逻辑数据映射
    • 7.2 数据抽取方式
    • 7.3 导出成文本文件
    • 7.4 分布式查询
    • 7.5 使用Sqoop抽取数据
    • 7.6 小结
  • 第8章 ◄数据转换与装载►
    • 8.1 数据清洗
    • 8.2 Hive简介
    • 8.3 初始装载
    • 8.4 定期装载
    • 8.5 Hive优化
    • 8.6 小结
  • 第9章 ◄定期自动执行ETL作业►
    • 9.1 crontab
    • 9.2 Oozie简介
    • 9.3 建立定期装载工作流
    • 9.4 建立协调器作业定期自动执行工作流
    • 9.5 Oozie优化
    • 9.6 小结
  • 第10章 ◄维度表技术►
    • 10.1 增加列
    • 10.2 维度子集
    • 10.3 角色扮演维度
    • 10.4 层次维度
    • 10.5 退化维度
    • 10.6 杂项维度
    • 10.7 维度合并
    • 10.8 分段维度
    • 10.9 小结
  • 第11章 ◄事实表技术►
    • 11.1 事实表概述
    • 11.2 周期快照
    • 11.3 累积快照
    • 11.4 无事实的事实表
    • 11.5 迟到的事实
    • 11.6 累积度量
    • 11.7 小结
  • 第12章 ◄联机分析处理►
    • 12.1 联机分析处理简介
    • 12.2 Impala简介
    • 12.3 Hive、SparkSQL、Impala比较
    • 12.4 联机分析处理实例
    • 12.5 Apache Kylin与OLAP
    • 12.6 小结
  • 第13章 ◄数据可视化►
    • 13.1 数据可视化简介
    • 13.2 Hue简介
    • 13.3 Zeppelin简介
    • 13.4 Hue、Zeppelin比较
    • 13.5 数据可视化实例
    • 13.6 小结
紙本書 NT$ 534
單本電子書
NT$ 374

點數租閱 20點
租期14天
今日租書可閱讀至2021-10-03
還沒安裝 HyRead 3 嗎?馬上免費安裝~
QR Code