本書有DRM加密保護,需使用HyRead閱讀軟體開啟
  • Hadoop+Spark大數據分析與機器學習整合開發實戰
  • 點閱:602
  • 作者: 林大貴著
  • 出版社:博碩文化
  • 出版年:2015[民104]
  • ISBN:978-986-434-054-5 ; 986-434-054-9
  • 格式:PDF
  • 附註:封面題名: Hadoop+Spark大數據巨量分析與機器學習整合開發實戰
租期14天 今日租書可閱讀至2020-03-03

◆技術為金融財務、行銷分析、商業趨勢預測帶來全新的變革
◆詳實的安裝設定與程式編寫說明降低學習入門門檻
◆可單機執行或以實機/虛擬機器建立多台演算陣列
◆具備大量實務案例分析與程式碼範例實作
 

大數據分析與機器學習人工智慧帶來資訊科技革命的第五波新浪潮
創新產業
大量商機
人才需求
 
一般人可能會認為大數據需要很多台機器的環境才能學習,但是本書透過虛擬機器的方法,就能在自家電腦演練建立Hadoop叢集,並且建立Spark開發環境。
 
以實機操作介紹Hadoop MapReduce與HDFS基本概念,以及Spark RDD與MapReduce基本觀念。
 
以大數據分析實務案例:MoiveLens(電影喜好推薦引擎)、StumbleUpon(網頁二元分類)、CovType(林相土地演算)、Bike Sharing(Ubike類租賃預測分析)。
 
配合範例程式碼來介紹各種機器學習演算法,示範如何擷取資料、訓練資料、建立模型、預測結果,由淺而深介紹Spark機器學習。
 
大數據對每個領域都造成影響。在商業、經濟及其他領域中,將大量資料進行分析後,就可得出許多資料關聯性。可用於預測商業趨勢、行銷研究、金融財務、疾病研究、打擊犯罪等。大數據對每一個公司的決策方式將發生變革-決策方式將基於資料和分析的結果,而不是依靠經驗和直覺。
 
資訊科技浪潮第一波是大型電腦,第二波是個人電腦,第三波是網路,第四波是社群媒體,第五波科技則是「大數據」。每一波的的資訊科技浪潮,總是帶來工作與生活方式的改變,創造大量商機、新的產業、大量的工作機會。像是在網路時代,創造了Google、Amazon 等大公司,以及無數.com 公司。
 
每一波浪潮開始時,需求的相關人才最多,但是此時也是相關人才供應最少。因此對個人而言,如果能在浪潮興起時就投入,往往成果最豐碩,並且有機會占有重要職位。像是網路剛興起時,每個公司都需要建立網站,但是相對這方面的人才不夠。那時候能撰寫網頁相關程式語言的工程師就能夠獲得高薪。但是後來投入的人越來越多,這方面的工程師就沒有那麼吃香了。
 
之前的科技浪潮,也許你沒有機會躬逢其盛,或是沒有機會在浪潮初期進入。但是大數據的浪潮方興未艾,正是進入的好時機。根據IBM 調查預估,大數據目前的商機是71 億美元,並將以每年增長20%速度持續成長,預計2015 年達到180 億美元。機會是給有準備的人,學會了大數據分析的相關技能,讓你有機會獲得更好的薪資與發展前景。根據美國調查機構Robert Half Technology 2016 年趨勢報告,在美國大數據工程師,薪水年成長8.9%,年薪大約13 萬至18 萬美金(約新台幣429 萬元~594 萬元)。因為人才短缺,企業不惜重金挖角。(你可以在google 搜尋Robert Half Technology 2016 就可以下載此調查報告)
 
本書的主題是Haddop+Spark大數據分析與機器學習。Hadoop 大家已經知道是運用最多的大數據平台,然而Spark 異軍突起,與Hadoop 相容而且執行速度更快,各大公司也開始加入Spark 開發。例如IBM 加入Apache Spark 社群打算培育百萬名資料科學家。Google 與微軟也分別應用了Spark 的功能來建置服務、發展大數據分析雲端與機器學習平臺。這些大公司的加入,也意味著未來更多公司會採用Hadoop+Spark 進行大數據資料分析。
 
然而目前市面上雖然很多大數據的書,但是多半偏向理論或應用層面的介紹,網路上的資訊雖然很多,但是也很雜亂。本書介紹希望能夠用淺顯易懂原理說明,再加上實機操作、範例程式,能夠降低大數據技術的學習門檻,帶領讀者進入大數據與機器學習的領域。當然整個大數據的生態系非常龐大,需要學習的東西太多。希望讀者能透過本書有了基本概念後,比較容易踏入這門領域,能繼續深入研究其他大數據的相關技術。


林大貴
 
作者從事IT產業多年,涉獵系統設計、網站開發、數位行銷與商業智慧等多領域,具備豐富實務開發經驗。

  • Chapter 01 大數據與機器學習(第1頁)
    • 1-1 大數據定義(第2頁)
    • 1-2 Hadoop 簡介(第3頁)
    • 1-3 Hadoop HDFS 分散式檔案系統(第4頁)
    • 1-4 Hadoop MapReduce 介紹(第6頁)
    • 1-5 Spark 介紹(第8頁)
    • 1-6 機器學習介紹(第10頁)
  • Chapter 02 Virtual Box 虛擬機器軟體安裝(第15頁)
    • 2-1 VirtualBox 下載安裝(第16頁)
    • 2-2 設定 Virtual Box 儲存資料夾(第21頁)
    • 2-3 在 VirtualBox 建立虛擬機器(第23頁)
  • Chapter 03 Ubuntu Linux 作業系統安裝(第29頁)
    • 3-1 下載 Ubuntu 安裝光碟檔案(第30頁)
    • 3-2 在 Virtual Box 設定 Ubuntu 虛擬光碟檔案(第31頁)
    • 3-3 開始安裝 Ubuntu(第34頁)
    • 3-4 啟動 Ubuntu(第39頁)
    • 3-5 安裝 Guest Additions(第40頁)
    • 3-6 設定預設輸入法(第43頁)
    • 3-7 設定終端機程式(第46頁)
    • 3-8 設定終端機白底黑字(第48頁)
    • 3-9 設定共用剪貼簿(第50頁)
  • Chapter 04 Hadoop Single Node Cluster 安裝(第53頁)
    • 4-1 安裝 JDK(第55頁)
    • 4-2 設定 SSH 無密碼登入(第58頁)
    • 4-3 下載安裝 Hadoop(第62頁)
    • 4-4 設定 Hadoop 環境變數(第65頁)
    • 4-5 修改 Hadoop 組態設定檔(第68頁)
    • 4-6 建立與格式化 HDFS 目錄(第73頁)
    • 4-7 啟動 Hadoop(第74頁)
    • 4-8 開啟 Hadoop ResourceManager Web 介面(第77頁)
    • 4-9 NameNode HDFS Web 介面(第78頁)
  • Chapter 05 Hadoop Multi Node Cluster 安裝(第81頁)
    • 5-1 複製 Single Node Cluster 到 data1(第84頁)
    • 5-2 設定 data1 伺服器(第86頁)
    • 5-3 複製 data1 伺服器至 data2、data3、master(第95頁)
    • 5-4 設定 data2、data3 伺服器(第97頁)
    • 5-5 設定 master 伺服器(第101頁)
    • 5-6 master 連線至 data1、data2、data3 建立 HDFS 目錄(第105頁)
    • 5-7 建立與格式化 NameNode HDFS 目錄(第110頁)
    • 5-8 啟動 Hadoop Multi Node Cluster(第112頁)
    • 5-9 開啟 Hadoop ResourceManager Web 介面(第114頁)
    • 5-10 開啟 NameNode HDFS Web 介面(第115頁)
  • Chapter 06 Hadoop HDFS 命令介紹(第117頁)
    • 6-1 啟動 Hadoop Multi-Node Cluster(第119頁)
    • 6-2 建立與查看 HDFS 目錄(第120頁)
    • 6-3 從本機複製檔案到 HDFS(第123頁)
    • 6-4 將 HDFS 上的檔案複製到本機(第129頁)
    • 6-5 複製與刪除 HDFS 檔案(第131頁)
    • 6-6 Hadoop HDFS Web UI 介面瀏覽 HDFS(第133頁)
  • Chapter 07 Hadoop MapReduce 介紹(第137頁)
    • 7-1 wordCount.java 介紹(第138頁)
    • 7-2 編輯 wordCount.java(第139頁)
    • 7-3 編譯 wordCount.java(第143頁)
    • 7-4 下載測試文字檔(第145頁)
    • 7-5 上傳文字檔至 HDFS(第147頁)
    • 7-6 執行 wordCount.java(第148頁)
    • 7-7 查看執行結果(第149頁)
    • 7-8 Hadoop MapReduce 的缺點(第150頁)
  • Chapter 08 Spark 安裝介紹(第151頁)
    • 8-1 SPARK 的 cluster 模式架構圖(第152頁)
    • 8-2 Scala 介紹與安裝(第153頁)
    • 8-3 安裝 SPARK(第157頁)
    • 8-4 啟動 spark-shell 互動介面(第160頁)
    • 8-5 設定 spark-shell 顯示訊息(第162頁)
    • 8-6 啟動 Hadoop(第163頁)
    • 8-7 本機執行 Spark-shell 程式(第165頁)
    • 8-8 在Hadoop YARN 執行 spark-shell(第167頁)
    • 8-9 建置 Spark standalone cluster 執行環境(第170頁)
    • 8-10 在 Spark standalone 執行 spark-shell(第176頁)
  • Chapter 09 Spark RDD 介紹(第181頁)
    • 9-1 RDD 的特性(第182頁)
    • 9-2 基本 RDD「轉換」運算(第184頁)
    • 9-3 多個 RDD「轉換」運算(第192頁)
    • 9-4 基本「動作」運算(第194頁)
    • 9-5 RDD Key-Value 基本「轉換」運算(第196頁)
    • 9-6 多個 RDD Key-Value「轉換」運算(第201頁)
    • 9-7 Key-Value「動作」運算(第205頁)
    • 9-8 Broadcast 廣播變數(第208頁)
    • 9-9 accumulator 累加器(第212頁)
    • 9-10 RDD Persistence 持久化(第214頁)
    • 9-11 使用 Spark 建立 WordCount(第217頁)
    • 9-12 Spark WordCount 詳細解說(第221頁)
  • Chapter 10 Spark 整合開發環境介紹(第227頁)
    • 10-1 下載與安裝 Scala IDE(第229頁)
    • 10-2 下載專案所需要的 Library(第233頁)
    • 10-3 啟動 eclipse(第237頁)
    • 10-4 建立新 Spark 專案(第239頁)
    • 10-5 設定專案程式庫(第243頁)
    • 10-6 新增 scala 程式(第244頁)
    • 10-7 下載 WordCount 測試資料(第245頁)
    • 10-8 建立 WordCount.scala(第246頁)
    • 10-9 編譯 WordCount.scala 程式(第249頁)
    • 10-10 執行 WordCount.scala 程式(第251頁)
    • 10-11 匯出 jar 檔(第255頁)
    • 10-12 spark-submit 詳細介紹(第258頁)
    • 10-13 在本機 local 模式執行 WordCount 程式(第259頁)
    • 10-14 在 hadoop yarn-client 執行 WordCount 程式(第261頁)
    • 10-15 WordCount 程式在 SparkStandalone Cluster 執行(第266頁)
    • 10-16 本書範例程式安裝說明(第268頁)
  • Chapter 11 建立推薦引擎(第275頁)
    • 11-1 推薦演算法介紹(第276頁)
    • 11-2 「推薦引擎」大數據分析使用情境(第277頁)
    • 11-3 ALS 推薦演算法介紹(第278頁)
    • 11-4 ml-100k 推薦資料下載與介紹(第281頁)
    • 11-5 使用 spark-shell 匯入 ml-100k 資料(第283頁)
    • 11-6 查看匯入的資料(第284頁)
    • 11-7 使用 ALS.train 進行訓練(第288頁)
    • 11-8 使用模型進行推薦(第291頁)
    • 11-9 顯示推薦的電影的名稱(第294頁)
    • 11-10 建立 Recommend 專案(第297頁)
    • 11-11 Recommend.scala 程式碼(第300頁)
    • 11-12 建立 PrepareData() 資料準備(第302頁)
    • 11-13 recommend() 推薦程式碼(第305頁)
    • 11-14 執行 Recommend.scala(第310頁)
    • 11-15 建立 AlsEv alution.scala 調校訓練參數(第312頁)
    • 11-16 建立 PrepareData() 資料準備(第316頁)
    • 11-17 進行訓練評估(第318頁)
    • 11-18 執行 AlsEvaluation(第331頁)
    • 11-19 修改 Recommend.scala 為最佳參數組合(第334頁)
  • Chapter 12 StumbleUpon 資料集介紹(第335頁)
    • 12-1 StumbleUpon 資料集(第336頁)
    • 12-2 下載 StumbleUpon 資料(第339頁)
    • 12-3 以 LibreOffice Calc 試算表查看 train.tsv(第342頁)
    • 12-4 二元分類演算法(第345頁)
  • Chapter 13 決策樹二元分類(第347頁)
    • 13-1 決策樹介紹(第348頁)
    • 13-2 建立 Classification 專案(第349頁)
    • 13-3 建立 RunDecisionTreeBinary.scala 程式(第351頁)
    • 13-4 資料準備階段(第354頁)
    • 13-5 訓練評估階段(第362頁)
    • 13-6 預測階段(第368頁)
    • 13-7 執行 RunDecisionTreeBinary. scala(第372頁)
    • 13-8 修改 RunDecisionTreeBinary 調校訓練參數(第374頁)
    • 13-9 RunDecisionTreeBinary 執行參數調校程式(第383頁)
    • 13-10 RunDecisionTreeBinary 不執行參數調校程式(第386頁)
  • Chapter 14 邏輯回歸二元分類(第389頁)
    • 14-1 邏輯迴歸分析介紹(第390頁)
    • 14-2 RunLogisticRegressionWithSGDBinary.scala 程式說明(第392頁)
    • 14-3 執行 RunDecisionTreeRegression.scala 進行參數調校(第396頁)
    • 14-4 執行 RunDecisionTreeRegression.scala 不進行參數調校(第400頁)
  • Chapter 15 支援向量機器 SVM 二元分類(第403頁)
    • 15-1 支援向量機器 SVM 演算法基本概念(第404頁)
    • 15-2 RunSVMWithSGDBinary.scala 程式說明(第405頁)
    • 15-3 執行 SVMWithSGD.scala 進行參數調校(第408頁)
    • 15-4 執行 SVMWithSGD.scala 不進行參數調校(第411頁)
  • Chapter 16 單純貝氏二元分類(第413頁)
    • 16-1 單純貝氏分析原理介紹(第414頁)
    • 16-2 RunNaiveBayesBinary.scala 程式說明(第416頁)
    • 16-3 執行 NaiveBayes.scala 進行參數調校(第420頁)
    • 16-4 執行 NaiveBayes.scala 不進行參數調校(第422頁)
  • Chapter 17 決策樹多元分類(第425頁)
    • 17-1 「森林覆蓋樹種」大數據問題分析情境(第426頁)
    • 17-2 UCI Covertype 資料集介紹(第428頁)
    • 17-3 下載與查看資料(第430頁)
    • 17-4 建立 RunDecisionTreeMulti. scala(第432頁)
    • 17-5 修改 RunDecisionTreeMulti.scala 程式(第434頁)
    • 17-6 執行 RunDecisionTreeMulti.scala 進行參數調校(第441頁)
    • 17-7 執行 RunDecisionTreeMulti.scala 不進行參數調校(第445頁)
  • Chapter 18 決策樹迴歸分析(第447頁)
    • 18-1 Bike Sharing 大數據問題分析(第448頁)
    • 18-2 Bike Sharing 資料集(第449頁)
    • 18-3 下載與查看資料(第450頁)
    • 18-4 建立 RunDecisionTree Regression.scala(第454頁)
    • 18-5 修改 RunDecisionTree Regression.scala(第456頁)
    • 18-6 執行 RunDecisionTreeRegression.scala 執行參數調校(第468頁)
    • 18-7 執行 RunDecisionTreeRegression.scala 不執行參數調校(第471頁)
  • Chapter 19 使用 Apache Zeppelin 資料視覺化(第475頁)
    • 19-1 Apache Zeppelin 介紹(第476頁)
    • 19-2 安裝 Zeppelin 前的準備(第477頁)
    • 19-3 Apache Zeppelin 安裝(第479頁)
    • 19-4 啟動 Apache Zeppelin(第480頁)
    • 19-5 建立新的 Notebook(第484頁)
    • 19-6 使用 Zeppelin 執行 Shell 命令(第486頁)
    • 19-7 建立暫存資料表「UserTable」(第489頁)
    • 19-8 使用 Zeppelin 執行年齡統計 Spark SQL(第491頁)
    • 19-9 使用 Zeppelin 執行性別統計 Spark SQL(第492頁)
    • 19-10 依照職業統計(第494頁)
    • 19-11 Spark SQL 加入文字方塊輸入參數(第495頁)
    • 19-12 加入選項參數(第498頁)
    • 19-13 Zeppelin 在 firefox 瀏覽器使用的問題(第499頁)
    • 19-14 同時顯示多個統計欄位(第502頁)
    • 19-15 工具列設定(第506頁)
    • 19-16 設定段落標題(第507頁)
    • 19-17 設定 Paragraph 段落寬度(第508頁)
    • 19-18 設定顯示模式(第510頁)
紙本書 NT$ 620
單本電子書
NT$ 434

點數租閱 20點
租期14天
今日租書可閱讀至2020-03-03
還沒安裝 HyRead 3 嗎?馬上免費安裝~
QR Code