本書有DRM加密保護,需使用HyRead閱讀軟體開啟
  • Python 網路爬蟲:大數據擷取、清洗、儲存與分析--王者歸來
  • 點閱:264
  • 作者: 洪錦魁作
  • 出版社:深智數位
  • 出版年:2019[民108]
  • ISBN:978-986-5501-02-0 ; 986-5501-02-3
  • 格式:PDF
租期14天 今日租書可閱讀至2019-12-23

內容介紹
這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約350個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識,下列是本書有關網路爬蟲知識的主要內容。
 
# 認識搜尋引擎與網路爬蟲
# 認識約定成俗的協議robots.txt

# 從零開始解析HTML網頁
# 認識與使用Chrome開發人員環境解析網頁
# 認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
# 說明lxml模組
# Selenium模組
# XPath方法解說
# css定位網頁元素
# Cookie觀念
# 自動填寫表單
# 使用IP代理服務與實作
# 偵測IP
# 更進一步解說更新的模組Requests-HTML
# 認識適用大型爬蟲框架的Scrapy模組
 
在書籍內容,本書設計爬蟲程式探索下列相關網站,讀者可以由不同的網站主題,深入測試自己設計網路爬蟲的能力,以適應未來職場的需求。
 
# 金融資訊
# 股市數據
# 人力銀行
# 交友網站
# 維基網站
# 主流媒體網站
# 政府開放數據網站
# 社群服務網站
# PTT網站
# 電影網站
# 星座網站
# 小說網站
# 台灣高鐵
# 露天拍賣網站
# httpbin網站
# python.org網站
# github.com網站
# ipstack.com網站API實作
# Google API實作
# Facebook API實作
 
探索網站成功後,本書也說明下列如何下載或儲存不同資料格式的數據。
 
# CSV檔案格式
# JSON檔案格式
# XML、Pickle
# Excel
# SQLite資料庫
 
本書沿襲作者著作的特色,程式實例豐富,相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計。


作者介紹
作者簡介
 
洪錦魁
 

一位跨越電腦作業系統與科技時代的電腦專家,著作等身的作家。
 
■ DOS 時代他的代表作品是 IBM PC 組合語言、C、C++、Pascal、資料結構。
■ Windows 時代他的代表作品是 Windows Programming 使用 C、Visual Basic。
■ Internet 時代他的代表作品是網頁設計使用 HTML。
■ 大數據時代他的代表作品是 R 語言邁向 Big Data 之路。
 
除了作品被翻譯為簡體中文、馬來西亞文外,2000 年作品更被翻譯為Mastering HTML 英文版行銷美國。
 
近年來作品則是在北京清華大學和台灣深智同步發行:
1:Java 入門邁向高手之路王者歸來
2:Python 入門邁向高手之路王者歸來
3:HTML5 + CSS3 王者歸來
4:R 語言邁向Big Data 之路
 
他的著作最大的特色是,所有程式語法會依特性分類,同時以實用的程式範例做解說,讓整本書淺顯易懂,讀者可以由他的著作事半功倍輕鬆掌握相關知識。


  • 第零章 認識網路爬蟲(第0-1頁)
    • 0-1 認識 HTML(第0-2頁)
    • 0-2 網路地址 URL(第0-2頁)
    • 0-3 爬蟲的類型(第0-3頁)
    • 0-4 搜尋引擎與爬蟲原理(第0-3頁)
    • 0-5 網路爬蟲的搜尋方法(第0-5頁)
    • 0-6 網路爬蟲是否合法(第0-6頁)
    • 0-7 認識 HTTP 與 HTTPS(第0-6頁)
    • 0-8 表頭 (headers)(第0-8頁)
  • 第一章 JSON 資料與繪製世界地圖(第1-1頁)
    • 1-1 JSON 資料格式前言(第1-2頁)
    • 1-2 認識 json 資料格式(第1-3頁)
    • 1-3 將 Python 應用在 json 字串形式資料(第1-5頁)
    • 1-4 將 Python 應用在 json 檔案(第1-10頁)
    • 1-5 簡單的 json 檔案應用(第1-13頁)
    • 1-6 世界人口數據的 json 檔案(第1-15頁)
    • 1-7 繪製世界地圖(第1-18頁)
    • 1-8 XML(第1-25頁)
  • 第二章 使用 Python 處理 CSV 文件(第2-1頁)
    • 2-1 建立一個 CSV 文件(第2-2頁)
    • 2-2 用記事本開啟 CSV 檔案(第2-3頁)
    • 2-3 csv 模組(第2-4頁)
    • 2-4 讀取 CSV 檔案(第2-4頁)
    • 2-5 寫入 CSV 檔案(第2-8頁)
    • 2-6 專題 - 使用 CSV 檔案繪製氣象圖表(第2-12頁)
    • 2-7 pickle 模組(第2-20頁)
    • 2-8 Python 與 Microsoft Excel(第2-22頁)
  • 第三章 網路爬蟲基礎實作(第3-1頁)
    • 3-1 上網不再需要瀏覽器了(第3-2頁)
    • 3-2 下載網頁資訊使用 requests 模組(第3-6頁)
    • 3-3 檢視網頁原始檔(第3-19頁)
    • 3-4 分析網站使用 Chrome 開發人員工具(第3-22頁)
    • 3-5 下載網頁資訊使用 urllib 模組(第3-41頁)
    • 3-6 認識 httpbin 網站(第3-53頁)
    • 3-7 認識 Cookie(第3-59頁)
    • 3-8 設置代理 IP(第3-60頁)
  • 第四章 Pandas 模組(第4-1頁)
    • 4-1 Series(第4-2頁)
    • 4-2 DataFrame(第4-8頁)
    • 4-3 基本 Pandas 資料分析與處理(第4-12頁)
    • 4-4 檔案的輸入與輸出(第4-22頁)
    • 4-5 Pandas 繪圖(第4-25頁)
    • 4-6 時間序列 (Time Series)(第4-33頁)
    • 4-7 專題 鳶尾花(第4-40頁)
    • 4-8 專題 匯入網頁表格資料(第4-47頁)
  • 第五章 BeautifulSoup 解析網頁(第5-1頁)
    • 5-1 解析網頁使用 BeautifulSoup 模組(第5-2頁)
    • 5-2 其它 HTML 文件解析(第5-17頁)
    • 5-3 網路爬蟲實戰 圖片下載(第5-26頁)
    • 5-4 網路爬蟲實戰 找出台灣彩券公司最新一期威力彩開獎結果(第5-29頁)
    • 5-5 網路爬蟲實戰 列出 Yahoo 焦點新聞標題和超連結(第5-31頁)
    • 5-6 IP 偵測網站 FileFab(第5-33頁)
  • 第六章 網頁自動化(第6-1頁)
    • 6-1 hashlib 模組(第6-2頁)
    • 6-2 環保署空氣品質 JSON 檔案實作(第6-6頁)
    • 6-3 檢測網站內容是否更新(第6-11頁)
    • 6-4 工作排程與自動執行(第6-13頁)
    • 6-5 環保署空氣品質的 CSV 檔案(第6-16頁)
  • 第七章 Selenium 網路爬蟲的王者(第7-1頁)
    • 7-1 順利使用 Selenium 工具前的安裝工作(第7-2頁)
    • 7-2 獲得 webdriver 的物件型態(第7-7頁)
    • 7-3 擷取網頁(第7-8頁)
    • 7-4 尋找 HTML 文件的元素(第7-12頁)
    • 7-5 XPath 語法(第7-15頁)
    • 7-6 用 Python 控制點選超連結(第7-27頁)
    • 7-7 用 Python 填寫表單和送出(第7-28頁)
    • 7-8 用 Python 處理使用網頁的特殊按鍵(第7-32頁)
    • 7-9 用 Python 處理瀏覽器運作(第7-33頁)
    • 7-10 自動進入 Google 系統(第7-34頁)
    • 7-11 自動化下載環保署空氣品質資料(第7-43頁)
  • 第八章 PTT 爬蟲實戰(第8-1頁)
    • 8-1 認識批踢踢實業坊(第8-2頁)
    • 8-2 進入 PTT 網址(第8-2頁)
    • 8-3 解析 PTT 進入須滿 18 歲功能鈕(第8-3頁)
    • 8-4 各篇文章的解析(第8-5頁)
    • 8-5 解析文章標題與作者(第8-5頁)
    • 8-6 推文數量(第8-7頁)
    • 8-7 文章發表日期(第8-9頁)
    • 8-8 將 PTT 目前頁面內容以 JSON 檔案儲存(第8-11頁)
    • 8-9 前一頁面處理的說明(第8-12頁)
    • 8-10 進入 PPT 的 Beauty 論壇網站(第8-15頁)
    • 8-11 ipstack(第8-26頁)
  • 第九章 Yahoo 奇摩電影網站(第9-1頁)
    • 9-1 本週新片(第9-2頁)
    • 9-2 中文片名和英文片名(第9-3頁)
    • 9-3 上映日期(第9-5頁)
    • 9-4 期待度(第9-6頁)
    • 9-4 期待度(第9-7頁)
    • 9-6 劇照海報(第9-8頁)
    • 9-7 爬取兄弟節點(第9-10頁)
    • 9-8 預告片(第9-12頁)
    • 9-9 排行榜(第9-13頁)
  • 第十章 台灣主流媒體網站(第10-1頁)
    • 10-1 蘋果日報(第10-2頁)
    • 10-2 聯合報(第10-4頁)
    • 10-3 經濟日報(第10-6頁)
    • 10-4 中國時報(第10-7頁)
    • 10-5 工商時報(第10-9頁)
  • 第十一章 Python 與 SQLite 資料庫(第11-1頁)
    • 11-1 SQLite 基本觀念(第11-2頁)
    • 11-2 資料庫連線(第11-2頁)
    • 11-3 SQLite 資料類型(第11-3頁)
    • 11-4 建立 SQLite 資料庫表單(第11-3頁)
    • 11-5 增加 SQLite 資料庫表單紀錄(第11-6頁)
    • 11-6 查詢 SQLite 資料庫表單(第11-8頁)
    • 11-7 更新 SQLite 資料庫表單紀錄(第11-10頁)
    • 11-8 刪除 SQLite 資料庫表單紀錄(第11-11頁)
    • 11-9 DB Browser for SQLite(第11-12頁)
    • 11-10 將台北人口數儲存 SQLite 資料庫(第11-16頁)
  • 第十二章 股市數據爬取與分析(第12-1頁)
    • 12-1 證券櫃檯買賣中心(第12-2頁)
    • 12-2 台灣證券交易所(第12-5頁)
    • 12-3 Google 全球股市資訊(第12-12頁)
    • 12-4 Yahoo 股市資訊(第12-15頁)
    • 12-5 台灣股市資料讀取與圖表製作(第12-18頁)
  • 第十三章 金融資訊的應用(第13-1頁)
    • 13-1 台灣銀行利率查詢(第13-2頁)
    • 13-2 取得 HTML 文件(第13-2頁)
    • 13-3 分析 HTML 文件(第13-4頁)
    • 13-4 將利率表儲存成 CSV 檔案(第13-6頁)
    • 13-5 取得最優惠利率(第13-8頁)
    • 13-6 基金資料(第13-10頁)
  • 第十四章 Dcard 社群服務網站(第14-1頁)
    • 14-1 進入網站(第14-2頁)
    • 14-2 分析網站(第14-3頁)
    • 14-3 抓取預設的熱門貼文(第14-10頁)
    • 14-4 爬取更多 Dcard 熱門文章(第14-11頁)
  • 第十五章 星座屋網站(第15-1頁)
    • 15-1 進入星座屋網站(第15-2頁)
    • 15-2 分析網站與爬取星座運勢文字(第15-2頁)
    • 15-3 星座圖片的下載(第15-5頁)
  • 第十六章 小說網站(第16-1頁)
    • 16-1 進入小說網站(第16-2頁)
    • 16-2 解析網頁(第16-3頁)
    • 16-3 處理編碼問題(第16-4頁)
    • 16-4 爬取書籍章節標題(第16-5頁)
    • 16-5 爬取章節內容的連結(第16-7頁)
    • 16-6 從章節超連結輸出小說內容(第16-8頁)
    • 16-7 將小說內文存入檔案(第16-11頁)
  • 第十七章 台灣高鐵網站(第17-1頁)
    • 17-1 查詢台灣高鐵的站名(第17-2頁)
    • 17-2 時刻表查詢(第17-5頁)
  • 第十八章 維基百科(第18-1頁)
    • 18-1 維基百科的中文網址(第18-2頁)
    • 18-2 爬取台積電主文資料(第18-3頁)
    • 18-3 台積電的簡史(第18-4頁)
    • 18-4 URL 編碼(第18-6頁)
  • 第十九章 Python 與 Facebook(第19-1頁)
    • 19-1 Facebook 圖形 API(第19-2頁)
    • 19-2 facebook-sdk 存取資料的應用(第19-14頁)
  • 第二十章 Google API(第20-1頁)
    • 20-1 申請 Google API 金鑰(第20-2頁)
    • 20-2 基本操作 Google Map(第20-4頁)
    • 20-3 爬蟲擷取 Google 地理資訊(第20-6頁)
    • 20-4 地理資訊的基本應用(第20-6頁)
    • 20-5 找尋指定區域內的景點(第20-8頁)
  • 第二十一章 Yahoo 拍賣網站(第21-1頁)
    • 21-1 Yahoo 拍賣網站(第21-2頁)
    • 21-2 分析網頁與單個商品搜尋(第21-4頁)
    • 21-3 系列商品搜尋(第21-7頁)
  • 第二十二章 Hotels.com 旅宿網站(第22-1頁)
    • 22-1 Hotels.com 旅宿網站(第22-2頁)
    • 22-2 解析輸入表單(第22-3頁)
    • 22-3 獲得查詢資料(第22-4頁)
    • 22-4 列出一系列所找到的旅館(第22-8頁)
  • 第二十三章 交友網站(第23-1頁)
    • 23-1 進入交友網站(第23-2頁)
    • 23-2 分析網頁(第23-3頁)
    • 23-3 爬取第一筆資料(第23-5頁)
    • 23-4 將爬取的資料儲存至 CSV 檔案(第23-8頁)
    • 23-5 爬取與儲存 Ajax 加載的頁面(第23-10頁)
    • 23-6 教育程度分析(第23-12頁)
    • 23-7 身高分析(第23-13頁)
    • 23-8 年齡分析(第23-15頁)
  • 第二十四章 Requests-HTML 模組(第24-1頁)
    • 24-1 安裝與導入(第24-2頁)
    • 24-2 使用者請求 Session(第24-2頁)
    • 24-3 認識回傳資料型態與幾個重要屬性(第24-3頁)
    • 24-4 數據清洗與爬取(第24-5頁)
    • 24-5 搜尋豆瓣電影網站(第24-9頁)
    • 24-6 Ajax 動態數據加載(第24-11頁)
  • 第二十五章 人力銀行網站(第25-1頁)
    • 25-1 認識人力銀行網頁(第25-2頁)
    • 25-2 分析與設計簡單的爬蟲程式(第25-3頁)
    • 25-3 更進一步分析網頁(第25-4頁)
  • 第二十六章 Scrapy(第26-1頁)
    • 26-1 安裝 Scrapy(第26-2頁)
    • 26-2 從簡單的實例開始 - 建立 Scrapy 專案(第26-3頁)
    • 26-3 Scrapy 定位元素(第26-7頁)
    • 26-4 使用 cookie 登入(第26-9頁)
    • 26-5 保存文件為 JSON 和 CSV 檔案(第26-10頁)
    • 26-6 Scrapy 架構圖(第26-11頁)
    • 26-7 專題爬取多頁PTT 資料(第26-14頁)
紙本書 NT$ 650
單本電子書
NT$ 455

點數租閱 20點
租期14天
今日租書可閱讀至2019-12-23
還沒安裝 HyRead 3 嗎?馬上免費安裝~
QR Code