PDF JPG
本書有DRM加密保護,需使用HyRead閱讀軟體開啟
  • Python網路爬蟲與資料分析入門實戰
  • 點閱:3901
    1287人已收藏
  • 並列題名:Web scraping and data analysis with Python
  • 作者: 林俊瑋, 林修博著
  • 出版社:博碩文化
  • 出版年:2018
  • ISBN:9789864343386
  • 格式:PDF,JPG
租期14天 今日租書可閱讀至2024-06-13

內容簡介
想自動化生活瑣事?想透過程式擷取網路上的公開資訊?學了Python卻不知道有什麼實際應用?正在尋找入門難度低且成就感高的Python專案?想知道網路爬蟲如何與資料分析結合?本書一次教給你!
 
本書適合閱讀的對象:
● 對網路爬蟲程式或資料分析有興趣者

● 想自動化生活瑣事(例如自動追蹤網站特價通知、節省資料收集的時間等),化被動資訊接收為主動
● Python新手或入門級讀者(知道何謂變數、if 判斷式與迴圈,寫過一些小程式),想練習低門檻及高成就感的Python專案
 
本書特色
 
● 基於熱門線上課程與實體教學的學員迴響重新編寫及增補而成的實戰書籍
 
● 以台灣讀者熟悉的網站為範例(PTT、Dcard、台灣證交所、蘋果日報網站、Yahoo奇摩電影、Google Maps API、IMDB電影資料庫等)的Python網路爬蟲程式教學
 
● 由淺入深,以實務需求為導向,涵蓋爬蟲常用函式庫、資料儲存、文件編碼、表單及登入頁處理、爬蟲程式被封鎖的常見原因等經驗談
 
● 全新的資料分析章節,包含三個爬蟲程式的經典應用:量化投資、影評情緒分析與商品特價通知


作者簡介
 
林俊瑋 
熱門開源專案「PTT網路版爬蟲」作者。加州大學爾灣分校(UC Irvine)博士候選人,研究領域為軟體測試自動化,曾執行包含網頁及手機 App 爬蟲實作的多個研究專案,也曾在國外知名研究機構及國內軟體公司實習,並有多年政府資訊部門工作與介接政府開放資料經驗。
林修博 

台灣大學電子工程研究所畢業,目前任職於軟體公司擔任全端工程師。有多年爬蟲撰寫經驗,並且將其商用化。


  • Chapter 01 環境設定與 網頁爬蟲初探(第1頁)
    • 1-1 環境設定及套件安裝:Anaconda(第1頁)
    • 1-2 使用 IDE:PyCharm(第11頁)
    • 1-3 使用 Jupyter Notebook(第20頁)
    • 1-4 網頁文件解構與網頁爬蟲初探(第25頁)
  • Chapter 02 Beautiful Soup 講解與網頁解構(第33頁)
    • 2-1 不要重複造輪子:寫爬蟲之前(第33頁)
    • 2-2 Beautiful Soup 重要功能(find(), find_all(), .text, .stripped_strings)(第36頁)
    • 2-3 網頁結構巡覽(parent, children, siblings)(第42頁)
    • 2-4 正規表示式(Regular Expression)(第46頁)
  • Chapter 03 網頁爬蟲範例實戰(第53頁)
    • 3-1 PTT 八卦板今日熱門文章(第53頁)
    • 3-2 Yahoo 奇摩電影本週新片(第60頁)
    • 3-3 兩大報當日焦點新聞(第66頁)
    • 3-4 Google 搜尋股價資訊(第69頁)
    • 3-5 Dcard 今日熱門文章(第74頁)
  • Chapter 04 使用 API(第79頁)
    • 4-1 API 簡介(第79頁)
    • 4-2 PTT 八卦板眾來源分佈(ipstack.com)(第83頁)
    • 4-3 IMDB API(第90頁)
    • 4-4 Google Maps APIs(Google Geocoding/Places API)(第98頁)
    • 4-5 Dcard API(第103頁)
  • Chapter 05 資料儲存(第109頁)
    • 5-1 儲存圖片與多媒體檔案(第109頁)
    • 5-2 儲存資料到 CSV 檔(第116頁)
    • 5-3 儲存資料到資料庫 SQLite(第122頁)
  • Chapter 06 不同編碼與類型的文件(第131頁)
    • 6-1 非 UTF-8 編碼的文件(第131頁)
    • 6-2 XML 文件(第138頁)
  • Chapter 07 進階爬蟲議題(第143頁)
    • 7-1 處理表單及登入頁 :台灣高鐵時刻查詢(第143頁)
    • 7-2 處理表單及登入頁 :Yelp 登入(第154頁)
    • 7-3 使用 WebDriver:台銀法拍屋資訊查詢(第158頁)
    • 7-4 爬蟲程式經驗談:被封鎖的常見原因、常用 Header 欄位、網站隱藏欄位、使用代理伺服器(第165頁)
  • Chapter 08 資料分析實戰(第175頁)
    • 8-1 台股每日盤後資訊爬蟲及策略回測(量化投資)(第175頁)
    • 8-2 電影評論情緒分析(中文自然語言處理與機器學習)(第189頁)
    • 8-3 商品特價 Gmail 通知:Costco 商品網頁(第203頁)
  • 附表 本書範例目標網站列表(第209頁)
  • 附錄 A 在 Mac 安裝 Anaconda 開發環境(第209頁)
  • 附錄 B Python 爬蟲框架 Scrapy 入門教學(第225頁)
    • B-1 Scrapy 環境安裝(第225頁)
    • B-2 簡易部落格爬蟲(第226頁)
    • B-3 Scrapy 系統架構(第229頁)
    • B-4 博客來網路書店爬蟲(第231頁)
紙本書 NT$ 450
單本電子書
NT$ 315

點數租閱 20點
租期14天
今日租書可閱讀至2024-06-13
同分類熱門書
還沒安裝 HyRead 3 嗎?馬上免費安裝~
QR Code