0人評分過此書

精通Scrapy網路爬蟲

作者
出版日期
2020
閱讀格式
EPUB
書籍分類
學科分類
ISBN
9789865163952

本館館藏

借閱規則
當前可使用人數 3
借閱天數 14
線上看 0
借閱中 0
選擇分享方式

推薦本館採購書籍

您可以將喜歡的電子書推薦給圖書館,圖書館會參考讀者意見進行採購

讀者資料
圖書館 桃園市立圖書館
* 姓名
* 身分
系所
* E-mail
※ 我們會寄送一份副本至您填寫的Email中
電話
※ 電話格式為 區碼+電話號碼(ex. 0229235151)/ 手機格式為 0900111111
* 請輸入驗證碼
本書深入系統地介紹Python流行框架Scrapy的相關技術及使用技巧。全書共十四章,從邏輯上可分為基礎篇和高級篇兩部分,基礎篇重點介紹Scrapy的核心元素,如spider、selector、item、link等;高級篇講解爬蟲的高級話題,如登錄認證、文件下載、執行JavaScript、動態網頁爬取、使用HTTP代理、分佈式爬蟲的編寫等,並配合項目案例講解,包括供練習使用的網站,以及京東、知乎、豆瓣、360爬蟲案例等。
本書案例豐富,注重實踐,代碼註解詳盡,適合有一定Python語言基礎,想學習編寫複雜網路爬蟲的讀者使用。
  • 版權訊息
  • 內容簡介
  • 作者簡介
  • 前言
  • 第1章 初識Scrapy
    • 1.1 網路爬蟲是什麼
    • 1.2 Scrapy簡介及安裝
    • 1.3 編寫第一個Scrapy爬蟲
      • 1.3.1 項目需求
      • 1.3.2 創建項目
      • 1.3.3 分析頁面
      • 1.3.4 實現Spider
      • 1.3.5 運行爬蟲
    • 1.4 本章小結
  • 第2章 編寫Spider
    • 2.1 Scrapy框架結構及工作原理
    • 2.2 Request和Response物件
      • 2.2.1 Request物件
      • 2.2.2 Response物件
    • 2.3 Spider開發流程
      • 2.3.1 繼承scrapy.Spider
      • 2.3.2 為Spider命名
      • 2.3.3 設定起始爬取點
      • 2.3.4 實現頁面解析函數
    • 2.4 本章小結
  • 第3章 使用Selector提取數據
    • 3.1 Selector物件
      • 3.1.1 創建物件
      • 3.1.2 選中數據
      • 3.1.3 提取數據
    • 3.2 Response內置Selector
    • 3.3 XPath
      • 3.3.1 基礎語法
      • 3.3.2 常用函數
    • 3.4 CSS選擇器
    • 3.5 本章小結
  • 第4章 使用Item封裝數據
    • 4.1 Item和Field
    • 4.2 拓展Item子類
    • 4.3 Field元數據
    • 4.4 本章小結
  • 第5章 使用Item Pipeline處理數據
    • 5.1 Item Pipeline
      • 5.1.1 實現Item Pipeline
      • 5.1.2 啟用Item Pipeline
    • 5.2 更多例子
      • 5.2.1 過濾重複數據
      • 5.2.2 將數據存入MongoDB
    • 5.3 本章小結
  • 第6章 使用LinkExtractor提取連結
    • 6.1 使用LinkExtractor
    • 6.2 描述提取規則
    • 6.3 本章小結
  • 第7章 使用Exporter導出數據
    • 7.1 指定如何導出數據
      • 7.1.1 命令行參數
      • 7.1.2 配置文件
    • 7.2 添加導出數據格式
      • 7.2.1 源碼參考
      • 7.2.2 實現Exporter
    • 7.3 本章小結
  • 第8章 項目練習
    • 8.1 項目需求
    • 8.2 頁面分析
    • 8.3 編碼實現
    • 8.4 本章小結
  • 第9章 下載文件和圖片
    • 9.1 FilesPipeline和ImagesPipeline
      • 9.1.1 FilesPipeline使用說明
      • 9.1.2 ImagesPipeline使用說明
    • 9.2 項目實戰:爬取matplotlib例子源碼文件
      • 9.2.1 項目需求
      • 9.2.2 頁面分析
      • 9.2.3 編碼實現
    • 9.3 項目實戰:下載360圖片
      • 9.3.1 項目需求
      • 9.3.2 頁面分析
      • 9.3.3 編碼實現
    • 9.4 本章小結
  • 第10章 模擬登錄
    • 10.1 登錄實質
    • 10.2 Scrapy模擬登錄
      • 10.2.1 使用FormRequest
      • 10.2.2 實現登錄Spider
    • 10.3 識別驗證碼
      • 10.3.1 OCR識別
      • 10.3.2 網路平台識別
      • 10.3.3 人工識別
    • 10.4 Cookie登錄
      • 10.4.1 獲取瀏覽器Cookie
      • 10.4.2 CookiesMiddleware源碼分析
      • 10.4.3 實現BrowserCookiesMiddleware
      • 10.4.4 爬取知乎個人訊息
    • 10.5 本章小結
  • 第11章 爬取動態頁面
    • 11.1 Splash彩現引擎
      • 11.1.1 render.html端點
      • 11.1.2 execute端點
    • 11.2 在Scrapy中使用Splash
    • 11.3 項目實戰:爬取toscrape中的名人名言
      • 11.3.1 項目需求
      • 11.3.2 頁面分析
      • 11.3.3 編碼實現
    • 11.4 項目實戰:爬取京東商城中的書籍訊息
      • 11.4.1 項目需求
      • 11.4.2 頁面分析
      • 11.4.3 編碼實現
    • 11.5 本章小結
  • 第12章 存入資料庫
    • 12.1 SQLite
    • 12.2 MySQL
    • 12.3 MongoDB
    • 12.4 Redis
    • 12.5 本章小結
  • 第13章 使用HTTP代理
    • 13.1 HttpProxyMiddleware
      • 13.1.1 使用簡介
      • 13.1.2 源碼分析
    • 13.2 使用多個代理
    • 13.3 獲取免費代理
    • 13.4 實現隨機代理
    • 13.5 項目實戰:爬取豆瓣電影訊息
      • 13.5.1 項目需求
      • 13.5.2 頁面分析
      • 13.5.3 編碼實現
    • 13.6 本章小結
  • 第14章 分佈式爬取
    • 14.1 Redis的使用
      • 14.1.1 安裝Redis
      • 14.1.2 Redis基本命令
      • 14.1.3 Python訪問Redis
    • 14.2 scrapy-redis源碼分析
      • 14.2.1 分配爬取任務部分
      • 14.2.2 彙總爬取數據部分
    • 14.3 使用scrapy-redis進行分佈式爬取
      • 14.3.1 搭建環境
      • 14.3.2 項目實戰
    • 14.4 本章小結
  • 出版地 臺灣
  • 語言 繁體中文

評分與評論

請登入後再留言與評分
幫助
您好,請問需要甚麼幫助呢?
使用指南

客服專線:0800-000-747

服務時間:週一至週五 AM 09:00~PM 06:00

loading