精通Scrapy網路爬蟲｜iRead eBooks 華藝電子書

0人評分過此書

精通Scrapy網路爬蟲

作者

：

劉碩 (著)

出版社

：

崧燁文化事業有限公司

出版日期

：

2020

閱讀格式

：

EPUB

書籍分類

：

學術書 ; 電腦

學科分類

：

科學類

ISBN

：

9789865163952

Scrapy 爬蟲資料庫 Redis XPath Spider

本館館藏

借閱規則

當前可使用人數 3 人

借閱天數 14 天

線上看 0 人

丨

借閱中 0 人

選擇分享方式

推薦本館採購書籍

您可以將喜歡的電子書推薦給圖書館，圖書館會參考讀者意見進行採購

讀者資料

圖書館：桃園市立圖書館

* 姓名：

* 身分：

系所：

* E-mail ：

※ 我們會寄送一份副本至您填寫的Email中

電話：

※ 電話格式為區碼+電話號碼(ex. 0229235151)/ 手機格式為 0900111111

* 請輸入驗證碼：

更新驗證碼

內容簡介
目錄

本書深入系統地介紹Python流行框架Scrapy的相關技術及使用技巧。全書共十四章，從邏輯上可分為基礎篇和高級篇兩部分，基礎篇重點介紹Scrapy的核心元素，如spider、selector、item、link等；高級篇講解爬蟲的高級話題，如登錄認證、文件下載、執行JavaScript、動態網頁爬取、使用HTTP代理、分佈式爬蟲的編寫等，並配合項目案例講解，包括供練習使用的網站，以及京東、知乎、豆瓣、360爬蟲案例等。
本書案例豐富，注重實踐，代碼註解詳盡，適合有一定Python語言基礎，想學習編寫複雜網路爬蟲的讀者使用。

版權訊息
內容簡介
作者簡介
前言
第1章初識Scrapy
- 1.1 網路爬蟲是什麼
- 1.2 Scrapy簡介及安裝
- 1.3 編寫第一個Scrapy爬蟲
  - 1.3.1 項目需求
  - 1.3.2 創建項目
  - 1.3.3 分析頁面
  - 1.3.4 實現Spider
  - 1.3.5 運行爬蟲
- 1.4 本章小結
第2章編寫Spider
- 2.1 Scrapy框架結構及工作原理
- 2.2 Request和Response物件
  - 2.2.1 Request物件
  - 2.2.2 Response物件
- 2.3 Spider開發流程
  - 2.3.1 繼承scrapy.Spider
  - 2.3.2 為Spider命名
  - 2.3.3 設定起始爬取點
  - 2.3.4 實現頁面解析函數
- 2.4 本章小結
第3章使用Selector提取數據
- 3.1 Selector物件
  - 3.1.1 創建物件
  - 3.1.2 選中數據
  - 3.1.3 提取數據
- 3.2 Response內置Selector
- 3.3 XPath
  - 3.3.1 基礎語法
  - 3.3.2 常用函數
- 3.4 CSS選擇器
- 3.5 本章小結
第4章使用Item封裝數據
- 4.1 Item和Field
- 4.2 拓展Item子類
- 4.3 Field元數據
- 4.4 本章小結
第5章使用Item Pipeline處理數據
- 5.1 Item Pipeline
  - 5.1.1 實現Item Pipeline
  - 5.1.2 啟用Item Pipeline
- 5.2 更多例子
  - 5.2.1 過濾重複數據
  - 5.2.2 將數據存入MongoDB
- 5.3 本章小結
第6章使用LinkExtractor提取連結
- 6.1 使用LinkExtractor
- 6.2 描述提取規則
- 6.3 本章小結
第7章使用Exporter導出數據
- 7.1 指定如何導出數據
  - 7.1.1 命令行參數
  - 7.1.2 配置文件
- 7.2 添加導出數據格式
  - 7.2.1 源碼參考
  - 7.2.2 實現Exporter
- 7.3 本章小結
第8章項目練習
- 8.1 項目需求
- 8.2 頁面分析
- 8.3 編碼實現
- 8.4 本章小結
第9章下載文件和圖片
- 9.1 FilesPipeline和ImagesPipeline
  - 9.1.1 FilesPipeline使用說明
  - 9.1.2 ImagesPipeline使用說明
- 9.2 項目實戰：爬取matplotlib例子源碼文件
  - 9.2.1 項目需求
  - 9.2.2 頁面分析
  - 9.2.3 編碼實現
- 9.3 項目實戰：下載360圖片
  - 9.3.1 項目需求
  - 9.3.2 頁面分析
  - 9.3.3 編碼實現
- 9.4 本章小結
第10章模擬登錄
- 10.1 登錄實質
- 10.2 Scrapy模擬登錄
  - 10.2.1 使用FormRequest
  - 10.2.2 實現登錄Spider
- 10.3 識別驗證碼
  - 10.3.1 OCR識別
  - 10.3.2 網路平台識別
  - 10.3.3 人工識別
- 10.4 Cookie登錄
  - 10.4.1 獲取瀏覽器Cookie
  - 10.4.2 CookiesMiddleware源碼分析
  - 10.4.3 實現BrowserCookiesMiddleware
  - 10.4.4 爬取知乎個人訊息
- 10.5 本章小結
第11章爬取動態頁面
- 11.1 Splash彩現引擎
  - 11.1.1 render.html端點
  - 11.1.2 execute端點
- 11.2 在Scrapy中使用Splash
- 11.3 項目實戰：爬取toscrape中的名人名言
  - 11.3.1 項目需求
  - 11.3.2 頁面分析
  - 11.3.3 編碼實現
- 11.4 項目實戰：爬取京東商城中的書籍訊息
  - 11.4.1 項目需求
  - 11.4.2 頁面分析
  - 11.4.3 編碼實現
- 11.5 本章小結
第12章存入資料庫
- 12.1 SQLite
- 12.2 MySQL
- 12.3 MongoDB
- 12.4 Redis
- 12.5 本章小結
第13章使用HTTP代理
- 13.1 HttpProxyMiddleware
  - 13.1.1 使用簡介
  - 13.1.2 源碼分析
- 13.2 使用多個代理
- 13.3 獲取免費代理
- 13.4 實現隨機代理
- 13.5 項目實戰：爬取豆瓣電影訊息
  - 13.5.1 項目需求
  - 13.5.2 頁面分析
  - 13.5.3 編碼實現
- 13.6 本章小結
第14章分佈式爬取
- 14.1 Redis的使用
  - 14.1.1 安裝Redis
  - 14.1.2 Redis基本命令
  - 14.1.3 Python訪問Redis
- 14.2 scrapy-redis源碼分析
  - 14.2.1 分配爬取任務部分
  - 14.2.2 彙總爬取數據部分
- 14.3 使用scrapy-redis進行分佈式爬取
  - 14.3.1 搭建環境
  - 14.3.2 項目實戰
- 14.4 本章小結

商管‧財經

多媒體電子書

文學‧小說

設計‧藝術

生活

圖文‧漫畫

科普

人文

社科

親子‧童書

語言

電腦

考用‧參考書

理工農醫

學術書

政府出版品

總類

哲學類

宗教類

科學類

應用科學類

社會科學類

中國史地

世界史地

語言文學類

藝術類