
0人評分過此書
本書深入系統地介紹Python流行框架Scrapy的相關技術及使用技巧。全書共十四章,從邏輯上可分為基礎篇和高級篇兩部分,基礎篇重點介紹Scrapy的核心元素,如spider、selector、item、link等;高級篇講解爬蟲的高級話題,如登錄認證、文件下載、執行JavaScript、動態網頁爬取、使用HTTP代理、分佈式爬蟲的編寫等,並配合項目案例講解,包括供練習使用的網站,以及京東、知乎、豆瓣、360爬蟲案例等。
本書案例豐富,注重實踐,代碼註解詳盡,適合有一定Python語言基礎,想學習編寫複雜網路爬蟲的讀者使用。
本書案例豐富,注重實踐,代碼註解詳盡,適合有一定Python語言基礎,想學習編寫複雜網路爬蟲的讀者使用。
- 版權訊息
- 內容簡介
- 作者簡介
- 前言
-
第1章 初識Scrapy
-
1.1 網路爬蟲是什麼
-
1.2 Scrapy簡介及安裝
-
1.3 編寫第一個Scrapy爬蟲
-
1.3.1 項目需求
-
1.3.2 創建項目
-
1.3.3 分析頁面
-
1.3.4 實現Spider
-
1.3.5 運行爬蟲
-
-
1.4 本章小結
-
-
第2章 編寫Spider
-
2.1 Scrapy框架結構及工作原理
-
2.2 Request和Response物件
-
2.2.1 Request物件
-
2.2.2 Response物件
-
-
2.3 Spider開發流程
-
2.3.1 繼承scrapy.Spider
-
2.3.2 為Spider命名
-
2.3.3 設定起始爬取點
-
2.3.4 實現頁面解析函數
-
-
2.4 本章小結
-
-
第3章 使用Selector提取數據
-
3.1 Selector物件
-
3.1.1 創建物件
-
3.1.2 選中數據
-
3.1.3 提取數據
-
-
3.2 Response內置Selector
-
3.3 XPath
-
3.3.1 基礎語法
-
3.3.2 常用函數
-
-
3.4 CSS選擇器
-
3.5 本章小結
-
-
第4章 使用Item封裝數據
-
4.1 Item和Field
-
4.2 拓展Item子類
-
4.3 Field元數據
-
4.4 本章小結
-
-
第5章 使用Item Pipeline處理數據
-
5.1 Item Pipeline
-
5.1.1 實現Item Pipeline
-
5.1.2 啟用Item Pipeline
-
-
5.2 更多例子
-
5.2.1 過濾重複數據
-
5.2.2 將數據存入MongoDB
-
-
5.3 本章小結
-
-
第6章 使用LinkExtractor提取連結
-
6.1 使用LinkExtractor
-
6.2 描述提取規則
-
6.3 本章小結
-
-
第7章 使用Exporter導出數據
-
7.1 指定如何導出數據
-
7.1.1 命令行參數
-
7.1.2 配置文件
-
-
7.2 添加導出數據格式
-
7.2.1 源碼參考
-
7.2.2 實現Exporter
-
-
7.3 本章小結
-
-
第8章 項目練習
-
8.1 項目需求
-
8.2 頁面分析
-
8.3 編碼實現
-
8.4 本章小結
-
-
第9章 下載文件和圖片
-
9.1 FilesPipeline和ImagesPipeline
-
9.1.1 FilesPipeline使用說明
-
9.1.2 ImagesPipeline使用說明
-
-
9.2 項目實戰:爬取matplotlib例子源碼文件
-
9.2.1 項目需求
-
9.2.2 頁面分析
-
9.2.3 編碼實現
-
-
9.3 項目實戰:下載360圖片
-
9.3.1 項目需求
-
9.3.2 頁面分析
-
9.3.3 編碼實現
-
-
9.4 本章小結
-
-
第10章 模擬登錄
-
10.1 登錄實質
-
10.2 Scrapy模擬登錄
-
10.2.1 使用FormRequest
-
10.2.2 實現登錄Spider
-
-
10.3 識別驗證碼
-
10.3.1 OCR識別
-
10.3.2 網路平台識別
-
10.3.3 人工識別
-
-
10.4 Cookie登錄
-
10.4.1 獲取瀏覽器Cookie
-
10.4.2 CookiesMiddleware源碼分析
-
10.4.3 實現BrowserCookiesMiddleware
-
10.4.4 爬取知乎個人訊息
-
-
10.5 本章小結
-
-
第11章 爬取動態頁面
-
11.1 Splash彩現引擎
-
11.1.1 render.html端點
-
11.1.2 execute端點
-
-
11.2 在Scrapy中使用Splash
-
11.3 項目實戰:爬取toscrape中的名人名言
-
11.3.1 項目需求
-
11.3.2 頁面分析
-
11.3.3 編碼實現
-
-
11.4 項目實戰:爬取京東商城中的書籍訊息
-
11.4.1 項目需求
-
11.4.2 頁面分析
-
11.4.3 編碼實現
-
-
11.5 本章小結
-
-
第12章 存入資料庫
-
12.1 SQLite
-
12.2 MySQL
-
12.3 MongoDB
-
12.4 Redis
-
12.5 本章小結
-
-
第13章 使用HTTP代理
-
13.1 HttpProxyMiddleware
-
13.1.1 使用簡介
-
13.1.2 源碼分析
-
-
13.2 使用多個代理
-
13.3 獲取免費代理
-
13.4 實現隨機代理
-
13.5 項目實戰:爬取豆瓣電影訊息
-
13.5.1 項目需求
-
13.5.2 頁面分析
-
13.5.3 編碼實現
-
-
13.6 本章小結
-
-
第14章 分佈式爬取
-
14.1 Redis的使用
-
14.1.1 安裝Redis
-
14.1.2 Redis基本命令
-
14.1.3 Python訪問Redis
-
-
14.2 scrapy-redis源碼分析
-
14.2.1 分配爬取任務部分
-
14.2.2 彙總爬取數據部分
-
-
14.3 使用scrapy-redis進行分佈式爬取
-
14.3.1 搭建環境
-
14.3.2 項目實戰
-
-
14.4 本章小結
-
- 出版地 : 臺灣
- 語言 : 繁體中文
評分與評論
請登入後再留言與評分