Python 爬蟲的工具鍊

Introduction

資料爬蟲是資料分析的入門磚，Python 更是資料爬蟲的熱門工具。因為熱門，所以也會有許許多多相關的配套工具出現。但對於新手來說，該如何尋找到適合的工具其實是很麻煩的。這一篇文章會介紹一下幾個比較主流的相關工具，與他們適合的使用時機。

Requests / urllib

Requests 或是 urllib 這兩個套件都是用於處理 HTTP 協定的工具。urllib 是內建於 Python 有比較完整的 HTTP 的功能（包含網址編碼、檔案下載之類的），Requests 則比較著重在友善地處理 Request/Response 的傳輸。

BeautifulSoup / Pyquery

BeautifulSoup 與 Pyquery 是用在接到 HTML 字串的 Response 之後，要如何將他們解析為一個 DOM base 的物件使用。lxml 跟 html5lib 是兩個作為讀懂 HTML 字串的解析器（parser）。這兩個套件都支援使用類似 css selector 的方式找資料。

Xpath

XPath 是基於 XML 格式的定位技術，也可以將 HTML 視為是 XML 的方式處理，再使用 XPath 找到需要的資料。

小結

以上這些爬蟲工具大致可以分為幾個類型：

靜態網站的資料取得：Requests / urllib
網頁資料的解析爬取：BeautifulSoup / Pyquery / Xpath
動態網站的資料取得：Selenium / PhantomJS / Ghost
多頁面的爬蟲框架：Scrapy / Pyspider

嗨，我是維元，近期推出一個全新型態的【 Python 資料科學教學實戰營】，結合多元教學形式及豐富課程經驗幫助你更有效地學習。新課程「 Python 程式設計基礎養成」正在早鳥募資中，歡迎你一起加入資料領域！誠摯的邀請你跟著我們一起從 Python 入門開始，走進資料科學的世界 🙌

📍 報名頁面： https://dscareer.kolable.app/
📍 報名頁面： https://dscareer.kolable.app/
📍 報名頁面： https://dscareer.kolable.app/

License

本著作由 Chang, Wei-Yaun (v123582) 製作，
以創用CC 姓名標示-相同方式分享 3.0 Unported授權條款釋出。

Python 爬蟲的工具鍊

Python 爬蟲的工具鍊

Introduction

Requests / urllib

BeautifulSoup / Pyquery

Xpath

Selenium

PhantomJS

Ghost

Scrapy

Pyspider

小結

License