產品中心

java 11 httpClient 簡介與爬蟲實作

周冠甫 2020/12/30 10:13:35

0 8049

Java 9 中新增的標準化 Http Client API，在經過了兩個版本的更新與優化，終於在 Java 11大致完成了。

在Java 11 中，經過大幅改寫的Http Client API，package名稱由 jdk.incubator.http 改為 java.net.http，該API通過CompleteableFutures提供非阻塞請求和響應語義，完全支援非同步發送請求，可以聯合使用以觸發相應的動作。

新的Http Client API提供了對HTTP/2的支援，同時向下相容HTTP/1.1，容易實作的語法與主流開源API（如：Apache HttpClient、Jetty、OkHttp 等）類似甚至性能更高。並且使用上差異不大，讓開發者更好上手。

對比一下Apache HttpClient與java.net.http使用上差異：

Apache HttpClient

Http Client API

可以發現實作上差異不大，讓開發者更好上手。

一些基本的API使用：

設定 HTTP Protocol Version

設定 Header

設定 Timeout時間

多種資料格式發送POST Request

1. String

json格式

2.File

3. ByteArray

支援同步與非同步

同步

非同步

爬蟲實作：

上面介紹了如何使用API對網站進行請求並取得Response，

那麼我們要怎麼解析Res取得我們想要的資料呢？

這部分我利用Jsoup來進行解析，此libaray提供多種方法能取得html物件進行操作，

依照想Parser的網站結構進行設計，即可取得想到的資訊。

簡介Jsoup的功能:

可以從URL，文件或字符串中刮取並解析HTML
查找和提取數據，使用DOM遍歷或CSS選擇器
操縱HTML元素，屬性和文本
根據安全的白名單清理用戶提交的內容，以防止XSS攻擊
輸出整潔的HTML

此次Parser的網站架構及網址：

https://twcoupon.com/brandshop-%e9%ba%a5%e7%95%b6%e5%8b%9e-%e9%9b%bb%e8%a9%b1-%e5%9c%b0%e5%9d%80.html

實作解析邏輯：

執行結果：

偽裝：

如果想parser的網站有防爬蟲的設定怎麼辦呢?

大多數爬蟲被識別的原因是短時間request太多次，可先降低發送request的次數或延長間隔，

另外也可利用設定proxy以及模擬瀏覽器進行偽裝。

設定Proxy

模擬瀏覽器

不過現在很多網頁因為安全性限制所以不提供 http 的讀取，需要改用 HttpsReader 來抓 https 資料，

有興趣的同學可以前往參考資料最後一項，有相關實作可供參考。

最後：

這次介紹的僅止於網頁靜態的parser，再進階可以搭配selenium使用，

就可以踏足網站的更深處擷取資料囉。

參考資料：

https://docs.oracle.com/en/java/javase/11/docs/api/java.net.http/java/net/http/HttpClient.html

https://www.itread01.com/content/1558576864.html

https://jsoup.org/

https://medium.com/phelps-laboratory/parsing-company-name-and-id-by-java-e77efc75e584

周冠甫

相關文章

IntelliJ IDEA 配置 Maven 內網開發環境

使用 Bootify 快速生成 Spring Boot 程式架構

使用 JPA Support 套件簡化 JPA 架構建置

使用 Entity Graph 防止 N+1 問題

使用 i18n 設計多語系 API 資訊

Kafka Connect Elasticsearch Sink Connector 與 Elasticsearch 複合、聚合查詢

最新文章

如何讓AI成為設計師最強的工作夥伴 - 掌握 AI 指令技巧

Prompt Engineering: CoT, Structured Output, Delimiters

上線後的UX測試

如何讓AI成為設計師最強的工作夥伴 - 拓展輔助 AI 工具箱

四個輕量級UX測試方法

Android-加密生物辨識