chrome headless抓取websoket数据

很多页面上会有一些websocket动态数据，这些数据一般每过N秒会自动刷新数据，并在页面上进行闪烁数据。最明显的示例就是行情类数据。这里选取目标站点：https://datacenter.jin10.com/price 。

websocket-price

这里还是使用Headless Chrome模式进行抓取，不过这次换种玩法，不和selenium进行结合了。这里使用docker运行一个chrome实例。

docker run -d -p 9222:9222 --cap-add=SYS_ADMIN justinribeiro/chrome-headless

联网状态下，如果没有该镜像会从docker官方镜像站进行下载，下载成功后再运行，不过由于网络的原因，该image下载会比较慢，可以考虑换用国内源或者直接就放在后台，晚上让它跑。这里使用的环境是python3.7，安装相关模块的命令如下：

pip install websocket-client
pip install requests

这样我们已经启用了一个chrome headless的服务，接下来使用websocket 和chrome headless进行交互，代码如下：

import json
import time
import requests
import websocket
request_id = 0
target_url = 'https://datacenter.jin10.com/price'
def get_websocket_connection():
    r = requests.get('http://10.10.2.42:9222/json') #这是开启docker chrome headless的机器地址
    if r.status_code != 200:
        raise ValueError("can not get the api ,please check if docker is ready")
    conn_api = r.json()[0].get('webSocketDebuggerUrl')
    return websocket.create_connection(conn_api)
def run_command(conn, method, **kwargs):
    global request_id
    request_id += 1
    command = {'method': method,
               'id': request_id,
               'params': kwargs}
    conn.send(json.dumps(command))
    #while True:
    msg = json.loads(conn.recv())
    if msg.get('id') == request_id:
        return msg
def get_element():
    conn = get_websocket_connection()
    msg = run_command(conn, 'Page.navigate', url=target_url)
    time.sleep(5)
    js = "var p = document.querySelector('.jin-pricewall_list-item_b').innerText ; p ;"
    for _ in range(20):
        time.sleep(1)
        msg = run_command(conn, 'Runtime.evaluate', expression=js)
        print(msg.get('result')['result']['value'])
if __name__ == '__main__':
    get_element()

整体逻辑非常简单，打开指定页面，等待页面数据刷新，然后直接偷懒拿数据渲染之后的页面值。

chrome headless抓取websoket数据，首发于运维之路。

chrome headless抓取websoket数据

Trending Articles

[奇怪机翻组] 过分色气的深见君 / Yatara Yarashii Fukami-kun - 01 [WebRip] [1080P...

[ReinForce] 吸血鬼同盟 Dance In The Vampire Bund (BDRip 1920x1080 x264 FLAC)

有人買民雄嘉大博識嗎?(或美銓建設以前的建案)

JVID女郎搞暗黑《延禧》

MAME 0.277 免安裝中文版 - 街機遊戲模擬器

Photoshop.CS6 (免安裝隨身版隨插即用 ) (直接下載)

行星绕恒星边飞边解体令科学家惊心动魄

【日语无字】春之钟.Haru.no.kane.1985.JAP.vhsrip.NoSub.by.xiongzaixia&vivi

竹北高鐵第一豪宅若山怎麼了？竹北高鐵第一豪宅若山怎麼了？

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

出售: sound mechanics 音響架

关门一家亲：习远平、张澜澜、徐才厚

[转载]梦瑜伽三梦大法梦瑜伽的修行方法

詐騙猖獗網路名師也中鏢江兆君(小M老師)：學員勿上當！

Windbg 指令與分析之教學筆記

Office 安装管理器，一键下载/安装//打包ISO！支持2016-2024/365全版本！微软官方下载安全可靠！

回顧廿六年前北角地盤籠

【追新番字幕組】★[簡日雙語][ 勇者義彥和被引導的七人 12 最終回 / ゆうしゃヨシヒコとみちびかれしななにん Yusha Yoshihiko to...

C88圣战首日吸引18万人参战！会场工作人员名言汇总

SFC超級任天堂釣魚太郎1.2.3 (海釣太郎) 遊戲+金手指+模擬器！