俄罗斯黄片免费在线观看,国产又爽又大又黄a片

當前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

數(shù)據(jù)提取之JSON與JsonPATH的關系

2021-11-30 10:29

Python進階學習交流

關注

背景介紹

我們知道再爬蟲的過程中我們對于爬取到的網(wǎng)頁數(shù)據(jù)需要進行解析，因為大多數(shù)數(shù)據(jù)是不需要的，所以我們需要進行數(shù)據(jù)解析，常用的數(shù)據(jù)解析方式有正則表達式，xpath，bs4，這次我們來介紹一下另一個數(shù)據(jù)解析庫－－jsonpath，在此之前我們需要先了解一下什么是json。

一、初識Json

JSON（JavaScript Object Notation）是一種輕量級的數(shù)據(jù)交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用于進行數(shù)據(jù)交互的場景，比如網(wǎng)站前臺與后臺之間的數(shù)據(jù)交互。

Python 2．7及之后版本，自帶了JSON模塊，直接import json就可以使用了。

二、Json的基本使用

簡介

json簡單說就是javascript中的對象和數(shù)組，所以這兩種結構就是對象和數(shù)組兩種結構，通過這兩種結構可以表示各種復雜的結構；

對象：對象在js中表示為｛｝括起來的內容，數(shù)據(jù)結構為｛ key：value， key：value，．．．｝的鍵值對的結構，在面向對象的語言中，key為對象的屬性，value為對應的屬性值，所以很容易理解，取值方法為對象．key 獲取屬性值，這個屬性值的類型可以是數(shù)字、字符串、數(shù)組、對象這幾種。

數(shù)組：數(shù)組在js中是中括號［］括起來的內容，數(shù)據(jù)結構為［＂Python＂，＂javascript＂，＂C＋＋＂，．．．］，取值方式和所有語言中一樣，使用索引獲取，字段值的類型可以是數(shù)字、字符串、數(shù)組、對象幾種。

使用

json模塊提供了四個功能：dumps、dump、loads、load，用于字符串和 python數(shù)據(jù)類型間進行轉換。

把Json格式字符串解碼轉換成Python對象從json到python的類型轉化對照如下：

1．json．loads（）

import json

strDict ＝＇｛＂city＂：＂廣州＂，＂name＂：＂小黑＂｝＇

r ＝ json．loads（strDict）＃ json數(shù)據(jù)自動按Unicode存儲

rint（r）

結果如下：

｛＇city＇：＇廣州＇，＇name＇：＇小黑＇｝

2． json．load（）

讀取文件中json形式的字符串元素轉化成python類型

import json

s ＝ json．load（open（＇test．json＇，＇r＇，encoding＝＇utf－8＇））

print（s，type（s））

結果如下：

｛＇city＇：＇廣州＇，＇name＇：＇小黑＇｝＜class ＇dict＇＞

3． json．dumps（）

實現(xiàn)python類型轉化為json字符串，返回一個str對象把一個Python對象編碼轉換成Json字符串

import json

listStr ＝［1， 2， 3， 4］

dictStr ＝｛＂city＂：＂北京＂，＂name＂：＂大貓＂｝

s1 ＝ json．dumps（listStr）

s2 ＝ json．dumps（dictStr，ensure＿ascii＝False）

print（s1，type（s1））

print（s2）

結果如下：

［1， 2， 3， 4］＜class ＇str＇＞｛＂city＂：＂北京＂，＂name＂：＂大貓＂｝＜class ＇str＇＞

注意：

json．dumps（）序列化時默認使用的ascii編碼

添加參數(shù) ensure＿ascii＝False 禁用ascii編碼，按utf－8編碼

4． json．dump（）

將Python內置類型序列化為json對象后寫入文件

import json

json＿info ＝＂｛＇age＇：＇12＇｝＂

file ＝ open（＇ceshi．json＇，＇w＇，encoding＝＇utf－8＇）

json．dump（json＿info，file）

結果如下：

ceshii，json（目錄文件產(chǎn)生）

三、JsonPath

JsonPath 是一種信息抽取類庫，是從JSON文檔中抽取指定信息的工具，提供多種語言實現(xiàn)版本，包括：Javascript， Python， PHP 和 Java。

JsonPath 對于 JSON 來說，相當于 XPATH 對于 XML。

安裝方法：點擊Download URL鏈接下載jsonpath，解壓之后執(zhí)行python setup．py install

JsonPath與XPath語法對比

Json結構清晰，可讀性高，復雜度低，非常容易匹配，下表中對應了XPath的用法。

四、案例測試

我們爬取淘票票官網(wǎng)的城市信息，保存為json文件，進行jsonpath語法測試，獲取所有城市名稱。

請求

import requests

import time

url ＝＇https：／／dianying．taobao．com／cityAction．json？activityId＆＿ksTS＝1632211792156＿137＆jsoncallback＝jsonp138＆action＝cityAction＆n＿s＝new＆event＿submit＿doGetAllRegion＝true＇

headers ＝｛

＇user－agent＇：＇Mozilla／5．0 （Windows NT 10．0； Win64； x64） AppleWebKit／537．36 （KHTML， like Gecko） Chrome／91．0．4472．106 Safari／537．36＇，

｝

res ＝ requests．get（url，headers＝headers）

result ＝ res．content．decode（＇utf－8＇）

print（result）＃ xxx省略

注意：

headers里面的鍵值對最好都加上，還是有反爬的，該網(wǎng)站，這里為了簡便省去了；

保存數(shù)據(jù)

content ＝ result．split（＇（＇）［1］．split（＇）＇）［0］＃由于文件首尾的字符不需要需要剔除掉做字符串切割

with open（＇tpp．json＇，＇w＇，encoding＝＇utf－8＇）as fp：

fp．write（content）

打開json文件如下所示：

解析數(shù)據(jù)

這里我們獲取全部城市名稱

import json

import jsonpath

obj ＝ json．load（open（＇tpp．json＇，＇r＇，encoding＝＇utf－8＇））＃注意，這里是文件的形式，不能直接放一個文件名的字符串

city＿list ＝ jsonpath．jsonpath（obj，＇＄．．regionName＇）＃文件對象 jsonpath語法

print（city＿list）

結果如下：

五、總結

我們知道json是一種常見的數(shù)據(jù)傳輸形式，所以對于爬取數(shù)據(jù)的數(shù)據(jù)解析，json的相關操作是比較重要的，能夠加快我們的數(shù)據(jù)提取效率，本文簡單介紹了json和jsonpath的相關操作，對于測試網(wǎng)站（淘票票）的json做了簡單的數(shù)據(jù)解析，感興趣的小伙伴可以把其他數(shù)據(jù)解析一下。