如何用Python網(wǎng)絡(luò)爬蟲獲取頭條所有好友信息?
前言
大家好,我是黃偉。今日頭條我發(fā)覺做的挺不錯,啥都不好爬,出于好奇心的驅(qū)使,小編想獲取到自己所有的頭條好友,
看似簡單,那么情況確實是這樣嗎,下面我們來看下吧。
項目目標(biāo)
獲取所有頭條好友昵稱
項目實踐
編輯器:sublime text 3
瀏覽器:360瀏覽器,順帶一個頭條號
實驗步驟1.登陸自己的頭條號:
可以看到2599,不知道誰會是下一個幸運(yùn)觀眾了,哈哈哈哈哈,下面我們老樣子,打開瀏覽器,因為我們是要獲取到所有的好友啊,所以我們得先進(jìn)入粉絲列表看看有哪些粉絲吧:
然后右鍵--審查元素,來一波騷操作,定位粉絲的位置:
接下來我們要做的就是獲取粉絲的昵稱,從上面的圖可以看出我余下的粉絲都隱藏在ajax加載的動態(tài)頁面中,如果我不進(jìn)行滾動則看不到后面的粉絲,那怎么辦呢?不過不要緊,遇到問題先不慌,淡定。
2.查找粉絲列表的接口
打開network:
然后你會發(fā)現(xiàn)有很多get_info_list 中文譯為獲取信息列表,我想這應(yīng)該很重要,打開一看:
媽媽耶,這啥玩意,嚇得我都不會說話了。
3.加載所有請求
于是只好滿滿滾動鼠標(biāo)滾輪期待發(fā)現(xiàn)點(diǎn)什么,終于,功夫不負(fù)苦心人,終于讓我滾到了有用的結(jié)果:
于是我在看看它的頭部信息,有重大發(fā)現(xiàn):
4.找接口分析內(nèi)容,轉(zhuǎn)換Unicode
可以看到用戶的昵稱使用Unicode碼表示,所以我們需要將他們轉(zhuǎn)換為中文,關(guān)于Unicode轉(zhuǎn)中文,兩種方法:
ss='u4e00u8defu5411u897f8635'print((ss.encode('utf8')).decode())print(eval('u"%s"' % ss))
沒毛病,老鐵。
5.獲取頁面文件
那我們現(xiàn)在就要獲取這個頁面的所有結(jié)果啦:
發(fā)現(xiàn)既然和結(jié)果不一樣,這是什么騷操作,好吧,我服了。
6.對頁面數(shù)據(jù)進(jìn)行猜解
通過對上上個圖的反復(fù)分析,我發(fā)現(xiàn)一個很重要的信息,那就是pagesize的值就等于當(dāng)前頁面所顯示的粉絲的數(shù)量,那小編有2599個粉絲,那pagesize不就是2599嗎?哈哈,說干就干:
然后小編不斷對頁面的粉絲進(jìn)行請求:
發(fā)現(xiàn)還是不行啊,跟我們想的背道而馳,在試試,發(fā)現(xiàn)最多只有200才行的通:
其實這個情況下,已經(jīng)捕捉到所有請求了,只是那些粉絲每28個粉絲分為一個請求,而且每個請求的時間戳不一,其實我們可以用三方軟件來捕獲這些請求響應(yīng)然后將他們加入到程序中,我們好對他們進(jìn)行一個請求分析,最后將他們保存為json格式的文件,然后我們獲取到他們對應(yīng)的值。
7.打印粉絲名稱和響應(yīng)正常的網(wǎng)址
我們還可以將所有請求中cursor最小的值和最大值拿出來分析,通過查找我找到,
cursor取值:1570591241~1589072863
這個信息很重要,接下來我們就可以依次對這些cursor構(gòu)建請求了:
我們將所有能成功請求的頁面信息輸入到1.txt 文件中去,然后我們在對1.txt中的網(wǎng)頁內(nèi)容逐個讀取。然后我們獲取他們的json文件保存下來,最后直接把他讀取出來就ok啦。由于時間的關(guān)系,在此我只演示上圖中出現(xiàn)的兩百條信息,我們把它保存為json文件然后用json 模塊進(jìn)行讀。
json是系統(tǒng)自帶的模塊,所以直接導(dǎo)入json模塊并讀取文件:
終于全部打印出來啦,哈哈哈,然后我們就可以去獲取我們自己關(guān)注了哪些人,如果有人把我們?nèi)∠P(guān)注了,那么我們也相應(yīng)取消對他們的關(guān)注。通過一段時間的爬取,終于爬的差不多了,不過我想應(yīng)該沒有爬完,因為網(wǎng)站有反爬:
項目總結(jié)
通過對今日頭條ajax和一些加密數(shù)據(jù)的一些情況使我認(rèn)識到爬蟲這條路真的很遠(yuǎn),不學(xué)js逆向是不可能的。希望大家多多學(xué)習(xí),學(xué)無止境的。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.1立即下載>> 【限時下載】ADI中國三十周年感恩回饋助力企業(yè)升級!
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實用主義
- 7 騰訊 Q2 財報亮眼:AI 已成第二增長曲線
- 8 谷歌吹響AI沖鋒號,AI還有哪些機(jī)會
- 9 蘋果把身家押在Siri上:一場輸不起的自我革命
- 10 共探合作新機(jī)遇!江門市新會區(qū)(深圳)“AI + 機(jī)器人” 產(chǎn)業(yè)對接會成功舉辦