不管你是待業(yè)還是失業(yè),在這個(gè)被互聯(lián)網(wǎng)圍繞的時(shí)代里,選擇python爬蟲解密,就多了一項(xiàng)技能,還怕找不到工作?,還怕不好找工作?小編就來告訴你這個(gè)專業(yè)的優(yōu)勢(shì)到底體現(xiàn)在哪里:python爬蟲js加密解密系列文章合集,破了這幾種爬蟲加密算法后,我離牢房的路更近了【JS逆向3】,錯(cuò)誤的路線害死人,2021最全Python爬蟲學(xué)習(xí)路線和學(xué)習(xí)資料!??。
關(guān)于js加密解密的專題到此就先告一段落,后面的這個(gè)月的專題是其他的反爬蟲手段以及python編程的設(shè)計(jì)模式,js破解方面也會(huì)不定期的分享。在上個(gè)月中,js加密解密系列的文章大概有二十篇左右,主要圍繞登陸相關(guān)的js來分析,如果對(duì)js分析感興趣的可以參閱,同時(shí)也歡迎交流?!秙elenium的封殺與突破,記錄一次出師未捷身先死,淘寶、美團(tuán)對(duì)爬蟲的深入打擊》《Python實(shí)現(xiàn)DES、DES3、AES、RSA、MD5、SHA、HMAC加密方式及示例》《python實(shí)現(xiàn)愛奇藝登陸的密碼RSA加密》《在分析前端js中,Eval加密解密、js混淆概念及其破解》《微信公眾平臺(tái)的登陸密碼js加密分析及Python實(shí)現(xiàn)》《新浪微博PC端登陸js分析及Python實(shí)現(xiàn)微博post登陸》《京東post登陸參數(shù)js分析,密碼加密的RSA加密實(shí)現(xiàn)》《京東post登陸參數(shù)js分析,驗(yàn)證參數(shù)authcode的分析》《百度登陸POST參數(shù)分析,password及其他字段的js處理》《百度post參數(shù)分析(二)完結(jié),dv、traceid的js來源》《58同城post登陸參數(shù)分析,典型的eval加密js案例》《python登陸linkedin過程分析,及二次驗(yàn)證(一)》《Python POST登陸linkedin分析(完),完整實(shí)現(xiàn)過程》《Python爬蟲中深不可測(cè)的ua參數(shù),爬蟲的身份證》《post登陸分析實(shí)例,網(wǎng)站自定義password加密方式的分析》《分析淘寶登陸對(duì)selenium爬蟲的封殺方案,反爬蟲機(jī)制的升級(jí)》《淘寶封殺selenium的ua算法分析》《淘寶密碼加密方式分析,及python實(shí)現(xiàn)》《前端AES加密方式分析,及其python實(shí)現(xiàn)》《騰訊qq空間GET登陸JS分析》總結(jié)一下分析思路:頁(yè)面操作抓包——找可以數(shù)據(jù)包——多抓幾個(gè)分析可變字段和不可變字段,以及加密字段——逐個(gè)字段查找對(duì)應(yīng)js——驗(yàn)證大體思路是這樣,但是還是需要大量的練習(xí)才能真正掌握。下期預(yù)告:將著重python模式設(shè)計(jì),深入理解模式設(shè)計(jì)的作用及其應(yīng)用場(chǎng)景,同時(shí)對(duì)其他反爬蟲手段進(jìn)行分析,兼顧js分析。------------------------------ID:Python之戰(zhàn)|作|者|公(zhong)-號(hào):python之戰(zhàn) 專注Python,專注于網(wǎng)絡(luò)爬蟲、RPA的學(xué)習(xí)-踐行-總結(jié)喜歡研究技術(shù)瓶頸并分享,歡迎圍觀,共同學(xué)習(xí)。獨(dú)學(xué)而無友,則孤陋而寡聞!---------------------------
JS逆向是爬蟲的難點(diǎn),是爬蟲路上的攔路虎。所謂逆向就是破解網(wǎng)站使用的JS加密算法,拆解相關(guān)的參數(shù)。然后就可以登堂入室了。本文總結(jié)了JS中最常用的加密算法。正所謂練武不練功,到老一場(chǎng)空。掌握好加密算法就是爬蟲技術(shù)的功。如果你是爬蟲是認(rèn)真的,認(rèn)真閱讀,收藏,討論。偽加密算法:是一種用64個(gè)字符來表示任意二進(jìn)制數(shù)據(jù)的方法。問:為什么base64被成為偽加密算法?答:使用base64將明文變成密文的操作最多算是混淆。沒有密鑰注入算法,所以只要拿到密文進(jìn)行base64解密就能得到對(duì)應(yīng)的明文。當(dāng)然還有一種情況就是實(shí)現(xiàn)base64的代碼被改寫,成為定制版的base64算法。這也沒關(guān)系,把js代碼摳出來再用python去執(zhí)行,也能將密文解密。識(shí)別方式:由于base64的編碼的特性,要編碼的二進(jìn)制數(shù)據(jù)如果不是3的倍數(shù),*會(huì)剩下1個(gè)或2個(gè)字節(jié),Base64用x00字節(jié)在末尾補(bǔ)足后,再在編碼的末尾加上1個(gè)或2個(gè)=號(hào),表示補(bǔ)了多少字節(jié)。根據(jù)這個(gè)特性,一般密文結(jié)尾處如果是'='結(jié)尾的,可以先判斷是base64編碼而成。信息摘要算法:MD5、SHA摘要算法又稱哈希算法、散列算法。它通過一個(gè)函數(shù),把任意長(zhǎng)度的數(shù)據(jù)轉(zhuǎn)換為一個(gè)長(zhǎng)度固定的數(shù)據(jù)串(通常用16進(jìn)制的字符串表示)。信息摘要算法信息摘要位數(shù)備注---256的“閹割版”SHA---512的“閹割版”SHA-512128bit摘要算法不能被稱為加密算法,因?yàn)樗菃蜗虿僮髅魑牡摹蜗虿僮鞯囊馑季褪?,將明文變成‘密文’之后是無法再將'密文'變成明文(部分信息摘要算法已經(jīng)被突破,可實(shí)現(xiàn)'密'轉(zhuǎn)明)?;谶@種單向操作的特性,摘要算法一般被用于確保信息傳輸完整一致。在爬蟲模擬登錄部分這種算法用得會(huì)比較多,舉個(gè)栗子:假設(shè)我現(xiàn)在要將用戶名是kevin,密碼是123在網(wǎng)頁(yè)上進(jìn)行登錄,瀏覽器會(huì)先通過js代碼將密碼123轉(zhuǎn)成(MD5)再發(fā)送給服務(wù)器。服務(wù)器收到后,知道這個(gè)用戶名為kevin想要登錄,所以從數(shù)據(jù)庫(kù)中調(diào)取了kevin對(duì)應(yīng)的密碼123,然后在服務(wù)器端也對(duì)123進(jìn)行相應(yīng)的加密(哈希)也得到,校驗(yàn)兩者一致,服務(wù)器就返回給客服端登錄成功的響應(yīng)。在實(shí)際JS逆向中哈希函數(shù)的源碼經(jīng)常會(huì)被改寫,成為定制版哈希函數(shù);還有就是在哈希過程中,明文會(huì)被加鹽值,遇到些情況就需要認(rèn)真分析源碼。加鹽:上述栗子中,只對(duì)密碼進(jìn)行 md5 加密是肯定不夠的。聰明的程序員想出了個(gè)辦法,即使用戶的密碼很短,只要在他的短密碼后面加上一段很長(zhǎng)的字符,再計(jì)算 md5 ,那反推出原始密碼就變得非常困難了。加上的這段長(zhǎng)字符,我們稱為鹽(Salt),通過這種方式加密的結(jié)果,我們稱為加鹽 Hash。import hashlib md5 = hashlib.md5() md5.update(b'123I_love_salt') #此處的鹽值為 'I_love_salt' print(md5.hexdigest()) #運(yùn)行結(jié)果 識(shí)別方式:無論明文數(shù)據(jù)的長(zhǎng)度,經(jīng)過哈希之后,長(zhǎng)度都是固定的。MD5是32位十六進(jìn)制數(shù),SHA1是40位十六進(jìn)制數(shù),SHA224是56位十六進(jìn)制數(shù)等等。在獲得密文數(shù)據(jù)后,可先判斷是否是十六進(jìn)制數(shù)構(gòu)成,再判斷其長(zhǎng)度是否是常見信息摘要位數(shù)。對(duì)稱加密(加密解密密鑰相同):DES、3DES、AES對(duì)稱加密的核心就是密鑰,拿到密鑰就等于拿到數(shù)據(jù)。也不用去管你是AES還是DES,還有多少輪加密的,拿到密鑰就用python現(xiàn)成的庫(kù)去實(shí)現(xiàn)解密。AES密鑰長(zhǎng)度密鑰長(zhǎng)度對(duì)應(yīng)的輪數(shù)識(shí)別方式:密文數(shù)據(jù)的長(zhǎng)度會(huì)隨著明文數(shù)據(jù)的長(zhǎng)度而變化。非對(duì)稱加密(分公鑰私鑰):RSA對(duì)付像RSA這種非對(duì)稱加密算法,我們心中應(yīng)牢記十六字方針——“公鑰加密,私鑰解密。私鑰加密,公鑰解密”。在非對(duì)稱加密算法中,加密與解密的密鑰肯定是不一樣的(一樣的話,就不叫非對(duì)稱加密算法了)。牢記“十六字方針”后,我們只要找到‘公鑰’和‘私鑰’就能解密了。當(dāng)然python也有現(xiàn)成的庫(kù)進(jìn)行RSA解密。識(shí)別方式:RSA公鑰加密會(huì)進(jìn)行類似MD5加鹽的操作,所以相同的明文,用相同的公鑰進(jìn)行RSA加密會(huì)生成不同的密文。RSA的密鑰對(duì)不僅可能存在JS代碼中,還有很有可能會(huì)存在在HTML文件中。這時(shí)我們進(jìn)行全局搜索關(guān)鍵詞RSA,KEY,encrypt一處處判別就會(huì)有意外收獲。自定義加密函數(shù)顧名思義,這種加密解密形式是非常規(guī)的,每個(gè)程序員都可以寫屬于自己風(fēng)格的加密方式。對(duì)于逆向這種加密方式,我們還是摳出加密代碼就行了。這種形式的加密方式應(yīng)該算逆向中最難的,因?yàn)榻饷苷咝枰ダ斫饧用苷叩拇a邏輯,并避開加密者設(shè)的各種坑。*就看誰JS玩得更6了。補(bǔ)充在實(shí)際逆向項(xiàng)目中MD5、SHA、AES、RSA,自定義加密函數(shù)使用頻率是最多的。而且極有可能會(huì)碰到多種不同加密算法混合使用,例如:網(wǎng)頁(yè)數(shù)據(jù)先base64再AES再進(jìn)行base64,或者解密明文的RSA的密鑰對(duì)被AES加密了等等情況。DES、3DES、AES、RSA、MD5、SHA傳入的數(shù)據(jù)或者密鑰都是bytes數(shù)據(jù)類型,不是bytes數(shù)據(jù)類型的需要先轉(zhuǎn)換;密鑰一般是8的倍數(shù)。附錄參考下面表格是把明文123用不同算法加密后的密文。相關(guān)的加密方法源碼可以在下面的知識(shí)星球獲得。加密方式密文(明文:123)=(md5)==破了這幾種爬蟲加密算法后,我離牢房的路更近了【JS逆向3】我是麥?zhǔn)?,帶你學(xué)編程,陪你走職場(chǎng)的路。
這是我的Python學(xué)習(xí)路線的第二篇,專門針對(duì)爬蟲的學(xué)習(xí)路線,涵蓋了從入門到入神的4個(gè)階段,有目標(biāo),有路線,有作業(yè),也給了學(xué)習(xí)資源。作為一個(gè)工程師,總會(huì)時(shí)不時(shí)需要寫一些爬蟲。這年頭,非工程師都在學(xué)習(xí)寫爬蟲。會(huì)計(jì),HR,運(yùn)營(yíng),銷售都想通過爬蟲提高工作效率。我曾經(jīng)帶隊(duì)開發(fā)過兩個(gè)大型的爬蟲項(xiàng)目:1. 正品折扣爬取包括淘寶,京東在內(nèi)的幾十家商城的商品信息,找出正品。同樣商品找出最美麗的價(jià)格,類似于曾經(jīng)的一淘。這個(gè)產(chǎn)品雖然沒有獲得商業(yè)上的成功,但在App市場(chǎng)上有幾百萬的下載量。這樣的項(xiàng)目沒有大資本,根本玩不轉(zhuǎn)。2. 天眼資訊抓取上百家垂直媒體網(wǎng)站,為某細(xì)分行業(yè)獲取相關(guān)資訊,幫助決策者獲得*的政策法規(guī),商機(jī),競(jìng)爭(zhēng)對(duì)手動(dòng)向等。現(xiàn)在我們來說Python爬蟲學(xué)習(xí)路線。1 Python基礎(chǔ)Python編程的基礎(chǔ)是必不可少的,這里有兩個(gè)要點(diǎn):你不需要等到精通了Python才去實(shí)踐爬蟲。但你確實(shí)需要刻意加強(qiáng)系統(tǒng)的Python技能。沒有廣闊的山脊,珠峰不可能那么高;沒有深厚的編程基礎(chǔ),爬蟲也不會(huì)爬的太深!所以,打好Python基礎(chǔ):推薦資源:我只推薦我看過的書,這確實(shí)是一本入門的經(jīng)典好書:2 能力階梯我把爬蟲能力分成了四個(gè)等級(jí):第1級(jí):能爬弱雞網(wǎng)站會(huì)爬基本沒有防御的網(wǎng)站,會(huì)加基本的Header會(huì)翻頁(yè),能抓取多頁(yè)會(huì)基本的文件處理,懂爬蟲禮儀第2級(jí):能爬一般防御網(wǎng)站能夠爬取通過header做防御的網(wǎng)站能夠配合手工,爬取需要登錄的網(wǎng)站(cookie)會(huì)爬取前后端分離的網(wǎng)站第3級(jí):能爬專業(yè)防御網(wǎng)站能爬取有專業(yè)反爬措施的網(wǎng)站,如淘寶,優(yōu)酷等RPA:能自動(dòng)登錄,操作表單,完成工作流程能自動(dòng)或半自動(dòng)破解各種驗(yàn)證碼第4級(jí):能設(shè)計(jì)大型爬蟲系統(tǒng)能端到端設(shè)計(jì)和實(shí)現(xiàn)大型的爬蟲系統(tǒng)爬取目標(biāo),爬取策略,大數(shù)據(jù)處理系統(tǒng)的反反爬策略,通用爬蟲,AI爬蟲3 學(xué)習(xí)路線現(xiàn)在來看看如何一級(jí)一級(jí)往上爬:第1級(jí) 沒有防御的網(wǎng)站1. 挑戰(zhàn)作業(yè)目標(biāo):爬取中關(guān)村在線的笑話,會(huì)自動(dòng)翻頁(yè)。請(qǐng)注意爬蟲禮儀,不要爬的太兇。網(wǎng)址: 知識(shí)技能requests基本用法,簡(jiǎn)單的HTTP知識(shí)HTML基本知識(shí),基本用法爬蟲禮儀, 基本的python文件讀寫3. 學(xué)習(xí)資源HTTP 能爬一般學(xué)習(xí)網(wǎng)站1. 挑戰(zhàn)作業(yè)目標(biāo):完整爬取異步社區(qū)書單網(wǎng)址: 知識(shí)技能HTTP知識(shí),尤其是HTTP ,JSON,一般性了解Chrome開發(fā)者工具,Postman3. 學(xué)習(xí)資源加深HTTP 自動(dòng)操作, JS解密,破解各種驗(yàn)證碼1. 挑戰(zhàn)作業(yè)根據(jù)自定義規(guī)則在淘寶挑選優(yōu)質(zhì)商品,能自動(dòng)登錄賬號(hào),抓訂單信息網(wǎng)址: 知識(shí)技能HTTP POST請(qǐng)求,加深HTML,JS加解密,正則tesserocr, 第三方驗(yàn)證碼, pyautogui, appinium(爬App)3. 學(xué)習(xí)資源html, DOM, XPath 設(shè)計(jì)大型爬蟲系統(tǒng)1. 挑戰(zhàn)作業(yè)設(shè)計(jì)一個(gè)系統(tǒng)可以爬取淘寶,京東,拼多多等多個(gè)商城對(duì)比同一商品在不同商城的價(jià)格2. 知識(shí)技能scrapy, scrapy-redis, scrapyd數(shù)據(jù)處理:MySQL, Redis, Elastic Search代理池,通用爬蟲(RE或AI)3. 學(xué)習(xí)資源scrapy 書籍推薦我只推薦我看過的書,這本爬蟲書涵蓋了本路線中的大部分內(nèi)容,建議購(gòu)買:6 知識(shí)體系把上面所有東西都羅列出來可以分成三部分:藍(lán)色的是核心必備基礎(chǔ),HTTP是爬蟲使用的交流語言,HTML, JSON是數(shù)據(jù)的格式,而DOM, CSS等是解析數(shù)據(jù)的通用技術(shù)。黃色的是通用工具或技術(shù),不管你用Python,還是Java,或者其他編程語言,這些你都用的到。但嚴(yán)格來說,他們不是必備的,都有替代方案。而單純Python的東西只有上面的綠色部分,相對(duì)來說還比較簡(jiǎn)單。相對(duì)來說,學(xué)習(xí)爬蟲是有點(diǎn)困難的,因?yàn)樗婕暗搅颂嗟乃{(lán)色必備基礎(chǔ),還需要用到黃色的通用工具。7 實(shí)戰(zhàn)項(xiàng)目當(dāng)你有了一定的基礎(chǔ),*的學(xué)習(xí)方式就是參考開源的項(xiàng)目,去實(shí)戰(zhàn),去實(shí)戰(zhàn),去實(shí)戰(zhàn)!我給你收集了很多實(shí)戰(zhàn)項(xiàng)目?;旧?,你想爬誰都可以找到參考的例子:搜集各種爬蟲 谷歌、百度、必應(yīng)圖片下載 購(gòu)票小助手 用戶爬蟲 其他學(xué)習(xí)路線這是麥?zhǔn)宓腜ython學(xué)習(xí)路線系列的第二篇,其他學(xué)習(xí)路線請(qǐng)?jiān)诠娞?hào)麥?zhǔn)寰幊袒貜?fù):路線。錯(cuò)誤的路線害死人,2021最全Python爬蟲學(xué)習(xí)路線和學(xué)習(xí)資料!這里有更多你想要的。我是麥?zhǔn)澹棠銓W(xué)編程,陪你走職場(chǎng)的路!
就拿大數(shù)據(jù)說話,優(yōu)勢(shì)一目了然,從事IT行業(yè),打開IT行業(yè)的新大門,找到適合自己的培訓(xùn)機(jī)構(gòu),進(jìn)行專業(yè)和系統(tǒng)的學(xué)習(xí)。
只要一個(gè)電話
我們免費(fèi)為您回電