本文章中所有內容僅供學習交流,抓包內容、敏感網址、數據接口均已做脫敏處理,嚴禁用於商業用途和非法用途,否則由此產生的一切後果均與作者無關,若有侵權,請聯繫我立即刪除!
逆向目標加速樂是知道創宇推出的一款網站CDN加速、網站安全防護平台。
加速樂的特點是訪問網站一般有三次請求:
第一次請求網站,網站返回的響應狀態碼為 521,響應返回的為經過 AAEncode 混淆的 JS 代碼;
第二次請求網站,網站同樣返回的響應狀態碼為 521,響應返回的為經過 OB 混淆的 JS 代碼;
第三次請求網站,網站返回的響應狀態碼 200,即可正常訪問到網頁內容。
根據我們上面講的加速樂的特點,我們想要獲取到真實的 HTML 頁面,需要經過以下三個步驟:
第一次請求網站,服務器返回的 Set-Cookie 中攜帶 jsluid_s 參數,將獲取到的響應內容解密拿到第一次 jsl_clearance_s 參數的值;
攜帶第一次請求網站獲取到的 Cookie 值再次訪問網站,將獲取到的響應內容解混淆逆向拿到第二次 jsl_clearance_s 參數的值;
使用攜帶 jsluid_s 和 jsl_clearance_s 參數的 Cookie 再次訪問網站,獲取到真實的 HTML 頁面內容,繼而採集數據。
進入網站,打開開發者人員工具進行抓包,在 Network 中我們可以看到,請求頁面發生了三次響應 index.html,且前兩次返回狀態碼為 521,符合加速樂的特點
直接查看 response 顯示無響應內容,我們通過 Fiddler 對網站進行抓包,可以看到第一個 index.html 返回的響應內容經過 AAEncode 加密,大致內容如下,可以看到一堆顏表情符號,還挺有意思的:
<script>document.cookie=('_')+('_')+('j')+('s')+('l')+('_')+('c')+('l')+('e')+('a')+('r')+('a')+('n')+('c')+('e')+('_')+('s')+('=')+(-~[]+'')+((1+[2])/[2]+'')+(([2]+0>>2)+'')+((2<<2)+'')+(-~(8)+'')+(~~{}+'')+(6+'')+(7+'')+(~~[]+'')+((1<<2)+'')+('.')+((+true)+'')+(~~{}+'')+(9+'')+('|')+('-')+(+!+[]+'')+('|')+(1+6+'')+('n')+((1<<2)+'')+('k')+('X')+((2)*[4]+'')+('R')+('w')+('z')+('c')+(1+7+'')+('w')+('T')+('j')+('r')+('b')+('H')+('m')+('W')+('H')+('j')+([3]*(3)+'')+('G')+('X')+('C')+('t')+('I')+('%')+(-~[2]+'')+('D')+(';')+('m')+('a')+('x')+('-')+('a')+('g')+('e')+('=')+(3+'')+(3+3+'')+(~~{}+'')+(~~[]+'')+(';')+('p')+('a')+('t')+('h')+('=')+('/');location.href=location.pathname+location.search</script>document.cookie 里的顏表情串實際上是第一次 __jsl_clearance_s 的值,可以直接通過正則提取到加密內容後,使用execjs.eval()方法即可得到解密後的值:
importreimportexecjsAAEncode_text="""以上內容"""content_first=re.findall('cookie=(.*?);location',AAEncode_text)[0]jsl_clearance_s=execjs.eval(content_first).split(';')[0]print(jsl_clearance_s)#__jsl_clearance_s=1658906704.109|-1|7n4kX8Rwzc8wTjrbHmWHj9GXCtI%3第二層 Cookie 獲取抓包到的第二個 index.html 返回的是經過 OB 混淆的 JS 文件,我們需要對其進行調試分析,但是直接在網頁中通過 search 搜索很難找到該 JS 文件的位置,這裡推薦兩種方式對其進行定位:
1.文件替換
右鍵點擊抓包到的第二個狀態碼為 521 的 index.html 文件,然後按照以下方式將其保存到本地:
保存到本地後會發現 JS 文件被壓縮了不利於觀察,可以通過以下網站中的 JS 格式化工具將其格式化:https://spidertools.cn/#/formatJS,將格式化後的代碼粘貼到編輯器中進行處理,可能需要一些微調,例如首尾 Script 標籤前後會多出空格,在 < script > 後添加debugger;如下所示:
<script>debugger;var_0x1c58=['wpDCsRDCuA==','AWc8w7E=','w6llwpPCqA==','w61/wow7',最後通過 Fiddler 對其替換,點擊 Add Rule 添加新的規則,如以下步驟即可完成替換:
以上操作完成後,開啟 Fiddler 抓包(F12 左下角顯示 Capturing 即抓包狀態),清除網頁 Cookie,刷新網頁,會發現成功斷住,即定位到了 JS 文件的位置,可斷點調試:
2.Hook Cookie 值
因為我們獲取到的 JS 文件生成了 Cookie,其中包含 jsluid_s 和 jsl_clearance_s 參數的值,所以我們不妨直接 Hook Cookie 也能斷到 JS 文件的位置,對 Hook 方法不了解的可以看看 K 哥往期的文章,以下是 Hook 代碼:
(function(){'usestrict';varorg=document.cookie.__lookupSetter__('cookie');document.__defineSetter__('cookie',function(cookie){if(cookie.indexOf('__jsl_clearance_s')!=-1){debugger;}org=cookie;});document.__defineGetter__('cookie',function(){returnorg;});})();Hook 注入的方式有很多種,這裡通過 Fiddler 中的插件進行注入,該插件在 K 哥爬蟲公眾號中發送【Fiddler 插件】即可獲取:
同樣,設置完成後開啟抓包,清除網頁緩存,刷新網頁,頁面也能被順利斷住,上半部分就是我們通過 Hook 方式注入的代碼段,顯示出了 Cookie 中 __jsl_clearance_s 關鍵字的值,下面框起來的部分格式化後會發現就是之前經過 OB 混淆的 JS 文件內容:
調試分析 JS 文件
經過 Hook 之後,往前跟棧就能找到加密位置,我們知道 JavaScript 中一般使用 document.cookie 屬性來創建 、讀取、及刪除 cookie,經過分析 JS 文件中的一些參數是在動態變換的,所以我們使用本地替換的方式固定一套下來,然後在該 JS 文件中通過 CTRL + F 搜索 document,只有一個,在第 558 行打斷點調試,選中_0x2a9a('0xdb', 'WGP(') + 'ie'後鼠標懸停會發現這裡就是 cookie 經過混淆後的樣式:
將等號後面的內容全部選中,鼠標懸停在上面可以發現,這裡生成了 Cookie 中 __jsl_clearance_s 參數的值:
至此,我們知道了 Cookie 生成的位置,接下來就需要了解其加密邏輯和加密方法,然後通過 python 對其進行復現了,document 部分完整的代碼如下:
document[_0x2a9a('0xdb','WGP(')+'ie']=_0x2228a0[_0x2a9a('0x52','$hOV')+'W'](_0x2228a0[_0x2a9a('0x3','*hjw')+'W'](_0x2228a0[_0x2a9a('0x10b','rV*F')+'W'](_0x60274b['tn']+'='+_0x732635[0x0],_0x2228a0[_0x2a9a('0x3d','QRZ0')+'q']),_0x60274b['vt']),_0x2228a0[_0x2a9a('0x112',']A89')+'x']);OB 混淆相關內容可以觀看 K 哥往期文章,這裡等號後面的內容比較冗雜,其實我們想要獲取的是 jsl_clearance_s 參數的值,通過調試可以看到其值由0x60274b['tn'] + '=' + _0x732635[0x0]生成:
由上可知0x60274b['tn']對應的部分是 __jsl_clearance_s,而其值是0x732635[0x0],因此我們需要進一步跟蹤 0x732635生成的位置,通過搜索,在第 538 行可以找到其定義生成的位置,打斷點調試可以看到,0x732635[0x0]其實就是取了 0x732635 數組中的第一個位置的值:
我們來進一步分析 0x732635 後面代碼各自的含義,_0x14e035(_0x60274b['ct'])取的是 go 函數傳入的字典中 ct 參數的值:
go({"bts":["1658906704.293|0|YYj","Jm5cKs%2B1v1GqTYAtpQjthM%3D"],"chars":"vUzQIgamgWnnFOJyKwXiGK","ct":"690f55a681f304c95b35941b20538480","ha":"md5","tn":"__jsl_clearance_s","vt":"3600","wt":"1500"})分析可知將_0x60274b[_0x2a9a('0xf9', 'uUBi')]數組中的值按照某種規則進行拼接就是 __jsl_clearance_s 參數的值,並且_0x2a9a('0xf9', 'uUBi')對應字典中 bts 的值:
接下來先進一步跟蹤 _0x14e035,可以發現其是個函數體,第 533 行 return 後的返回值就是 __jsl_clearance_s 參數的值:
在第 532 行打斷點調試,能知道 hash 後 _0x2a7ea9 為 __jsl_clearance_s 參數的值:
hash( _0x2a7ea9 ) 的值為 _0x2a7ea9 經過加密後的結果,在本例中,加密結果由 0-9 和 a-f 組成的 32 位字符串,很明顯的 MD5 加密特徵,找個在線 MD5 加密進行驗證,發現是一致的,這裡加密的方法即 hash 方法不全是 MD5,多刷新幾次發現會變化,實際上這個 hash 方法與原來調用 go 函數傳入的字典中 ha 的值相對應,ha 即加密算法的類型,一共有 md5、sha1、sha256 三種,所以我們在本地處理的時候,要同時有這三種加密算法,通過 ha 的值來匹配不同算法。
進一步觀察這裡還有個 for 循環,分析發現每次循環 hash(_0x2a7ea9) 的值是動態變化的,原因是 _0x2a7ea9 的值是在動態變化的,_0x2a7ea9 中只有中間兩個字母在變化,不仔細看都看不出來:
跟進 _ 0x2a7ea9 生成的位置,分析可知 _0x2a7ea9 參數的值是由 0x5e5712 數組的第一個值加上兩個字母再加上該數組第二個值組成的結果:
中間兩個字母是將底下這段寫了兩次生成的,即 _0x60274b['chars']['substr'][1], 取字典中 chars 參數的一個字母,取了兩次,這裡通過 for 循環在不斷取這兩個值,直到其值加密後與 _0x56cbce(即 ct)的值相等,則作為返回值傳遞給 __jsl_clearance_s 參數:
_0x60274b[_0x2a9a('0x45','XXkw')+'s'][_0x2a9a('0x5a','ZN)]')+'tr'](_0x8164,0x1)0x56cbce 為 ct 的值:
最前面0x2228a0[_0x2a9a('0x6d', 'U0Y3') + 's']是個方法,我們進一步跟進過去,看這個方式裡面實現了什麼樣的邏輯:
其內容如下,可以看到這個方法返回的值是兩個相等的參數:
_0x560b67[_0x2a9a('0x15','NwFy')+'s']=function(_0x4573a2,_0x3855be){return_0x4573a2==_0x3855be;}模擬執行綜上所述,_0x14e035 函數中的邏輯就是判斷 _0x2a7ea9 的值經過 hash 方法加密後的值,是否與 ct 的值相等,若相等則將返回值傳遞給 __jsl_clearance_s 參數,循環完後還未有成功匹配的值則會執行第 509 行提示失敗,傳入參數中 ha 的值是在變化的,即加密算法也是在變化的,有三種加密方式 SHA1、SHA256 和 MD5,我們可以扣下三種 hash 方法,也可以直接使用 crypto-js 庫來實現:
varCryptoJS=require('crypto-js');functionhash(type,value){if(type=='md5'){returnCryptoJS.MD5(value).toString();}if(type=='sha1'){returnCryptoJS.SHA1(value).toString();}if(type=='sha256'){returnCryptoJS.SHA256(value).toString();}}var_0x2228a0={"mLZyz":function(_0x435347,_0x8098d){return_0x435347<_0x8098d;},"SsARo":function(_0x286fd4,_0x10b2a6){return_0x286fd4+_0x10b2a6;},"jfMAx":function(_0x6b4da,_0x19c099){return_0x6b4da+_0x19c099;},"HWzBW":function(_0x3b9d7f,_0x232017){return_0x3b9d7f+_0x232017;},"DRnYs":function(_0x4573a2,_0x3855be){return_0x4573a2==_0x3855be;},"ZJMqu":function(_0x3af043,_0x1dbbb7){return_0x3af043-_0x1dbbb7;},};functioncookies(_0x60274b){var_0x34d7a8=newDate();function_0x14e035(_0x56cbce,_0x5e5712){var_0x2d0a43=_0x60274b['chars']['length'];for(var_0x212ce4=0x0;_0x212ce4<_0x2d0a43;_0x212ce4++){for(var_0x8164=0x0;_0x2228a0["mLZyz"](_0x8164,_0x2d0a43);_0x8164++){var_0x2a7ea9=_0x5e5712[0]+_0x60274b["chars"]["substr"](_0x212ce4,1)+_0x60274b["chars"]["substr"](_0x8164,1)+_0x5e5712[1];if(_0x2228a0["DRnYs"](hash(_0x60274b['ha'],_0x2a7ea9),_0x56cbce)){return[_0x2a7ea9,_0x2228a0["ZJMqu"](newDate(),_0x34d7a8)];}}}}var_0x732635=_0x14e035(_0x60274b['ct'],_0x60274b['bts']);return{'__jsl_clearance_s':_0x732635[0]};}//console.log(cookies({//"bts":["1658906704.293|0|YYj","Jm5cKs%2B1v1GqTYAtpQjthM%3D"],//"chars":"vUzQIgamgWnnFOJyKwXiGK",//"ct":"690f55a681f304c95b35941b20538480",//"ha":"md5",//"tn":"__jsl_clearance_s",//"vt":"3600",//"wt":"1500"//}))//__jsl_clearance_s:'1658906704.293|0|YYjzaJm5cKs%2B1v1GqTYAtpQjthM%3Dbilibili 關注 K 哥爬蟲,小助理手把手視頻教學:https://space.bilibili.com/1622879192
GitHub 關注 K 哥爬蟲,持續分享爬蟲相關代碼!歡迎 star !https://github.com/kgepachong/
以下只演示部分關鍵代碼,不能直接運行!
完整代碼倉庫地址:
https://github.com/kgepachong/crawler/
#=======================#--*--coding:utf-8--*--#@Time:2022/7/27#@Author :微信公眾號:K哥爬蟲#@FileName:jsl.py#@Software:PyCharm#=======================importjsonimportreimportrequestsimportexecjscookies={}headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/86.0.4240.198Safari/537.36"}url="脫敏處理,完整代碼關注https://github.com/kgepachong/crawler/"defget_first_cookie():globalcookiesresp_first=requests.get(url=url,headers=headers)#獲取cookie值__jsluid_scookies.update(resp_first.cookies)#獲取第一層響應內容,AAEncode加密content_first=re.findall('cookie=(.*?);location',resp_first.text)[0]jsl_clearance_s=execjs.eval(content_first).split(';')[0]#獲取cookie值__jsl_clearance_scookies['__jsl_clearance_s']=jsl_clearance_s.split("=")[1]defget_second_cookie():globalcookies#通過攜帶jsluid_s和jsl_clearance_s值的cookie獲取第二層響應內容resp_second=requests.get(url=url,headers=headers,cookies=cookies)#獲取go字典參數go_params=re.findall(';go\((.*?)\)</script>',resp_second.text)[0]params=json.loads(go_params)returnparamsdefget_third_cookie():withopen('jsl.js','r',encoding='utf-8')asf:jsl_js=f.read()params=get_second_cookie()#傳入字典third_cookie=execjs.compile(jsl_js).call('cookies',params)cookies.update(third_cookie)defmain():get_first_cookie()get_third_cookie()resp_third=requests.get(url=url,headers=headers,cookies=cookies)resp_third.encoding='utf-8'print(resp_third.text)if__name__=='__main__':main()