有一種流傳很廣的看法:互聯網公司做的是「流量生意」,沒有什麼技術含量;互聯網公司的研發,其實就是產品迭代而已,算不上真正的基礎研發;如果互聯網公司有技術含量,那也只可能存在於雲計算這樣的To B業務當中,而不可能存在於消費業務當中。

在這些人心目中,「消費互聯網公司」與「硬科技公司」是天然對立的——如果你運營一個龐大的互聯網平台,擁有數以億計的個人用戶,那你就不可能通過基礎研發取得任何「硬科技」成果。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

近日,由互聯網安全大會(簡稱「ISC」)發起的ISC十周年系列評選進程已經過半。自評選開啟以來,ISC通過在資源整合、產業集聚、生態賦能等多方面的優勢能力,讓本次評選中的廠商同台競逐、全民高度關注、破圈層互融互通趨勢顯著。截至6月23日,本次評選基於典型人物楷模、標杆企業、領先成果的示範效應,全網累計曝光量已破百萬,成功掀動起一波數字安全熱潮。


鑽石舞台 發表在 痞客邦 留言(0) 人氣()

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

2022年6月23日,工業和信息化部辦公廳發布《2021年物聯網示範項目名單》的通知。


鑽石舞台 發表在 痞客邦 留言(0) 人氣()

【點擊上方藍字雲城二十年關注我吧】

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

【點擊上方藍字雲城二十年關注我吧】

6月17日14時,經過7個小時的連續澆築,235國道項目320互通C匝道第7聯現澆箱梁最後一方混凝土入模,320互通完成最後一次混凝土澆築方量為673.13m³的現澆箱梁施工任務,標誌着320互通橋樑主體工程全部完成、實現貫通。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

【點擊上方藍字雲城二十年關注我吧】

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

點擊上圖,查看報名詳情

高考閱卷工作接近尾聲,全國各省份陸續公布高考成績及各批次各類錄取最低控制分數線。6月23日起,全國多個省份將先後「放榜」。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

本文摘自《數據結構在線編程實訓(C++語言)(全程視頻講解版)》

1

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

本公眾號不定期推送與《Python爬蟲大數據採集與挖掘》、《互聯網大數據處理技術與應用》相關的文章,是作者在相關領域教學科研中的一些資料和思考,可以加深對書中一些問題的理解。

元宇宙構建了一種新的社會形態,模糊了虛實之間的聯繫,是數字經濟的重要載體。雖然當前對於元宇宙的願景,還存在正反觀點之爭。但是不管怎麼樣,互聯網、移動互聯網技術和生態模式總是要向前發展,Faceboob(Meta)計劃在2025年建成元宇宙社交,也給了我們一個大概的參考時間。我們有必要思考現有信息技術應用形態在元宇宙中將如何進化。基於對網絡爬蟲技術的深入理解,我對此做些思考,歡迎留言輕拍。
元宇宙里是否還存在爬蟲?爬蟲技術將會如何演進?為了深入理解這些問題,我們有必要細分爬蟲的主要能力,關注本公眾號(IntBigData)的人中有一部分是我爬蟲書的讀者,對此應該會很明白。爬蟲的主要能力可以細分為:爬行能力、感知能力、獲取能力和處理能力。我們下面的分析也是基於這些角度。
元宇宙里還存在爬蟲嗎?
當前爬蟲的主要需求來自搜索引擎、數據採集、信息代理、安全監測等,在元宇宙里,虛實結合,信息量更大,每個人有多個虛擬化身,扮演不同的信息處理角色,因此各類信息內容必然快速增加(符合數據界的摩爾定律),信息的搜索聚合仍是一個重要話題。
虛擬數字人,特別是真人驅動型的,將承載更多的個人隱私數據。人的數字身份、社交、信用、情感、精神需求、數字資產等會變得越來越重要,而隨着相關的數據安全法律規範的實施,對於數據採集的合規性在元宇宙里將得到強化。並且到時隨着數據產權歸屬的清晰化,爬蟲的爬行、感知、獲取和處理能力都可能受到一定限制。除此之外,元宇宙必繼續繼承互聯網的開放性,仍有大量開放信息,是爬蟲的主要數據源。
安全監測是爬蟲技術一個很好的應用典範,只是現在很多人忽略了它,比如我們可以用它來檢測SQL注入、頁面掛馬(具體例子可以參見《Python大數據採集與挖掘》第12章的12.3)等等。在元宇宙里安全問題愈發突出,攻擊手段更加豐富,各種偽裝造假也是會更加普遍,如何讓自己的虛擬化身避免受到傷害,爬蟲可以在元宇宙安全方面有所表現。比如,在元宇宙同陌生人聯繫之前,可以先讓爬蟲前去探探虛實,因為爬蟲是一個簡化版的虛擬人,在陌生人帶有惡意的情況下不至於受到影響。
而對於個人信息代理,由於每個人有多個化身,如何管理這些分身,普遍認為博客之類的聚合技術會得到進一步發展,與此相對應,爬蟲技術作為一種個人信息代理來處理聚合信息、處理多分身信息也是一個很好的選擇,比如充當聊天機器人,見文後鏈接。
爬蟲技術的演化
爬蟲之所以能爬,主要是基於頁面之間的超鏈接。到了元宇宙,互聯網信息的組織及其形式是否還是以Web頁面和超鏈接為主,這個問題就決定了爬蟲是否能繼續存在的依據了。由於Web本質上是一種知識表示,因此在上層變換莫測的情況下,我們就需要從更根本的知識表示層面來看這個問題。當前的知識表現形態有文本、圖片、視頻,到了元宇宙,知識表現要變得豐富得多。元宇宙里,人數字化成為虛擬數字人,並在AI或真人驅動下完成微表情、微動作、微心理、微情感等等的生成、遷移或交互,從而極大豐富知識形態。但是知識本身的框架特徵和關聯特徵在過去和將來都一直會是主要形式。
一般認為元宇宙的Web是在當前的Web2.0上增加了價值分配。比如,個人信息將成為用戶自主掌控的數據資產,用戶可以在數據流轉和交易中真正獲益,使自己的數據不再是互聯網平台的免費資源。相應底,價值交換技術也必將成為爬蟲技術體系的重要部分。
從Web技術的角度看,我們經歷了只讀的1.0,可讀寫的2.0,將來以可讀寫+擁有/價值交換的3.0。瀏覽器仍將是接入元宇宙的途徑,不過是會增加一些3D功能,當前的WebXR大概就是支持這些的。
關於爬蟲、元宇宙的進一步閱讀
參考書《Python爬蟲大數據採集與挖掘》(清華大學出版社,2020),該書側重於採集、文本處理和Python實現,可實踐性強,有效解決大數據教學「無米之炊」的問題,是學生很喜歡的課程,開課的老師可以獲得各種相關教學資料。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()