譯文出處:Omair Hussain, After Hegel: An Interview with Robert Pippin, Platypus Review, 2011,June 1.


鑽石舞台 發表在 痞客邦 留言(0) 人氣()

· 結繩志 x 哲學社·

人類學與哲學之間有着可以無限追溯的淵源,回顧 20 世紀以來的學科歷史,人類學家的思考倚重於哲學的概念與知識傳統,而哲學則試圖在異域的民族志中尋求西方認識論的啟發與替代。然而,壁壘森嚴的學科分工想象讓學者們固守領地,人類學家滿足於負責「特殊」的民族志寫作,哲學家引述經驗只是為了充實「普遍」的分析,二者一面曖昧相望,一面彼此拒絕。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

關於作者:
翻譯/音君
排版/YellowMotelComfort

圖源:WIKI PEDIA
長期以來,人們都認為同性戀研究與酷兒理論都是在馬克思思想以外形成的。然而,最初的唯物主義同性戀理論是馬克思主義(或是自稱為馬克思主義)的組織或團體的產物。那就就是德國社會民主黨(la social-démocratie allemande),他在持續至20世紀70年代的解放陣線中,提出首個爭取同性戀權利的運動。近年來,馬克思主義中關於「性」(sexualité)的研究再次興起。酷兒馬克思主義研究的的代表之一,彼得·杜拉克(Peter Drucker),在這裡幫助我們更清楚地看到那些不斷深入的馬克思主義/酷兒理論的研究,以及對改革運動和「性」的批判性論著。他揭示了反對「異性戀至上主義」(l』hétérosexisme)人士與(斯大林霸權衰落後的)共產主義運動之間的分歧,以及在面對同性戀性別(l』homonormativité,指同性戀中攻受等的劃分)和執政集團吸納同性戀運動等新情況的時候,那些用以彌合彼此分歧的條件。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

文 | Travis
出品 | OSC開源社區(ID:oschina2013)
樹莓派決定將其 Raspberry Pi OS 從 Debian Linux 的一個分支擴展到兩個分支,以更好地支持所有用戶。
每隔兩年,作為樹莓派 Raspberry Pi OS 基礎的 Debian Linux 就會有一次重大的版本升級。今年 8 月,Debian 「bullseye」正式發布,而 Raspberry Pi OS 緊隨其後,在 11 月也基於 Debian 「bullseye」 做了針對性更新。在此之前,Raspberry Pi OS 的舊版本則是基於 2019 年的 Debian 「Buster」,
在過去的多年時間裡,樹莓派只支持 Raspberry Pi OS 的一個版本。因此當官方把系統轉移到一個新的上游分支時(例如,最近從 Debian Buster 轉移到 Debian Bullseye),隨之而來會產生新版本的庫和新的接口,也會不再支持舊的庫和接口。這些變化有的來自上游,有的來自樹莓派官方主動做出的改變。
不同的開發者對於系統所關注的側重點也不一樣,有的開發者所開發的軟件必須使用特定版本的庫;有的開發者注重系統整體的穩定性;當然也有開發者就是特別喜歡嘗試新功能。因此系統升級換代後產生的變化也會對開發者針對樹莓派開發的項目產生影響,有時還會引發重大問題。
正是出於上述原因,樹莓派官方近日決定,將創建一個基於 Debian Buster 的 Raspberry Pi OS 的遺留版本(Legacy)。Raspberry Pi OS (Legacy) 的特性包括:

基於 Debian Buster 的 Raspberry Pi OS

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

在本文中,評估了權值初始化的許多方法和當前的最佳實踐

零初始化
將權值初始化為零是不行的。那我為什麼在這裡提到它呢?要理解權值初始化的需要,我們需要理解為什麼將權值初始化為零是無效的。
讓我們考慮一個類似於上面所示的簡單網絡。每個輸入只是一個標量X₁,X₂X₃。和每個神經元的權重是W₁和W₂。每次權重更新如下:
Out₁ = X₁*W₁ + X₂*W₁ + X₃*W₁
Out₂ = X₁*W₂ + X₂*W₂ + X₃*W₂
正如你所看到的現在,如果權重矩陣W = [W₁W₂]被初始化為零,然後out1和out2都完全一樣。
即使我們對兩者都添加一個非零的隨機偏差項,權值也會更新為非零,但它們仍將保持相同,因此隱藏單元的兩個神經元都在計算相同的東西。換句話說,它們是對稱的。
這是非常不可取的,因為這是浪費計算。這就是零初始化無法工作的原因。
隨機初始化
現在我們知道權重必須是不同的,下一個想法是隨機初始化這些權重。隨機初始化比零初始化好得多,但是這些隨機數可以是任意數嗎?
假設你使用的是s型非線性。sigmoid函數如下所示。
我們可以看到,對於大到6的值,sigmoid的值幾乎是1,對於小到-6的值,sigmoid的值為0。這意味着如果我們的權值矩陣被初始化為過大或過小的值,所有有用的信息都會在sigmoid函數中丟失。
如果我們使用ReLu非線性,這就不那麼重要了,但是在將權重初始化為大值或小值時還有其他問題。有更好的方法來初始化權重。
Xavier初始化
Xavier初始化是由Xavier Glorot和Yoshua Bengio在2010年提出的。本文的主要目標是初始化權重,使激活的平均值為零,標準偏差為1。考慮如下所示計算的函數。
Z = WX + b
這裡W是權值矩陣,X是來自前一層的輸入,b是偏差。Z是一個層計算的輸出,也稱為激活。我們希望Z的均值是0,標準差是1。(從技術上講,Z是ReLu等非線性激活後的結果)
為什麼均值為0,標準差為1這麼重要?
考慮一個有100層的深度神經網絡。在每一步,權重矩陣乘以來自前一層的激活。如果每一層的激活大於1,當它們被重複乘以100次時,它們就會不斷變大,爆炸到無窮大。類似地,如果激活值小於1,它們將消失為零。這叫做漸變爆炸和漸變消失問題。我們可以從下圖中看到這一點。甚至比1稍大一點的值也會爆炸成非常大的數字,而比1稍小一點的值也會消失為零。
為了避免梯度和激活的爆炸和消失,我們希望激活的平均值為0,標準偏差為1。我們可以通過仔細選擇權重來實現這一點。
在本文發布期間,權值的最佳實踐是從均勻分布[-1,1]中隨機選取,然後除以輸入維數的平方根。事實證明,這不是一個好主意,梯度消失了,如果可能的話,訓練也非常緩慢。
這個問題通過Xavier的初始化得到了解決,Xavier的初始化建議我們從一個均勻分布中隨機初始化權重,如下圖所示。
Xavier 初始化的 Uniform分布
現在,Xavier的初始化是通過從標準正態分布中選擇權重來完成的,每個元素都要除以輸入維度大小的平方根。在PyTorch中,代碼如下所示。
torch.randn(n_inp, n_out)*math.sqrt(1/n_inp)
Xavier的初始化工作相當好,對於對稱非線性,如sigmoid和Tanh。然而,對於目前最常用的非線性函數ReLu,它的工作效果並不理想。
Kaiming 初始化
2015年,何凱明等人撰寫了一篇名為《Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》的論文,在論文中,他們介紹了現在廣為人知的Kaiming 初始化。
但是為什麼我們需要Kaiming 初始話呢?關於ReLu非線性的Xavier Init有什麼問題?
從上圖中可以看出,ReLu對所有X<0給出了0,對所有X>給出了Y=X。ReLu並沒有很好地定義0,但大多數程序都將其賦值為接近於0的近似,比如machine epsilon。
左:均值0,標準差1的正態分布。右:通過ReLu後的正態分布。
在上面我們可以看到2個散點圖,左邊是ReLu之前的數據,右邊是ReLu之後的數據。從圖像中可以清楚地看到,在ReLu之後,方差幾乎是一半,平均值略高。這改變了激活,方差減少了一半,所以我們需要將方差加倍才能得到Xavier Init的原始效果。因此,我們將權重乘以一個額外的值√2。所以在PyTorch中,Kaiming 初始化如下所示。
torch.randn(n_inp, n_out)*math.sqrt(2/n_inp)
如果你仍然對上面的公式不太理解,那麼記住:
方差=標準差的平方
方差翻倍所以需要乘以√2
Fixup初始化
Fixup是Zhang等人在2019年提出的初始化。根據他們的觀察,Kaiming 的初始化和其他標準的初始化不能很好地用於有殘差分支的網絡(又叫殘差網絡)。他們發現,標準初始化的殘差網絡只有在BatchNorm下才能正常工作。
讓我們看看為什麼Kaiming Init不能在殘差網絡上更好的工作。考慮如下圖所示的跳過連接。X2 = f(X1) X3 = f(X2) + X1。我們知道Kaiming init選擇的權重使得每一層後的激活有0均值和1方差。我們知道X1的方差是1 X2的方差是1。但是Kaiming init不考慮跳過連接。因此,根據總方差定律,X3的方差翻倍。由殘差分支添加的額外方差在Kaiming Init中沒有考慮在內。因此殘差網絡不能很好地與標準初始化一起工作,除非它們有BatchNorm。沒有BatchNorm,輸出方差會隨深度呈指數爆炸式增長。
Var[Xₗ₊₁] ≈ 2Var[Xₗ ]
殘差網絡中的跳過連接
該論文的作者提出了一個重要的觀察結果,即SGD更新每個殘差分支的權重會在高度相關的方向上更新網絡輸出。這意味着,如果所有殘差分支權重都由X更新,則網絡輸出也將在相同的權重更新方向上按比例地更改為X。
作者將所需的網絡輸出變化定義為Θ(η)。如我們所知,平均每個殘差分支對輸出更新的貢獻均等。如果我們稱殘差分支的數量為L,則每個殘差分支平均應將輸出改變Θ(η/ L),以實現總變化。輸出上的Θ(η)。
接下來,作者展示如何初始化m層的殘差分支,以便SGD更新將輸出更改Θ(η/ L)。作者表明,可以通過以下方式重新調整這些權重層的標準初始化:
權重比例因子
作者還討論了偏差和乘數的效用。他們發現在每次卷積,添加一個初始值為0的偏置層,線性層和逐元素激活導致訓練顯着改善之前。他們還發現,在每個殘差分支上添加一個乘法標度有助於通過標準化來模仿網絡的權重範數動態。
所有的解決方案匯總如下
LSUV初始化
Mishkin等人在2016年的一篇論文《All you need is a good Init》中介紹了LSUV。LSUV Init是一種數據驅動的方法,它具有最小的計算量和非常低的計算開銷。初始化是一個2部分的過程,首先初始化標準正交矩陣的權值(與高斯噪聲相反,它只是近似正交)。下一部分是迭代一個小批處理並縮放權重,以便激活的方差為1。作者斷言,在大範圍內,小批量大小對方差的影響可以忽略不計。
在論文中,作者列出了以下初始化步驟。
使用單位方差將權重初始化為高斯噪聲。
使用SVD或QR將它們分解為正交坐標。
使用第一個微型批處理在網絡中進行迭代,並在每次迭代比例時權重以使輸出方差接近1。重複直到輸出方差為1或發生最大迭代。
論文中,作者提出比例因子為√Var(BL),其中BL —它的輸出Blob
作者還提出了最大迭代次數的值,以防止無限循環。但是,在他們的實驗中,他們發現在1–5次迭代中實現了單位方差。
可以將LSUV Init看作是正交初始化和BatchNorm的組合,它僅在第一個迷你批處理中執行。作者在實驗中表明,與完整的BatchNorm相比,該方法在計算上非常高效。
轉移學習
轉移學習是一種在我們的新模型中使用已經訓練有素的模型進行權重的方法,該模型已經針對相似的任務進行了訓練。這些權重已經學習了很多有用的信息,我們可以針對我們的特定目標進行微調!我們有一個了不起的模型,沒有初始化的麻煩。
每次使用來自另一個模型的預訓練權重都是最好的方法。唯一需要我們自己初始化權值的情況是,我們在一個從未有人訓練過的網絡上工作。在大多數實際情況下,情況並非如此,所以一般情況下,我們使用一個與訓練的模型作為我們訓練的開始是一個很好的習慣。
作者 Akash Shastri
deephub翻譯組

END

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

文 | 局長
出品 | OSC開源社區(ID:oschina2013)
Windows 官方博客宣布推出了重新設計的 Windows 11 新版記事本,並表示已面向 Dev Channel 中的所有 Windows Insiders 系統進行推送。
新版記事本主要變化:

全新 UI:與 Windows 11 的新視覺設計保持一致,包括使用圓角、Mica 等設計元素

鑽石舞台 發表在 痞客邦 留言(0) 人氣()


本文的文字稿已上傳至區塊鏈存證平台固定,並附上了可信時間戳。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()

科技巨頭微軟宣布計劃收購遊戲開發商和互動娛樂內容發行商——動視暴雪。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()


2022年1月16日11:00 「萬事利」天貓旗艦店推出全球數字藏品創作者招募活動,稀有名額一秒售罄。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()


在昨天的【每周醫問】欄目中,我們推送了最新一期NEJM Knowledge+ Question of the Week的問題。【每周醫問】青年女性上背部和頸部持續疼痛,下一步最合理的處理措施是?今天,我們公布答案。

鑽石舞台 發表在 痞客邦 留言(0) 人氣()