close

Hi~新朋友,記得關注我們喲

親愛的朋友們,

Data-centric AI,也就是以數據為中心的AI開發正逐漸流行起來!今年3月,我藉助Landing AI在以數據為中心的計算機視覺平台上所做的工作第一次公開談論了它。從那時起,Kili Technologies、Scale AI和Snorkel等公司都在自己的主頁上提到了以數據為中心的AI。

儘管大家對以數據為中心的AI充滿熱情,我還是遇到了一些有關它的誤解。以下是一些常見誤區:

❎誤區:以數據為中心的AI不能解決構建負責任的AI這樣的關鍵問題。

✅事實:以數據為中心的AI提供了讓AI更公平的強大方法。假設我們審計一個貸款發放系統,發現它的決定對某個特定群體有偏見,我們該如何解決這個問題?調整算法可能會有所幫助,但任何實質性的改進都有降低數據其他切片或子集性能的風險。通過以數據為中心的方法,我們可以利用與改變算法行為有關的切片,設計訓練並測試數據,這是構建負責任的AI的有價值的工具。

❎誤區:以數據為中心的AI只是應用機器學習的重塑。

✅事實:雖然從業人員多年來一直在設計數據,但我們的方法通常是特定的、繁瑣的,並且過度依賴個人的技能或運氣。以數據為中心的AI則是一種轉型,旨在開發系統工程實踐,以可靠、高效和系統化的方式改善數據。

❎誤區:以數據為中心的AI意味着我們更加關注數據。

✅事實:這就像是在說:「寫好代碼就意味着更多地關注代碼質量。」實際上這是過度簡化了概念以至於其真正含義未被重視。是的,集中注意力很重要,但這僅僅觸及了問題表面。我們需要開發更好的方法、技術和工具來測量和改進數據質量。


❎誤區:以數據為中心的AI意味着更好地進行數據預處理。
✅事實:改善數據不是作為預處理步驟只進行一次的事情。它應該是模型訓練、部署和維護迭代過程的核心部分。例如,在訓練一個模型對顯微鏡載玻片中的細胞進行分類之後,如果錯誤分析顯示它在一個細胞子集上的性能很差,那麼你可以使用以數據為中心的方法來提高該子集的性能。

❎誤區:以數據為中心的AI只關乎於標籤(或數據增強、數據清理、元數據、數據存儲、模型監控……)。
✅事實:以數據為中心的AI開發是關於數據的系統工程,目的是確保AI應用可以成功投入使用。以上幾點都很重要,但沒有一個能獨挑大樑。

❎誤區:以數據為中心的AI只適用於圖像和音頻等非結構化數據,而不適用於結構化(如表格)數據。
✅事實:無論是處理非結構化數據還是結構化數據,以數據為中心的AI都是有價值的,不過最佳實踐在這兩種情況下會有所不同。對於非結構化數據來說,通常更容易提供標籤並收集或合成更多數據。而對於結構化數據,我發現以數據為中心的方法更傾向於清理現有數據和創建附加功能。

Keep learning!

Andrew


點擊下方閱讀原文查看更多有趣內容哦~

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()