中倫視界 - 開源技術在人工智能產業中的應用和知識產權風險－鑽石舞台

作者：王紅燕陳茜

本文將針對開源技術在人工智能產業中的應用和知識產權風險展開討論。

///

引言

近年來開源技術蓬勃發展，在不同行業領域中的滲透率不斷加深，例如在2005年穀歌公司通過收購安卓公司掌控了開源智能終端操作系統Android從而在安卓手機產業中占據了霸主地位；2010年甲骨文公司通過收購開源數據庫MySQL增強了其在數據庫領域的領先地位；2018年IBM公司通過收購開源軟件供應商Red Hat增強了其在服務器市場的競爭力。一直以來都非常抗拒擁抱開源的NVIDIA，也在今年5月11日，出人意料地宣布以 GPL/MIT 雙重許可正式開源其版本為R515的 Linux GPU 內核模塊。據 NVIDIA 的說法，此舉只是該公司更廣泛的開源計劃的第一步。上述事件以及類似甲骨文、NVIDIA這類早期堅決抵制開源的巨頭企業對開源態度的轉變，無不表明開源創新與協同能夠有力推動產業的發展進程。因此，開源技術在人工智能產業中的應用，也將對該產業產生積極影響。

2021年03月12日，《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》發布，明確指出要「支持數字技術開源社區等創新聯合體發展，完善開源知識產權和法律體系，鼓勵企業開放軟件源代碼、硬件設計和應用服務」。隨後在2021年12月27日，國家知識產權局發布《國務院知識產權戰略實施工作部際聯席會議辦公室關於印發〈知識產權強國建設綱要和「十四五」規劃實施年度推進計劃〉的通知》，提出完善新興領域和特定領域知識產權規則包括：20.研究制定大數據、人工智能、區塊鏈、基因技術等新領域新業態知識產權保護規則。21.研究制定信息技術開源知識產權合規標準、開源社區代碼貢獻規則標準等，開展行業開源知識產權風險及合規問題研究，加強行業開源知識產權合規評估與培訓。這些重要的綱要和通知，都顯示出了開源技術在應用過程中必然涉及到眾多的知識產權風險問題。

因此，本文將針對開源技術在人工智能產業中的應用和知識產權風險展開討論。

一

開源的相關概念

中國電子標準院給出的標準定義是「開源是一種在軟硬件開發、數據與信息共享中廣泛採用的開放式協作模式，協作的產出物應該符合開源許可證條款的要求。」由此看出，開源既不單指開源軟件，也不是一種商業模式，而是一種開放式協作模式。協作的產出物可以是軟件、小程序、數據庫、文檔等，每一種產出物都可以根據其特點選擇不同的開源許可證。例如，軟件可以選擇適用GPL協議用以保護用戶的自由度；小程序可以選擇適用Apache協議，通過其專利報復條款以避免用戶就作品或作品中所涉及的貢獻起訴專利侵權；對於開發者已經使用現有的以非自由或不嚴格許可證發布的數據庫，可以選擇適用 GNU寬通用公共許可協議（LGPL）；教程、參考手冊等文檔可以選擇適用GNU自由文檔許可證（GFDL）或知識共享許可證（Creative Commons license，簡稱CC協議）[1]。

二

開源技術在人工智能產業中的應用

1. 人工智能產業中的開源軟件

根據開源促進會OSI（Open Source Initiative）官網的信息，我們可以看到開源軟件的定義最初源自 Debian 自由軟件指南（DFSG），之後Bruce Perens 從 Debian 自由軟件指導方針中刪除特別提到 Debian 的部分，作為開源軟件的定義。開源軟件不僅僅意味着訪問源代碼。開源軟件的分發條款必須符合以下十項標準（OSD標準）：（1）可自由地再發布；（2）源代碼公開；（3）允許派生作品；（4）作者源代碼的完整性；（5）不能歧視任何個人和團隊；（6）不能歧視任何領域；（7）許可協議的發布；（8）許可協議不能針對某個產品；（9）許可協議不能約束其他軟件；（10）許可協議必須獨立於技術[2]。

在人工智能浪潮再次掀起時，越來越多的人工智能企業選擇了軟件開源。人工智能產業鏈通常劃分為基礎層、技術層和應用層三個層次。技術層包含了計算機視覺、自然語言識別、機器學習和深度學習等關鍵技術。目前，人工智能產業中的開源軟件技術主要集中在機器學習，尤其是深度學習領域，並且已產生了一批在業內具有深遠影響力的開源機器學習框架，例如，谷歌於2015年11月9日在Apache 2.0開源許可證下發布了TensorFlow。TensorFlow提供一個使用數據流圖的數值計算庫，可在單/多顆CPU或GPU系統甚至移動設備上運行;[3] Facebook推出了Caffe2框架；百度推出了深度學習平台PaddlePaddle。

2.人工智能產業中的開源硬件

開源軟件的出現大大縮短了軟件行業的開發周期，提高了軟件開發效率。而在硬件領域，特別是芯片設計，每個模塊的設計和驗證都會關係到最終流片的成功與否，如果使用的開源組件成熟度不高，導致芯片流片後出現BUG，會大大增加芯片的設計成本和周期，因而使得目前很多開源組件難以在芯片領域實施。但是如果開源組件能夠保證足夠的品質，將大大縮短芯片的設計周期，降低研發成本。因此，近年來，開源人工智能芯片越來越受到關注。目前，典型的開源芯片項目包括RISC-V和NVDLA。

2010年，美國加州伯克利分校（UCB）推出基於精簡指令集計算(RISC)原理建立的開源處理器指令集RISC-V，成為目前最成功的開源芯片項目，可以免費使用並允許任何人設計、製造和銷售RISC-V芯片和軟件。基於RISC-V開源指令集可以設計服務器計算芯片、家用電器計算芯片、工控計算芯片和比指頭小的傳感器計算芯片。預期在未來的異構計算和IoT領域都會得到廣泛應用[4]。

NVLDA是NVIDIA推出的基於Xavier SoC的開源深度學習推理加速器，面向終端SoC推理場景，其模塊化結構適合在IoT設備上進行擴展。NVDLA可以讓SoC廠商免費使用並根據需求修改框架，但需要注意的是，雖然使用NVDLA免費，但是修改時不可避免地要使用到NVIDIA生態下的其他工具，比如用TensorRT優化深度學習模型，從而幫助推動NVLDA生態的構建等[5]。

3. 人工智能產業中的開源數據

人工智能技術廣泛應用於手機、汽車、家電、安防、醫療、教育、金融等領域，人工智能技術在這些應用領域的突破依賴於海量的訓練數據，伴隨着應用場景的快速發展，數據開源會成為一種新的趨勢。

一方面，目前，在人工智能領域存在若干標準數據集，如機器視覺領域的MNIST、CIFAR、ImageNet，自然語言領域的WikiText、SQuAD、Billion Words、Stanford Sentiment Treebank，語音識別領域的2000 HUB5 English、CHIME，推薦系統領域的Netflix Challenge、Million Song Dataset等。這些數據集在推動人工智能算法優化、工程開發等方面起到了重要作用。如果各個公司都獨自開發不同數據集，數據集的定義、格式、接口等差異很大，會導致開發出來的人工智能程序不能兼容和互操作，影響人工智能平台的集成式性能。另一方面，人工智能技術所使用的海量訓練數據需要提前標註，高質量的標註數據會影響到人工智能公司的競爭力。數據標註有許多類型，如分類、畫框、注釋、標記等，不同類型的標註可以根據行業、需求、目標、語言等要素進一步細分，導致不同機構標註的同類數據，甚至相同數據，標註差異都很明顯，不利於後繼的分析和處理。[6]基於上述兩方面的原因，如果在保證企業商業秘密和數據安全的前提下，推動數據開源，不僅可以減少重複數據採集、數據標註和數據處理工作，提高工作效率，降低企業開發成本，還可以促進相同應用領域的企業之間的合作，共同推動人工智能產業的發展。

根據DB-Engines數據顯示，截至2020年9月全球開源數據庫182個，已超過商業數據庫，比較知名的包括Apache軟件基金會（ASF）的Hadoop、Spark，國內也有華為的Apache CarbonData等。此外，還有一些保護開源數據的法律框架，例如，Linux Foundation發起了社區數據許可協議（COMMUNITY DATA LICENSE AGREEMENT，CDLA），用於在個人和組織之間公開、共享和使用數據。

三

開源技術應用過程中的知識產權風險

1. 開源技術應用過程中的著作權侵權風險

由於開源軟件主要以著作權形式進行保護，此處以開源軟件為例，對其應用過程中的著作權侵權風險展開討論。

從某種角度上來看，開源軟件由於其公開源代碼的特點，使得侵權行為更容易被發現，因而更容易招致著作權侵權訴訟。

在2008年美國的Jacobsen訴Katzer上訴案中，美國聯邦巡迴上訴法院指出，開源軟件許可協議明示了授權許可源代碼文件包可以複製的條件，並使用了習慣性用語提示授予複製、改編、分發的權利。如果下載使用者不能滿足這些條件，則應該按照提示與版權人另行協商。否則，如果被許可使用者超出該範圍使用，就構成侵權，開源軟件許可人可以以版權侵權提起訴訟。

類似地，在2006年德國的Welte訴D-Link一案中，德國法蘭克福地區法院認為，違反GPL開源許可協議的行為屬於著作權侵權行為，GPL開源許可協議中所設定的使用條件應當認定為「解除條件」，當被許可人違反該條件時，GPL許可協議屬無效，被許可人的行為便構成了侵權行為，開源軟件權利人可以根據德國《著作權法》提起侵權訴訟。

總體來說，開源軟件應用過程中的著作權侵權風險主要有兩種情形：一是違反開源許可證的規定使用開源軟件的侵權情形；二是因開源軟件的貢獻者引入有版權瑕疵的代碼而引發的侵權情形。

2. 開源技術應用過程中的專利侵權風險

不同於著作權只保護表達，專利不僅可以保護硬件結構還可以保護軟件邏輯和算法，顯然，專利的保護範圍比著作權寬泛很多，在專利有效期內，只要未經許可使用了專利技術，即使獨立開發也會被視為是侵犯專利權的行為。正如自由軟件基金會在其GNU計劃書中也指出：「開放源代碼軟件面對的最大威脅不是著作權而是專利。」開源軟件通過開源許可證可以很好地解決著作權產生的獨占問題，保障軟件用戶的「自由」，但對軟件專利卻束手無策。對此，GPL v3許可證只能無奈地規定：「如果是由於法院判決或違反專利的指控或任何其他原因，強加於你的條件(不管是法院判決、協議或是其他)和許可證的條件有衝突，他們也不能用許可證條款為你開脫。在你不能同時滿足本許可證規定的義務及其他相關的義務時，作為結果，你可以根本不發布程序。例如，如果某一專利許可證不允許所有那些直接或間接從你那裡接受拷貝的人們在不付專利費的情況下重新發布程序，唯一能同時滿足兩方面要求的辦法是停止發布程序。」[8] GPL許可證還規定：「如果由於專利問題使程序在某些國家的發布和使用手段受到限制，將此程序置於許可證約束下的原始著作權擁有者可以增加限制發布地區的條款，將這些國家明確排除在外，並在這些國家以外的地區發布程序。」可見，開放源代碼軟件對軟件專利採取了迴避的態度，但是這種迴避無法解除軟件專利對開放源代碼軟件的威脅。

MIT的開源軟件X Windows系統曾被AT&T公司指控侵犯了其「後援存儲」技術的4，555，775號專利。當一個窗口的內容被另一個活動的窗口遮蓋住的時候，將被遮蓋窗口的內容存儲於屏幕之外的存儲器中，一旦當前活動窗口消失，被遮蓋的窗口可迅速回復，這就是「後援存儲」技術。事實上，MIT早在Lisp機器系統上就使用了「後援存儲」技術，這甚至比AT&T利用這項技術的時間還早。但是，由於MIT的軟件人員認為這項技術太普通了，而沒有公開發表。AT&T的專利申請於1985年被USPTO批准，MIT儘管使用在先，但因沒有公開發表而被禁止繼續使用該技術。

即便是著名的開源軟件Linux，也有可能面臨專利侵權訴訟。2004年8月2日，美國開放源代碼風險管理(Open Source Risk Management，簡稱OSRM)組織在其網站上發表了題為《開放源代碼風險管理的定位：減少Linux的專利風險》的文章，聲稱OSRM獨立完成了一份對於Linux內核潛在專利侵權的評估報告。文中表示：「Linux沒有被法院認定的軟件專利，但對於有效性尚未被法院認定的283項專利，很有可能引發訴訟。」隨後，在2004年8月4日，德國慕尼黑政府宣布，因擔心軟件專利侵害的賠償責任，將暫時凍結14000台Linux台式機的引進計劃。

當然，不限於開源軟件，開源硬件技術也同樣有可能面臨專利侵權風險。面對人工智能領域日益增長的專利申請，建議可以採取以下措施減少專利侵權風險，包括：1）技術開發過程中進行FTO分析，做好專利預警；2）先將開源技術申請專利再在開源許可證的條件下發布開源技術；3）及早發布軟件和算法邏輯、思路，構成他人的在先技術，避免他人申請專利；4）在開源許可證中引入專利報復條款等等。

3.開源技術應用過程中的商標侵權風險

大部分開源許可證都明示不給予用戶商標授權，例如，在MPL許可證規定：不授予任何貢獻者商標、服務標記或徽記許可（除可能需要符合有關聲明要求的情況下）。因此，在開源技術放棄版權上的財產權，又未進行專利保護的情況下，可以通過商標保護維護開源技術的權益，在不與「自由」屬性衝突的前提下，主張商標權仍然不妨礙擴大開源技術的用戶群體，同時還能提高開源技術的知名度。

在2002年MySQL AB訴Progress Software Corp．，NuSphere Corp．一案中，MySQL AB公司是開源數據庫MySQL的著作權人，同時也是瑞典、美國等國家「MySQL」註冊商標的所有人。2000年6月，被告跟原告簽訂了分銷MySQL並提供相應技術支持的臨時協議。2000年8月雙方終止了該協議。後來，被告將mysql．org註冊為域名，發行了軟件「NuSphere MySQL Advantage」，其中含有基於GPL許可證發布的MySQL和被告自行開發的Gemini。因此，MySQL AB訴Progress與NuSphere商標侵權。2002年2月美國麻省波士頓法院對被告發布初步禁令，禁止被告改進以及銷售任何形式的包含MySQL註冊商標的商品和服務、使用與MySQL商標有關的域名以及運作採用MySQL註冊商標的網站。[9]

對開源技術進行合理的商標保護可以很好地跟蹤和保護開源技術的發展。例如，只有通過OSI認證的許可證進行發布的軟件才能使用「OSI Certified」商標，通過在每一份開源代碼標註「OSI certified」商標，即可輕易地識別出開源代碼。經過OSI認證的開源許可證包括：GPL許可證、BSD許可證、Apache許可證等。[10]因此，商標保護是開源軟件收取費用的合理渠道，既不會被指責有技術壟斷之嫌，又能獲得相對永久的保護[11]。

四

總結

隨着開源技術在人工智能領域的應用範圍越來越廣，由於開源技術的「自由」屬性與知識產權「獨占性」天然地存在着衝突，使得開源技術在應用過程中的知識產權風險也日益凸顯。開源技術的種類、開源許可證的類型、開源技術的使用方式都會影響知識產權風險的大小。企業要有效管控開源技術的知識產權風險，需要從多個方面展開系統性的長期工作，包括：增強開源知識產權風險防範意識，做好開源技術的知識產權風險分析，加強風險防範工作協同，建立開源技術的知識產權管理規則以及全流程管理規則，跟蹤開源司法案例，做好開源相關法律研究等。

[注]

[1]如何為你的作品選擇一份許可證, https://www.gnu.org/licenses/license-recommendations.html

[2] The Open Source Definition, https://opensource.org/docs/osd

[3]：何寶宏.開源法則[M]，中國工信出版社集團，人民郵電出版社，2021年10月

[4] https://riscv.org/about/

[5] http://nvdla.org/

[6] 人工智能開源與標準化研究

[7] https://www.gnu.org/licenses/gpl-3.0.en.html

[8] 張平，馬驍.開源軟件對知識產權制度的批判與兼容（二）——開源軟件許可證的比較研究[J],《科技與法律》,2004年

[9] 陳際紅.GNU GPL的規則與Linux在中國的發展[C],信息網絡與高新技術法律前沿——中華全國律師協會信息網絡與高新技術專業委員會成立大會論文集,2001年

[10] https://opensource.org/trademark-guidelines#Open_Source_Initiative_Trademark_Policy

[11] 張平. 開源軟件——知識產權制度的批判與兼容[J],網絡法律評論

作者簡介

王紅燕律師

杭州辦公室合伙人

業務領域：知識產權權利保護, 跨境投資併購, 合規和反腐敗

特色行業類別：通訊與技術, 文化娛樂產業

陳茜

杭州辦公室知識產權部

作者往期文章推薦

《數字藏品合規路徑初探（三）——知識產權風險及合規路徑》

《機器學習作品的類型化及其著作權責任》

《數字藏品合規路徑初探（二）——去金融化》

《數字藏品合規路徑初探（一）——基礎概念及交易模式》

《人工智能生成物的知識產權保護之著作權視角》

《文娛產業股權投資之回購條款探析》

《國際仲裁裁決的公共政策例外及其在印度仲裁法下的應用》

《中美兩國關於人工智能技術可專利性的審查原則比較》

《NFT技術對我國設立藝術品追續權制度的實踐意義》

《公司斷臂求生之路——境外公司註銷一般流程詳解》

《元宇宙相關知識產權法律問題研究》

《人工智能知識產權的司法保護熱點問題》

《人工智能技術與開源軟件》

《直播平台主播跳槽熱點法律問題解析》

《新<著作權法>視野下的短視頻相關知識產權問題探索（下）》

《新<著作權法>視野下的短視頻相關知識產權問題探索（上）》

《從知識產權訴訟視角談網絡遊戲產業知識產權合規管理》

《軟件的商業秘密保護——基於中美兩國規則的比較視角》

特別聲明：

以上所刊登的文章僅代表作者本人觀點，不代表北京市中倫律師事務所或其律師出具的任何形式之法律意見或建議。

如需轉載或引用該等文章的任何內容，請私信溝通授權事宜，並於轉載時在文章開頭處註明來源於公眾號「中倫視界」及作者姓名。未經本所書面授權，不得轉載或使用該等文章中的任何內容，含圖片、影像等視聽資料。如您有意就相關議題進一步交流或探討，歡迎與本所聯繫。

點擊「閱讀原文」，可查閱該專業文章官網版。

王紅燕陳茜

鑽石舞台

鑽石舞台發表在痞客邦留言(0) 人氣()

鑽石舞台

鑽石鑽石亮晶晶

中倫視界 - 開源技術在人工智能產業中的應用和知識產權風險

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

鑽石舞台

鑽石鑽石亮晶晶

中倫視界 - 開源技術在人工智能產業中的應用和知識產權風險

歷史上的今天

留言列表

文章搜尋

最新文章

熱門文章

誰來我家

參觀人氣

贊助商連結