close

點擊下方卡片,關注「新機器視覺」公眾號

視覺/圖像重磅乾貨,第一時間送達


前言本文介紹了目前,計算機視覺面臨幾大問題:

需要大算力,需要大數據用於訓練,因此導致成本太高。

應用場景單一,目前僅用於無人駕駛,安防監控等少數領域。

對CV人來說,內卷嚴重,市場接近飽和。

在知乎上,很多大牛從技術的角度上談了關於計算機視覺未來的走向,受益匪淺。結合前幾日看到的另一個問題,為什麼很多人現在不看好商湯科技,在這裡,我想從社會的角度來談一談我對計算機視覺未來走向的看法。

日新月異,用它來形容現在社會的變化真是再恰當不過,而推動這個變化的是科技的高速發展。
我對技術的看法是,技術必須服務於人,必須對社會有益,推動社會進步。負責實現這件事的正是企業,企業必須將技術落地應用,變成產品,才能為社會服務,為人類服務。
因此,說起我為什麼不看好商湯科技,是因為我覺得它沒有完成這件事。
作為一個技術人員,我平常看的東西算是比較多,不僅是技術方面,產品方面也比較關注。經常看到商湯曠世又發了什麼論文,卻幾乎沒見過它們研發出了什麼新產品。在我的印象里,它們就像是一個研究所的存在。
然而,世界上已經有了這麼多高校、實驗室、研究所在搞學術研究,還差一個商湯曠世嗎?

在我看來,這與格力聲稱要做格力手機如出一轍。市面上已經有了蘋果,小米,華為,OV等這麼多做的很好的手機,還差一個格力手機嗎?

所以董明珠如果要做手機,最合適的就是自己做操作系統,或者自己搞芯片,做點對社會對市場有益的事情。但格力明顯沒有這個打算,我對它當初說要做手機就一直是冷眼相看。四五年過去了,就目前來看,還真沒看錯它。

企業還是應該做企業該做的事情,那就是將學術研究落地應用,變成產品。

在《下一個倒下的會不會是華為》中有這樣一段話:

「我們一定要做商人。科學家可以什麼都不管,一輩子只研究蜘蛛腿的一根毛。對科學家來說,這是可以的。但是對我們呢?我們只研究蜘蛛腿,誰給我們飯吃?因此,不能光研究蜘蛛腿,要研究客戶需求……」這番話講於2002年,其時,「獅子」朗訊科技快要倒下了,「巨獅」摩托羅拉也病懨懨的……朗訊科技最核心的資源——貝爾實驗室,正是以研究「蜘蛛腿」「蝴蝶翅膀」「馬尾巴的功能」等這些基礎課題見長的,它既是朗訊科技的成長助推器,也是朗訊科技的包袱;摩托羅拉以巨資投入銥星系統研發,結果尖端技術成為它走向衰敗的滑鐵盧……這兩家公司以及眾多的「巨獅」都患上了資本和技術的「富營養病」,所以到頭來都被優勢資源所拖累、所詛咒。

商湯曠世在這一點上像極了朗訊和摩托羅拉,忽視了技術的最終目的是服務於人,服務於社會。

談及我對計算機視覺的看法,技術和產品的關係就像是硬件與軟件的關係。當技術發展到一定水平時,如果產品的發展速度跟不上,那麼技術就毫無作用。當產品發展起來後,又受到技術水平的限制,產品要進一步提高,需要提升技術水平。

從目前的環境來看,學術研究(或者稱技術)已經達到了一定的程度,而落地應用的領域(或者說產品)很少,因此導致了計算機視覺的飽和。
當應用的領域被逐漸開發,產品逐漸增多,現在的飽和就變成了暫時性的飽和。從產品、市場的層面上也會進一步推動學術研究(技術)的發展。

那有待開發的領域和產品有哪些呢?
我們對計算機視覺的應用還只局限於當下,我們正因為它目前需要龐大的數據集訓練,昂貴的算力,才限制了我們對它的應用場景和產品的想象。

當日後算力成本降低,數據不足的問題得到緩解,我們會發現,其實計算機視覺可應用的場景非常多。

從我的角度來看,它在未來一定能與機器人結合,我指的機器人並不只是人形機器人,主要是各種智能化設備,如場景監控,服務機器人,無人駕駛,醫療設備,嵌入式設備等。

想想很多科幻電影,機器人可以對一個環境進行各種分析,然後做出相應行為。當然,這對人類來說,賦予機器人電影中的這些能力是一件很可怕的事情,就目前來說,也不現實。

此圖來源於網絡,侵刪

不過,一些小範圍的能力我們是可以給的。

目前已經有的一些應用是對監控進行分析,檢測到如車禍,火災,槍擊案,養老院的老人摔倒等異常事件後自動報警。無人駕駛上的視覺等。

京東啟動了一個對豬臉識別的項目,對豬的健康狀況進行檢測。斯坦福對人的糞便識別檢測,從而判斷人的健康狀況。

此圖來源於網絡,侵刪

以後可以有以下應用:

對二手車進行全面掃描,識別型號,給出新舊程度分析,從而給出相應報價。

對臉部掃描,分析臉部皮膚情況,給出適合其皮膚的護理方案。對頭髮掃描,推薦相應的護髮產品與護髮方案。

對農田進行實時監控,提醒農場主目前農田的情況,如蟲子,作物生長狀況,分析該地區往年氣候,給出對該地區農田的最優打理方案。

學跳舞,將老師的跳舞輸入作為模板,對學生學舞視頻進行分析,給出跳的不對的地方。

…… ……

還可以有很多很多的應用,我給的都是些很細很具體的想法。實際上可以用上視覺的地方,都是計算機視覺的潛在應用領域。

我個人經歷有限,設想也不夠全面,但我相信社會上還存在很多可以用視覺來解決的事情。

這些事情都需要有一個共同的基礎,就是可以將視覺用於移動端設備,嵌入式設備。

此圖來源於網絡,侵刪

從我的理解來看,日後硬件水平會有較大發展,用於深度學習的專用處理器會有較好的性能。

在嵌入式方面還有很多傳感器,可以與視覺圖像進行多模態的融合,從而彌補在純視覺方面算法上的很多缺陷。例如具體場景下可以增加很多如溫控、超聲波、激光雷達等傳感器,模型將傳感器的數據與監控圖像進行融合,還可以進行多攝像頭實現多視角融合進一步提升準確率。

此外,當應用在很多固定的、封閉的場景下時,不需要滿足泛化性,也不需要檢測很多的類,就可以針對這個場景放心的做一個類的過擬合,從而將準確率提高到99。如果具體場景中具備高速網絡的條件,還可以將模型放在雲端。因此,單純地講模型只有七八十的準確率而無法落地的觀點是太過於片面的。

計算機視覺未來的應用場景很廣泛,我們需要對每一個具體的應用場景設計一個很小的,專一的,可以用於嵌入式設備的模型。模型小型化,模型輕量化,模型檢測實時化,模型多模態化。

商湯和曠世,作為AI四小龍的一份子,作為一個企業,將技術落地應用是它們的責任,不管是從規模上,人才供給上,資金上,它們也完全有能力去將計算機視覺與機器人,移動端,嵌入式設備端結合開發新領域,研發新產品。

就目前互聯網企業來說,AI四小龍也是最適合做這件事的。


本文僅做學術分享,如有侵權,請聯繫刪文。


—THE END—
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()