來源 |專知

食品與人類的行為、健康和文化等密切相關. 社交網絡、移動網絡和物聯網等泛在網絡產生了食品大數 據,這些大數據與人工智能,尤其是快速發展的深度學習催生了新的交叉研究領域食品計算. 作為食品計算的核 心任務之一,食品圖像識別同時是計算機視覺領域中細粒度視覺識別的重要分支,因而具有重要的理論研究意義, 並在智慧健康、食品智能裝備、智慧餐飲、智能零售及智能家居等方面有着廣泛的應用前景. 為此,本文對食品圖像識別領域進行了全面綜述. 該文首先從識別對象、視覺特徵表示及學習方法等不同維度對目前的食品圖像識 別進行分類並深入闡述和分析了當前的研究進展,指出深度學習模型是當前食品圖像識別的主流方法,融入各種 上下文信息和外部知識是改進食品圖像識別的重要手段. 其次從食品數據規模、食品類型及是否包含上下文和多 模態信息等方面介紹了現有的食品圖像識別數據集,並給出了不同識別方法在主流數據集上的性能對比和分析. 接下來總結了食品圖像識別在飲食質量評估、食品自動結算、智能廚具、食品圖像的組織檢索和推薦等多個方面 的應用情況. 最後本文從面向食品特點的食品圖像識別方法、大規模食品圖像識別基準數據集構建等方面對食品 圖像識別未來可能的研究方向進行了總結和展望.
食物不僅對人類的健康營養等生活方面產生深 遠影響,而且在定義我們的身份、社會地位和文化 等方面同樣起着重要作用[1],正如法國美食家布里 亞·薩瓦蘭所說的「告訴我你吃什麼,我就告訴你 是誰」. 因此,與食物相關的研究[2-3]一直是一個研 究熱點. 來自不同研究領域的研究人員已經從不同 角度進行了與食物相關的研究,包括食物選擇[4]、 食物感知[5]、食品消費[6]、食品安全[7]和食品文化[8] 等. 由於食品相關研究涉及到多個研究領域,因此 研究的較為分散,缺乏一個系統整體. 2019 年,Min 等人[9]系統提出了食品計算框架,指出食品計算包 括食品感知、識別、檢索和推薦等多個任務,並服 務於醫學、生物學、農業、食品工業和營養健康等 多個領域. 其中食品圖像識別是其基礎且核心任務 之一.
從計算機視覺領域來看,食品圖像識別是細粒 度視覺識別的重要分支[10-13],具有重要的研究價值. 當前各種便攜式設備(如手機和相機等)及可穿戴 設備(如可穿戴相機)的廣泛普及和人工智能技術 的迅速發展使得食品圖像識別同時具有廣泛的應用 前景. 例如,通過識別菜品的類別、食材或其他屬 性信息,可分析菜品營養成分以及評估用戶飲食習 慣,實現用戶健康監管和疾病防控. 食品圖像識別 可通過識別客戶用餐、生鮮果蔬和包裝食品等實現 食品的自動結算,應用在無人餐廳、無人超市及食 品工業中. 此外,通過食品圖像識別還可以進一步 實現食品推薦和社交網站的食品圖像組織檢索. 正 因為如此,食品圖像識別已逐漸成為計算機視覺 [14-15]、多媒體[16-19]、工業信息學[20-21]、醫學與健康 信息學[22-24]、農業和生物工程[25-28]等多個領域的研究熱點.
食品圖像識別屬於細粒度圖像識別. 細粒度圖 像識別是指對同一類物體下的不同子類進行識別, 如識別不同種類的鳥或車. 食品圖像識別的主要任 務是利用計算機技術識別出食品圖像中食品的種 類,或識別出其他不同粒度的語義信息(如食材 (Ingredient)和菜系等). 根據《中華人民共和國 食品安全法》,食品被定義為各種供人食用或者飲用 的成品和原料以及按照傳統既是食品又是藥品的物 品. 因此食品的種類豐富多樣,當前主流的食品圖 像識別主要是針對菜品的識別,但也包括對生鮮果 蔬、食材和包裝食品的識別等. 圖 1 展示了來自當 前食品數據集的一些實例圖像. 現有食品圖像識別 主要針對某大類食品下的分類,如菜品識別[15]、果 蔬識別[20]、食材識別[21]和包裝食品識別[29]等. 其識 別結果可進一步支持各種應用,如飲食熱量估計和 自動結算等.
食品圖像識別的研究可以追溯到 1977 年, Parrish 等人[31]最先開展基於視覺的果蔬識別研究,應用於水果採摘. 1996 年,Bolle 等人[32]提出了果蔬 識別系統 VeggieVision,用於超市等場景的果蔬結 算. 在 2000 年之前,食品圖像識別主要用於與生產 鏈和市場食品質量評估相關的工程應用[33]. 之後由 於菜品圖像識別的廣泛應用價值而受到越來越多的 關注. 2008 年,Kitamura 等人[34]提出了多媒體飲食 日誌系統. 該系統通過菜品圖像和非菜品圖像的分 類得到用戶的菜品圖像,然後對其進行成分和熱量 分析以提供飲食建議. 2009 年,Chen 等人[35]發布了 第一個快餐食品數據集 PFID,之後於 2010 年提出 了一種聯合視覺詞袋模型和顏色直方圖的特徵提取 方法在該數據集上進行了測試 [36]. 同 年 Pornpanomchai 等人[37]融合多種手工特徵和分類器 進行果蔬識別. 2014 年 Bossard 等人[15]發布了第一 個大規模西方菜品圖像數據集 Food-101,並較早將 深度學習用於食品圖像識別,同年 Yanai 等人[38]也 嘗試將深度學習用於菜品圖像識別. 隨着深度學習 技術的快速發展和大規模食品圖像數據集的不斷 增多,食品圖像識別的相關研究逐漸多了起來. 2015 年,微軟等研究機構[39]利用傳統的視覺詞袋 模型提取菜品視覺特徵識別菜品,並進一步實現菜 品的熱量估計. 同年 Google 提出了一個 Im2Calories 系統[14],該系統通過訓練深度學習網絡提取特徵進 行菜品中的食材識別,然後基於識別的食材估計菜 品熱量. Xu 等人[40]嘗試將餐館位置信息融入到識 別模型以改進菜品圖像識別性能. 之後多個研究 團隊[12,18]挖掘食材等多模態信息,結合深度學習模 型,通過多任務學習實現菜品和食材的同時識別. 2016 年,Chen 等人[29]發布了中餐菜品數據集 Vireo Food-172. 2017 年 Ciocca 等人[22]發布了面向餐廳的托 盤菜品識別數據集 UNIMIB2016. 同年 Hou 等人[13]發 布了果蔬數據集 VegFru,包括 292 類果蔬和超過160000 張果蔬圖片. 2018 年,Bettadapura 等人[41]提 出了一種面向餐廳托盤的菜品檢測和識別方法,並 在 UNIMIB2016 進行了測試. 2019 年 Min 等人[9]系 統提出食品計算框架,並指出食品圖像識別是其核 心任務之一,之後於 2020 年發布了新的大規模菜品 數據集 ISIA Food-500[42]. 近來一些研究學者嘗試將 小樣本學習[43]應用到菜品圖像識別任務中. 與此同 時,由於深度學習技術的發展使得果蔬識別技術在 農業相關領域也實現了快速發展[44]. 按照其發展脈 絡,圖 2 展示了各時間節點的代表性食品識別工作, 可以看出 2014 年是一個重要的分界線,一方面以 AlexNet 網絡為代表的深度學習方法[45]在圖像識別 等領域獲得了巨大成功;另一方面是 Food-101 及之 後多個較大規模食品圖像識別基準數據集的發布推 動了食品圖像識別技術的迅速發展.

由於食品相關研究的跨學科性,食品圖像識別 的研究分散在計算機視覺、多媒體、農業、生物、 醫學和營養健康等不同的研究領域中. 目前儘管有 一些食品圖像識別的綜述,但是這些工作主要是針 對某一個特定領域的總結. 例如 Khurram Hameed 等人[44]主要面向農業領域系統地闡述了果蔬識別技 術,並總結了果蔬識別的相關應用和發展前景. Lo 等人[24]在生物醫學與健康信息學領域重點對面向飲 食質量評估的菜品圖像識別和檢測算法給予了系統 綜述. 此外,Min 等人[9]在國際上第一次提出了食品 計算框架,對包括食品圖像識別在內的多個食品計 算任務進行了較為系統總結. 不同於已有綜述,本 文基於食品定義,以更寬廣的視角對食品圖像識別 進行系統綜述. 首先從識別對象、視覺特徵學習和 學習方法等不同維度對食品圖像識別技術進行了系 統梳理和全面總結,其次介紹了現有的食品圖像識 別數據集,並給出了不同識別方法在主流數據集上的性能對比和分析,然後總結了食品圖像識別在 多個領域中的具體應用情況,最後展望了該領域未來研究的可能發展方向. 作為閱讀指導,圖 3 給出 了本綜述各部分內容之間的總體路線圖.

目前已有大量的食品圖像識別方法,這些工作 發表在計算機視覺、多媒體、醫學、營養與健康等 不同的領域. 考慮到食品種類的多樣性,食品圖像 識別的對象也多種多樣,包括菜品、果蔬、食材和 包裝食品等. 針對某一食品類型的食品圖像識別系 統,我們首先需要考慮應該提取的視覺特徵類型, 其次根據數據的統計分布等情況考慮所採用的機器 學習方法. 基於此,本文對現有食品圖像識別方法 從(1)識別對象;(2)特徵類型和(3)學習方法等三個維度分別進行闡述.
食品識別對象豐富多樣,包括菜品、食材、果 蔬和其他食品相關的對象. 由於菜品圖像識別在智 慧健康、智慧餐飲、智能零售及智能家居等多個方 面的應用前景而受到了廣泛關注. 然而菜品本身的 非剛性特點及大規模菜品數據集的缺失使得當前的 菜品識別性能還未能達到最優. 在菜品圖像類別識 別的基礎上,為了進一步深入分析菜品的營養成分 或者熱量,菜品的食材識別是必不可少的一步. 由 於菜品的食材識別和種類識別任務的相關性,通常 採用多任務學習方法同時學習和預測. 然而由於很 多食材在菜品圖像中的不可見性,現有的食材識別 主要針對視覺可見的食材進行識別. 除了菜品,果 蔬由於在人類日常飲食中的重要地位及在農業(如 自動採摘)和食品工業(如果蔬的自動結算)等領 域的重要應用價值使得果蔬識別的研究也較為廣 泛. 果蔬識別相比於菜品識別,其本身的挑戰性有 所降低,但更進一步精細化的識別如果蔬的成熟度 或者質量預測則變得較為困難,原因在於普通的 RGB 視覺信息只能捕獲果蔬的表觀信息而無法得 到其內部信息. 在這種情況下,基於高光譜和多光 譜的果蔬識別提供了一種可行的方法[26]. 不同類型 的食品對象識別,對應的方法設計要求也不同,例 如一般情況下,相比於果蔬識別,由於菜品食材的 豐富多樣性和每道菜因為做法不同所帶來的差異性 使得許多菜品識別的難度更大. 除了基本的菜品、 果蔬和食材識別,最近出現了一些和食品識別相關 的新工作,比如飲食場景識別和食物狀態識別等. 基於食物對人類的基礎性地位,隨着食品數據的不 斷豐富、識別技術的不斷成熟和新的應用場景的出 現,未來新的食品相關對象識別和分析的研究將會 不斷湧現.
判別性視覺特徵的提取是食品圖像識別的關 鍵. 按照特徵類型可以將食品圖像識別分為(1)基 於手工特徵的食品圖像識別;(2)基於深度特徵的 食品圖像識別;(3)融入上下文信息和外部知識的 食品圖像識別.早期的食品圖像識別通常包括手工特徵提取和 分類器訓練兩個階段. 而考慮到不同手工特徵之間 的互補性,通常提取多種類型的手工特徵,然後采 用不同的集成學習方法融合不同類型的特徵以改進 食品圖像識別的性能. 在所有的手工特徵中,SIFT 描述子由於其尺度和旋轉不變性、對形變不敏感等 特點,和詞袋模型結合在一起被廣泛應用到食品圖 像識別中,尤其在菜品圖像識別任務中. 自從 2012 年 Alex Krizhevsk 等人在 ImageNet 上訓練一個 8 層 的深度模型 AlexNet 並在 ImageNet 競賽上取得非常 好的效果後,CNN 在圖像識別領域受到了廣泛關注. 深度網絡學習的特徵由於其強大的表達能力隨後在 2014 年被引入到食品圖像識別領域. 基於深度學習 的食品圖像識別方法最初是簡單使用預訓練或者微 調的模型來提取視覺特徵,現在逐漸轉向針對食品 圖像識別任務的神經網絡設計. 由於 CNN可以自動 從食品圖像中學習特徵,因而基於深度特徵的食品 圖像識別可以將特徵學習和分類器訓練同時在一個 框架裡面進行端到端的學習. 而食品相關的上下 文信息和外部知識的引入可進一步改進食品圖像 識別的性能. 未來隨着大規模食品圖像數據集資 源的發展,深入挖掘食品圖像的特性設計針對食品 圖像識別任務的深度學習網絡將是食品圖像識別 未來發展的重要方向. 此外,更多新網絡的湧現也 會繼續推進食品圖像識別性能的不斷提高. 如最 近的 Transformer 及對應的各種變種[136]在通用物體 識別上有了比 CNN 網絡更高的識別性能. 相比於 CNN, Transformer 的網絡結構完全是由 Attention 機 制組成. 而當前細粒度識別的關鍵也是如何有效 設計 Attention 結構,使其更加關注局部判別性區 域,因此面向食品圖像識別的 Transformer 網絡也 有望在食品識別性能上取得更高的性能. 此外,將 各種豐富的上下文信息和外部知識有效組織成食 品知識圖譜,將食品知識圖譜融入到食品圖像特徵 學習的過程中將對改進食品圖像識別性能有着重 要作用[137].
在常規食品圖像分類任務中,為了保證訓練得 到的分類模型具有高準確性和高可靠性,需要滿足 (1)訓練樣本和測試樣本服從獨立同分布和(2) 訓練樣本足夠多. 然而在現實世界中,總有一些食 品類別的樣本很難收集[43],因而這些類的樣本數量 有限;此外現實世界的數據是開放的,新類別和原 有類別的新樣本是動態增加的[138],食品圖像也不例 外. 因此為了解決以上問題,需要放鬆常規食品圖 像識別方法的假設,於是就產生了基於遷移學習、 小樣本學習及增量學習的食品圖像識別研究. 因 此,從機器學習方法維度出發,食品圖像識別可以 分為(1)常規食品圖像識別;(2)基於遷移學習的 食品圖像識別;(3)基於小樣本學習的食品圖像識 別和(4)基於增量學習的食品圖像識別.


在食品圖像識別算法快速發展的同時,用於評 估識別算法的數據集也在日益完善. 我們將在本節 中對食品圖像識別的主流數據集進行概述,從中也 可以一窺食品圖像識別的發展. 在介紹不同數據集 時,將主要從數據集規模、所屬菜系及包含的上下 文信息和多模態信息等不同方面進行闡述,表 2 全 面總結了食品圖像識別領域的數據集.

和其他識別方法類似,食品圖像識別主要採用 Top-1和 Top-5分類準確率作為評價指標. Top-1分類 準確率表示測試圖像中預測概率最大的類別與實際 類別相符的比例. Top-5 分類準確率表示測試圖像中 預測概率最大的前 5 個預測類別包含實際類別的比 例. 另外性能評估包括 1-crop 和 10-crop 兩種設置, 分別表示進行 1 次和 10 次裁剪進行數據增強. 此 外,近年來也有一些工作對人類在食品識別性能的 評估[45]進行了探討。

4. 應用
食品圖像識別在現實中具有廣闊的應用前景. 例如食品圖像識別通過自動識別食品類別,可進一 步實現後續的營養分析和卡路里估算. 在自助餐廳中,食品圖像識別可以實現自動計費. 在生活中, 人們也可以通過簡單拍照更好的了解他們不熟悉或 以前從未見過的食物,並了解其細節,例如烹飪方 法、食材、口味和營養成分等. 下面介紹幾種代表 性的食品圖像識別應用。
飲食質量評估(Dietary Assessment)是預防和 治療各種慢性疾病(如糖尿病)的重要手段. 傳統 的飲食管理方法主要依賴用戶報告數據[167]. 一方 面,由於主觀性和估計偏差,傳統方法的準確性無 法保證,另一方面,頻繁地報告數據會影響用戶體 驗. 隨着計算機視覺的發展,學者們提出被動飲食 監測的概念[168],即依靠攝像機等傳感器來記錄飲食 情況並自動執行食品識別及後續任務. 在整個過程 中,食品圖像識別是第一步,也是至關重要的一步, 在飲食管理系統中起着舉足輕重的作用. 當前各種便攜式拍攝設備(如手機和可穿戴相 機等)的普及使得自動高效的多媒體飲食日誌記錄 和飲食質量評估成為可能. Mezgec 等人[169]提出了 一種飲食管理系統,該系統可以從單個圖像中識別 出用戶一餐中含有的菜品條目,然後預測其營養成 分及熱量等. 在整個系統中,食品識別模塊採用基 於 CNN 的多標籤分類器來預測一餐中含有的菜品 類別,預測得到的結果通過營養表查找和體積估算 等後續操作以預測相應的營養成分含量. 近來一 些工作[23,170-171]採用可穿戴的第一視角相機拍攝飲食 場景,通過菜品圖像識別[170-171]或者飲食場景識別[23] 自動識別日常飲食或者飲食環境,對人的飲食習慣 研究及飲食管理具有重要的現實意義.
食品圖像識別在餐廳、超市、農貿市場等各種 應用場景中可以實現食品的自動結算,提高結算效 率,降低運營成本,改善用戶就餐或者購買體驗. 例 如作為無人餐廳的核心技術之一,食品圖像識別在 監控食品的消費量、對客戶的點餐進行自動計費結 賬等方面起着重要作用. 例如 Aguilar 等人[58]提出 了一種在食堂和飯店環境下對食物托盤進行自動分 析的方法,能夠檢測和預測托盤中的菜品類別,為 自助餐廳環境下的消費量監控和自動結賬提供了重 要的技術支持. Xiao 等人[21]通過對食材的識別實現 其自動結算服務
在大數據時代, 各種社交媒體尤其是飲食或食 譜相關的網站通過食品圖像識別方法可以進一步有效地組織和檢索食品圖像. 大規模的餐飲網站(例如 美團和 Yelp)為我們的日常飲食提供了便利. 引入食 品識別可滿足人們了解不熟悉或未見過的食物,並 可進一步實現個性化菜品推薦. Min 等人[179]提出了 一個系統的食品推薦框架. 在整個系統中,食品圖 像識別技術對理解用戶需求及改進個性化推薦結果 有重要影響. 以美團為例,通過菜品圖像識別算法 識別用戶在評論區上傳的食品圖像的具體類別,可 根據識別結果對用戶進行個性化食品推薦.
食品圖像識別在智能廚具中也有廣泛應用,最 為代表性的是智能冰箱. 食品圖像識別是其核心功 能之一,在食品種類識別或者食品新鮮度識別方面 發揮重要作用. 例如 Zhang 等人[180]提出了一種智能 冰箱中的水果識別方法,該方法使用神經網絡與多 模型融合技術進行水果識別. Zhu 等人[164]提出了一 種基於有監督 Transformer 網絡的食品識別系統,能 夠在含有多種食物的冰箱環境下檢測和識別食品的 類別. Mohammad 等人[181]提出使用較少的傳感器並 結合軟件雲平台進行冰箱食品監測. 整個計算框架 中,食品識別被用於感知後的食品分析過程. 該方 法基於卷積神經網絡和遷移學習技術進行食品識 別. 除了智能冰箱外,食品識別還被應用於其他的 智能廚具中. 例如 Hashimoto 等人[182]基於食物追蹤 和食材識別等設計了一種以人為中心的智慧廚房系 統. 一些研究工作[151],183]則是面向邊緣設備的食品 圖像識別. 例如 Liu 等人[151]設計了一種基於邊緣計 算設備的食品識別系統. Liu 等人[183]提出了一種新 穎的邊緣計算系統 EdgeVegfru,用於果蔬圖像識別. 該系統能在有限時間和計算資源內表現出出色的識 別性能,可應用於自助超市和零售業等應用場景.
不健康的飲食習慣是罹患各種慢性疾病的重要 危險因素之一. 近年來,能夠追蹤個人日常食品攝 入量的飲食監測應用在技術界引起了廣泛的關注. 隨着各種便攜式的智能穿戴設備的興起,越來越多 的學者開始將這些飲食監測應用部署在智能穿戴設 備上. 食品圖像識別作為飲食監測中一項基礎和核 心的技術,其識別準確率對整個系統的性能有顯著 的影響. Rachakonda 等人[184]提出了一個部署在智能 眼鏡上的飲食監測系統. 該系統通過智能眼鏡自動 地從現實環境中獲取食品圖像,然後使用基於卷積 神經網絡的食品識別方法進行識別,並進一步進行 檢測和攝入量估計,最後對用戶進行壓力分析以確 定用戶的飲食狀態. 最終實現對用戶的飲食行為的 自動分析以發現生活中的過度飲食和壓力飲食等問 題. 隨着智能設備的進一步普及,飲食檢測系統的 應用將越來越廣泛,對嵌入式的高性能食品識別方 法的研究也將成為學者們的關注熱點.
隨着技術的發展,智能機器人逐漸被應用於人 們的日常生活中,其中一個重要的應用場景就是日 常飲食. 例如在無人餐廳中,傳菜機器人和送菜機 器人被用於自動向顧客運送餐飲. 在智能餐廳中, 炒菜機器人被用於自動烹飪食品. 在物聯網醫療 中,餵飯機器人能夠向肢體殘疾的人餵飯. Feng 等 人[185]為實現機器人輔助餵食,開發了一個咬合獲取 框架,該框架將整個盤子圖像作為輸入、分割和識 別出菜品,並應用所提出的 SPANet 模型來選擇目 標菜品和相應的動作提高輔助餵食成功率. 在這些 機器人的內部計算框架中,食品識別模塊用於識別經傳感器感知後的食品類別,並將識別結果送入分 析模塊以獲取食品的狀態信息. 食品識別的性能關 繫到智能機器人對食品的感知情況和後續決策,對 於智能機器人的發展有重要意義.
食品安全已成為亟待解決的社會問題. 當下, 高質量食品供給能力的短缺、監管資源和能力的不 足使得我國的食品安全形勢日益嚴峻. 傳統的基於 化學的檢測方法周期冗長、流程複雜,很難大規模 地投入應用中. 得益於較快的評估速度和無損壞的 評估過程,基於計算機視覺的食品質量檢測成為近 年來熱門的研究方向. 在整個食品質量檢測系統 中,穩健而準確的食品識別算法至關重要,能否精 准地識別自然環境下的食品類別將直接影響到系統 的評估性能. 同時也可以幫助食品監管部門追溯食 品信息、自動分揀過期食品, 從而加大食品安全的 監察力度[186-187].
在過去 10 年裡,食品圖像識別無論從算法設計 還是基準數據集構建都已經取得了一系列進展,識 別方法建立了以深度學習模型為基礎的體系框架, 出現了菜品、果蔬和零售食品等不同類型的數據集. 在基於之前食品圖像識別的基礎上,本文接下來對 其存在的問題進行了討論,並重點探討了食品圖像 識別的發展方向.
食品圖像識別儘管從概念上來說屬於細粒度圖 像識別,但不同於傳統的細粒度圖像識別. 以主流 的菜品圖像識別為例,一方面很多類的菜品圖像具 有一定的細粒度特性,需要挖掘和放大局部的細節區域才可以有效地區分不同菜品類別. 另一方面, 很多菜品類別的差異和普通的圖像識別也比較相 似,這就需要考慮食品圖像的整體特徵,使得類間 差比較大的類通過全局特徵更容易區分. 因此設計 的菜品圖像識別模型要兼顧這兩個方面. 此外,常 規的細粒度識別任務通常挖掘固定的語義部件(例 如鳥類的頭、胸和翅膀)以捕獲圖像判別性的視覺 特徵. 然而很多類的菜品圖像並不具有固定的語義 模式,很難像定義鳥類的翅膀和頭部一樣定義菜品 圖像的局部判別性區域,因而也不能直接使用現有 的細粒度視覺分類方法來進行食品圖像識別. 考慮 卷積神經網絡強大的表達能力,如何充分挖掘食品 圖像的特點設計針對性的神經網絡用於食品圖像識 別是未來重要的發展方向. 此外,隨着智能便攜式 設備、智能家居等的迅速普及,將食品圖像識別應 用於移動設備和邊緣設備上的需求日益增加. 因 此,基於輕量化卷積神經網絡的食品圖像識別也將 會受到越來越多關注.
在當前深度學習時代,大規模 ImageNet 數據集[36] 促進了物體識別算法的發展. 同樣,發展食品圖像 識別技術,也需要大規模的食品圖像數據集的支撐. 以主流的菜品數據集為例,目前確實存在一些基準 數據集,例如 ETHZ Food-101[15]和 Vireo Food-172[29] 及近來發布的 ISIA Food-500[42]. 但是,與 ImageNet 相比,這些數據集的類別和圖像數量在規模上還不 夠大. 構建食品識別數據集有其特殊的挑戰. 例 如,以菜品為例,同一道菜因區域差異可能有幾種 不同的名稱. 同樣,有些菜品雖被標記為相同的菜 品名稱,但實際上屬於包含不同食材的不同菜品. 另外重要的一點是 ImageNet依據 WordNet的標準概 念體系構建,而對於菜品數據集,東西方的菜品分 類體系具有明顯的差異. 再比如包裝食品,種類更 為龐雜,很難有統一標準的分類體系. 這也給構建 大規模食品圖像識別數據集帶來了困難. 因此針對 不同的食品類型,如何構建標準統一的菜品拓撲體 系是構建大規模食品數據集首要解決的問題. 此外 相比於 ImageNet,食品圖像識別數據集的標註可能 需要專家標註,如何設計一種有效方案保證高質量 和低成本也是未來構建大規模食品圖像識別數據集 需要解決的一個關鍵問題.
目前食品圖像識別已經應用到飲食質量評估、 食品自動結算、食品組織、檢索和推薦等應用中, 但未來還有更多食品圖像識別的應用場景,如在智 能廚具中,當前的智能烤箱依然需要根據所烤食物 手工選擇對應的烘烤類型,如果在烤箱中加入攝像 頭和食材識別算法,那麼就可以實現烤箱的自動化 烘烤. 李等人[188]提出了一種智能烤箱及烘烤方法, 其中食品識別模塊用於識別烤箱中的食材信息. 隨 着食品圖像識別算法的日益成熟,開拓新的應用場 景對推動未來食品圖像識別的發展具有重要價值.
當前食品圖像識別的對象主要針對單一食品對 象的圖像. 但是現實很多場景下,一張食品圖像通 常包含多個食品識別對象,這時候就需要食品圖像 的檢測和分割[60,189-190]. 例如 Aguilar 等人[58]提出了一種在食堂和飯店環境下對食物托盤進行自動分析 的方法,能夠自動地預測食物托盤中的多種食品類 別. 該方法將食品的定位、識別和細分集成到一個 框架中以進行食物托盤識別. 董[191]提出了一種基 於深度可分離卷積的輕量級食品識別方法,該方法 由食物檢測網絡和食物分類網絡組成. 食物檢測網 絡使用深度可分離卷積和多層融合檢測網絡生成食 物區域的候選框並判斷是否存在食物,食物分類網 絡則根據候選框預測食物的類別標籤. 深度可分離 卷積的廣泛應用極大程度上降低了模型的計算成本 和額外開銷,使得模型能夠成功地部署在各種移動 設備上. 蘇[60]和 Lu[189]考慮到了菜品檢測數據集的 匱乏,採用了多目標分割算法識別圖像中的菜品區 域,隨後對候選區域通過提取 CNN 特徵進行識別. 為了更有效解決現實世界中多個識別對象的問題, 食品圖像的檢測和分割是未來亟需探索的重要研 究方向.
食品圖像識別在計算機視覺和多媒體等研究領 域中具有重要的理論意義和實際應用價值,但同時 目前仍存在諸多問題與挑戰.本文首先從識別對象、 特徵類型和學習方法三個維度總結了食品圖像識別 的研究進展,然後介紹並分析了食品圖像識別領域 主流的數據集及性能評價. 本文還從飲食質量評 估、食品自動結算、食品組織檢索和推薦、智能廚 具、智能穿戴設備、餐飲機器人和食品安全等七個 方面介紹食品圖像識別的典型應用. 最後本文還從 面向食品特點的圖像識別方法、構建大規模食品圖 像識別基準數據集、基於多傳感器信息融合的食品 識別、基於食品圖像識別的新應用、食品圖像檢測 和分割五個方面對食品圖像識別的發展方向進行了 分析與展望. 隨着更大規模的食品識別數據集的出 現,深度學習在食品圖像識別中將有望取得進一步 的突破性進展,與此同時還將催生出更多的新應用.