在電腦上進行語音輸入,一直以來是很多效率人士所追求的目標之一。
就在近幾年,羅老師 的TNT(Talk N Touch)也號稱要將語音輸入作為一種「顛覆式」的人機交互手段。雖然,最後大家覺得這很扯,而且TNT用起來也很麻煩,但多少也激發了人們對語音提升輸入效率的一些想象。
事實上,在專門的文字輸入的場景下,例如。記者/作者/媒體編輯,或者需要製作文字報告的商務人士,對電腦進行大量文字輸入是不可取代的工作之一,這時語音輸入,就有很強的優勢。
很久以前 IBM 有 ViaVoice 之類的專業語音輸入工具,後來各種「輸入法」也 逐漸融入了語音識別的功能, 再後來, 像 macOS,Windows 也逐漸融入了 語音識別 和 語音助手。

現在, Windows11 已經自帶了語音輸入,直接可以通過快捷鍵呼出,無論在哪個App 裡面,只要有文字輸入框就可隨時使用。非常方便。
Windows11 的語音輸入
在 Windows11 中,只要按下Win鍵+ H,系統就會立刻跳出一個語音輸入的「懸浮窗」。當懸浮窗中出現 跳動的麥克風圖標時,或者提示 Listening 字樣的時候,我們就可以對着電腦說話了。Windows 會自動把語音轉譯為文字,顯示在在我們的文字輸入框裡。

在 Windows 聽寫文字輸入時,我們只要按下鍵盤上的任意一個鍵,語音輸入就會被立刻打斷停止。如果被鍵盤動作打斷時,還有部分語音識別未完成,文字也未上屏幕的話,那麼就再也不會被顯示出來了,就像被「掐斷」了一樣。從這點來看,語音輸入,更像是一個輔助功能,而鍵盤動作的優先級仍舊最高的。
值得一提的是,Windows的語音輸入似乎比較聰明,可以進行中英文混合識別輸入。
例如我現在說:
「Tesla 似乎沒有使用 Google和Microsoft 的核心地圖技術」。這句話里的英文公司名稱都可以被準確的識別出來。又如:「今天我去IKEA買了一些家具」。裡面 IKEA 就被很好的識別保留了下來。
Schedule time for this particular thought。這樣的純英文短句也能被大概率識別。更長的句子可能就不行了。
另外,設置裡面,系統還提供了「自動標點符號」之類的功能。

一些感想
Windows11 的語音輸入已經非常成熟。無需事前訓練,之前 Windows 還要讓大家朗讀幾個例句讓電腦識別我們的聲音,現在已經不需要了。而且基於操作系統級別的集成,響應非常迅速,隨處可用,隨開隨用。
中英文的混合語音輸入特別優秀。really amazing。但更加適合說混合的長句,而不是短句和單詞。
對麥克風的拾音性能和電腦的聯網能力有一定的要求。(可以在Windows的設置:系統》聲音》屬性》麥克風 裡面配置)

需要一個安靜的私人空間。如果在嘈雜的大辦公室里,效果肯定是不理想的。這點 和 當年TNT 所遇到的境況是一樣。
語音輸入不能取代文字編輯,標點符號的運用也不盡如人意。最終,還是需要我們逐字去校對和編排。但即使如此,也已經省去我們很多的手動輸入過程了,節約了不少時間。
我覺得,先口述一個大綱,再口述補充內容,然後再手動編輯,有可能是一個潛在的最佳實踐。
最後
當熱,macOS也有語音「聽寫」的能力,類似 Windows11 的語音輸入。默認似乎是關閉的,我們可以在鍵盤的偏好設置裡面打開並選擇語種,然後就能和Windows一樣進行語音輸入了。

最最重要的是,所有系統下,「語音輸入」面臨的問題可能都是一樣的,我們需要一個私密安靜的空間(獨立辦公室?),這才是目前來看最珍貴的資源。