前幾天給大家分享了一份各城市感染峰期的預測,這次在上次基礎上做了調整和更新,供參考。
近日,我對中國台灣地區、中國香港特別行政區和日本的感染情況與「發燒」 搜索指數進行了分析,發現一個可能可以幫助預測感染高峰期的方法。
①將 Google搜索指數分為疫情期間和非疫情期間,非疫情期間的發燒指數平均數為:將疫情期間的搜索指數做以下處理後加總,計算一個數值:
其中 S 的含義是這樣的:如果發燒的搜索是發燒人口的一個相對穩定的比例,且在非疫情期間發燒人口是總人口的相對穩定的比例。那麼 S 就正比於疫情感染的人口占總人口的比例,我們把它叫做 「超額發燒搜索指數累計面積」。②下圖列出了台灣地區、香港特別行政區以及日本的 「超額發燒搜索指數累計面積」,即下圖橙色面積、藍色面積和灰色面積。![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6a70672f626d63387a3830513866415a735978327062567857416b62486d7256634b6369616962335879547333646962454472394e386a63416b4e3441596368446b79505031743269634e7430654849725a5a4c356c79505a59613141412f3634303f77785f666d743d6a706567.webp)
我們發現在這三個地區,當疫情達到頂峰時,這個「超額發燒搜索指數累計面積」 的數值全部剛好達到 80。這兩個地區第一波疫情結束時,香港特別行政區的面積達到了 160,台灣地區的面積達到了 200,日本的最終面積是 250。③如果用百度搜索指數做類似的研究會有什麼效果呢?我使用了本輪疫情進入群體感染最快、最早的石家莊、邢台和保定做了計算:![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f6a70672f626d63387a3830513866415a735978327062567857416b62486d7256634b6369614f49564a317a7042556c547279675835706e674b7a5739307564565a375834525a424c434c73426d63713631434a6b526e746b6b6a412f3634303f77785f666d743d6a706567.webp)
可以算出,從疫情開始後計算,石家莊的 「超額發燒搜索指數累計面積」 已經達到了 76,邢台已經達到了 67,保定也達到了 71。由此來看,百度搜索指數和 Google 指數分別算出的「超額發燒搜索指數累計面積」,至少是在一個差不多的數量級上。④考慮到保定、石家莊、邢台等地的發燒指數仍然在上升,以及百度搜索指數和 Google 指數的差異。我們比較保守地將 100 作為疫情達峰時的 「超額發燒搜索指數累計面積」,將 250 作為第一輪疫情結束時的 「超額發燒搜索指數累計面積」。那麼我們通過每個城市的搜索指數累計增長,累計速度,就可以算出現在每一個有疫情的城市疫情達峰的時間,以及疫情結束的時間。這是計算的結果,列出了所有能在明年春節前達峰的城市以及這些城市在達峰前已經感染的人口比例(截止至 12 月 10 日)。![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f706e672f626d63387a3830513866415a735978327062567857416b62486d7256634b6369614a65466376306d457365394973766d77396833716a6e786446525546484943554a7066477565386f5870484a4f554b5837364c7939512f3634303f77785f666d743d706e67.webp)
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f706e672f626d63387a3830513866415a735978327062567857416b62486d7256634b63696171504234416f58433646555a4b44714f464c3847626961624b414c47614f497670363852706269615363545338765a34476a5666306778412f3634303f77785f666d743d706e67.webp)
第一是加入了巨量算數指標修正了一些城市,加入了一些之前數據不足的城市。第二是我將過峰的「超額發燒搜索累計面積」修正回了 80。之前的幾張表格中,保守起見,這個數值我使用的是 100,他會使一些城市過峰偏慢。但從這幾天的數據看,石家莊、保定等地已經過峰,這說明中國內地城市居民,在非疫情-疫情的變化中,搜索行為的變化上和香港特別行政區、台灣地區的居民在同樣時期的變化是非常類似的。因此一些城市會在今天的表格中有所提前。第三是加入了「結束進度條」這一變量,代表已經度過疫情頂峰的城市在第一波疫情結束前可能還要走的路程。
「達峰進度條」說明的是在疫情達到日增頂峰前已經感染了多少人,這是城市疫情逐漸加劇,院感增加,醫療資源逐漸擠兌的一段日子,數字達到 100 時日增感染者就達到了頂峰。
而「結束進度條」說明的是在疫情過峰後,在這一波疫情結束前已經感染了多少人,這段時間的疫情雖然整體緩解,但感染還是會繼續增加,並且大部分死亡會出現在這個階段。在數字達到 100 時,城市的這一波疫情就基本結束了。
疫情達峰時間的推算,原本只是搜索指數的一次嘗試,初衷是覺得有趣,但無心插柳,竟然能幫助許多人緩解焦慮。
焦慮來自哪裡?來自未知。既然和疫情共存了,那麼不怕他不來,肯定得來,就怕它在計劃外亂來。
那麼有一個數據,雖然簡陋,但也比沒有數據好,至少大致上是和真實趨勢吻合的。
既然如此,在衛健委有能力提供真實數據之前,我還是會希望繼續更新下去,讓這份粗糙的數據陪伴大家渡過第一次衝擊。
![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f706e672f626d63387a3830513866415a735978327062567857416b62486d7256634b6369617a48426c436a6162754e726e4e46376f4d62576c347a636b58777961557870727069626b6d6d78766552497575496656447435644b43512f3634303f77785f666d743d706e67.webp)
今天按照行政區劃代碼的順序做了排序,增加了一個變量「累計感染占總人口比值」。這個數值也是根據累計的超額搜索麵積計算的。在「數據團+」小程序中也做了相應更新。一些人口較少的城市的搜索指數變化幅度較大,可能會導致數據波動。![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f706e672f626d63387a3830513866415a735978327062567857416b62486d7256634b636961546642513146654c3936383832444a5944796963596e72415455463337553842696374394d4b35777163495256646b6136696339424d3333672f3634303f77785f666d743d706e67.webp)
今天修改了許多之前計算的 bug,比如多段疫情被合併計算(例如新疆的一些城市被合併三個月疫情後出現了超過 100 的感染率),疫情結束時間的算法尾部過寬,一些小城市的缺失(比如濟源、仙桃、吉林省吉林市)以及巨量算數的權重。頭條系產品的許多數據來自被動推送,比如點擊搜索框,出現一個「內馬爾發燒了」,吸引用戶點擊後,可能就會造成一些地方的「發燒」搜索異常。我使用百度的全國指數作為基準整體修正了巨量算數,得到了一個更為穩健的結果。有些讀者可能會注意到今天有一些城市的疫情過峰時間、結束時間都變長了,這一方面來自上面的幾項 bug 修改的結果。當然,更重要的一方面原因是一些城市確實在壓平曲線,儘量降低疫情的增速。快速過峰當然會使得這個城市能夠較快地離開第一波疫情,但是同樣也會造成醫療資源大量擠兌。力所能及地增加一些社交距離,雖然會讓這個城市的疫情更持久,但總死亡也會降低,在第一波感染中,還是值得的。這也是我們的模型最後一次大幅度修改,之後的數據就能保持相對穩定了。![](https://imageproxy.pixnet.cc/imgproxy?url=https://drbanana.ml/img/68747470733a2f2f6d6d62697a2e717069632e636e2f6d6d62697a5f706e672f626d63387a3830513866415a735978327062567857416b62486d7256634b63696177486962377532555359514570454a4f31685557737a31775766324f396b5943763970353849746a49677a3536365464477849736166672f3634303f77785f666d743d706e67.webp)
數據不足,方法簡陋,僅供參考。