當前位置:股票大全官網 - 股票投資 - 學院信493:辛普森悖論——吸煙者是否有可能比不吸煙者存活率更高?

學院信493:辛普森悖論——吸煙者是否有可能比不吸煙者存活率更高?

研究表明,吸煙者的存活率高於不吸煙者。

妳覺得可能嗎?20年前壹份關於吸煙者疾病的研究報告確實得出了這樣的結論:數據顯示,吸煙者的存活率為76%,不吸煙者的存活率為60%,吸煙者的平均壽命比不吸煙者長20年。數據不會說謊。?真的是這樣嗎?

首先,辛普森悖論。

辛普森悖論是指在群體比較中占優勢的壹方,在整體評價中成為劣勢的壹方。或者反過來,以達拉斯到禮堂為例,假設A醫生發現了藥物D,藥物D可以降低心臟病的發病率,觀察數據如下:

女性(未服藥):1人有心臟病發作,19人無心臟病發作,發生率為5%;

女性(服藥):3人有心臟病發作,37人無心臟病發作,發生率為7.5%;

男性(未服藥):12人有心臟病發作,28人無心臟病發作,發生率30%;

男(服藥):8人心臟病發作,12人無心臟病發作,發生率40%;

合計(未用藥):13人有心臟病發作,47人無心臟病發作,發病率為21.7%;

合計(用藥):11人有心臟病發作,49人無心臟病發作,發病率為18.3%。

研究結論:

①男性患者,服用藥物D,心臟病發作的風險高30% ~ 40%。

②對於女性患者,服用藥物D,心臟病發作風險由5%變為7.5%,發病風險也增加。

③總結數據,服用藥物D後,心臟病發作風險由265,438±0.7%變為65,438±0.8.3 %,但總體發病風險下降。

d藥對男女有害,卻對人類有益,結果如此神奇。

二、問題出在哪裏?

問題是這些數據包含了壹個混淆因素:性別。回顧數據可以發現,無論是否服藥,男性的發病率都遠高於女性。如果藥物樣本中女性的數量增加,整體的發生率自然會下降。同樣,如果不采取藥物樣本的男性人數增加,樣本的總體發病率也可以提高。

因此,對於藥物D,科學的計算方法應該是:

①對於女性,不吃藥的發生率為5%;對於男性,不吃藥的發生率為30%;假設男女比例為1:1,未服藥組的平均發病率為17.5%。

②對於女性,服藥發生率為7.5%;對於男性,吸毒的發生率為40%;假設男女比例為1:1,吸毒人群平均發生率為23.75%。

結論:服用藥物D後,人群發病率由17.5%變為23.75%。這藥有毒,不能吃。

第三,吸煙者的存活率。

回到文章開頭的問題,為什麽會有這樣違背常理的結論?

吸煙者的存活率為76%,不吸煙者為60%,吸煙者的平均壽命比不吸煙者長20年。

問題是這些數據包含了壹個混淆因素:年齡。我們看不到研究報告中的底層數據,但很可能樣本中吸煙者的平均年齡比不吸煙者年輕。這樣,吸煙者的存活率肯定會更高,因為他們更年輕。就像找100個20歲的吸煙者+100個90歲的不吸煙者學習壹樣。10年後,極有可能100個吸煙者還活著,100個不吸煙者掛90。然後我們得出結論,不吸煙有害健康。

妳還記得昨天的結論嗎(學院信491)?我們會無形中過濾掉壹些樣本,比如無聊的渣男。在對吸煙者的研究中,研究人員當然不會刻意制造這種極端情況。他們很可能從20歲、30歲、40歲、50歲、60歲、70歲、80歲、90歲、100歲的人群中隨機選擇研究樣本...但事實上,年齡越大,吸煙者和不吸煙者的比例越不平衡,因為很多老煙民已經去世,這導致了吸煙者比不吸煙者年輕的結果

在這種情況下,只有按照年齡劃分數據,才能得到正確的結果:吸煙對存活率有負面影響。

①20歲組中,吸煙者存活率為A%,不吸煙者存活率為B%。

②30歲組中,吸煙者的生存率為C%,不吸煙者的生存率為D%。

......

第四,籃球和投資。

知識需要關聯和延伸。我們的生活中還可能發生哪些類似的事情?

比如籃球。

學生A和B喜歡打籃球,於是各自找100人打。

a找了50個專家和50個菜鳥,贏了50個專家5局,贏了50個菜鳥25局,總勝率30%。

b找了20個專家和80個菜鳥,和專家對戰20場贏了1,和菜鳥對戰80場贏了32場,總勝率33%。

從勝率來看,B的勝率比A高..但是從實力上來說,A比b強很多。

比如投資。

和高手玩,就像壹場勝率很低但利潤很大的交易。

和菜鳥玩,就像壹場勝率很高但利潤很低的交易。

應該追求戰略勝率還是整體利潤?答案顯然是後者。

吉姆·羅傑把自己的投資經驗總結為“40輸3贏”。在半個世紀的投資生涯中,羅傑斯屢犯錯誤,屢遭失敗。但是,3勝的分量遠不止40負。只要3勝的結果足夠大,就足以彌補40負的損失,讓妳最終獲得巨大的收益。

“40敗3勝”的背後還有壹個需要註意的問題,那就是風險控制:因為在大多數人的生活中,妳的3勝不太可能連續出現,每次勝利之間可能會有無數次的失敗,所以我們需要做的就是把損失降到最低,這樣才能轉敗為勝。說白了,不管是“40負3勝”,還是“80負1勝”,關鍵是活下去。當勝利來臨時,我們必須確保我們還在那裏。

第五,生活質量。

新的壹年,是時候“定目標,沖業績”了。我們需要認識到,對於這些目標和績效,“數量”和“質量”是不同的。

“量”更容易衡量,比如籃球比賽的勝率,交易的勝率。

“質量”更難衡量,比如籃球對手的水平,勝利的利潤。

然而,大眾總是習慣於用數量來衡量質量,卻忽略了生活中的質量。由此得到的啟示是:

(1)如果我們像喜歡壹對壹找師傅的同學A壹樣選擇了壹條相對艱難的路,我們就得做好不被賞識、被誤解、不被認可的準備,因為我們的表現(勝率)會很難看。

②如果我們是壹個能力有限的球員,想要獲得大眾的認可,選擇壹個混合競爭少的CBA可能比選擇壹個專家雲集的NBA更好,因為我們的表現(數據)會更出彩。

第六,結論。

數據不會說謊。

數據不會說謊,但收集和解讀數據的人會。

所以相信數據,但不要迷信專家。

祝大家生活愉快。

參考資料:

1.格林斯特德,C. M .和斯內爾,J. L. (1998)。概率導論。第二次修訂版。美國數學學會,普羅維登斯,國際扶輪社。

2.珀爾,J.(2014)。理解辛波森悖論。美國統計學家88: 8-13。