妳覺得可能嗎?20年前壹份關於吸煙者疾病的研究報告確實得出了這樣的結論:數據顯示,吸煙者的存活率為76%,不吸煙者的存活率為60%,吸煙者的平均壽命比不吸煙者長20年。數據不會說謊。?真的是這樣嗎?
首先,辛普森悖論。
辛普森悖論是指在群體比較中占優勢的壹方,在整體評價中成為劣勢的壹方。或者反過來,以達拉斯到禮堂為例,假設A醫生發現了藥物D,藥物D可以降低心臟病的發病率,觀察數據如下:
女性(未服藥):1人有心臟病發作,19人無心臟病發作,發生率為5%;
女性(服藥):3人有心臟病發作,37人無心臟病發作,發生率為7.5%;
男性(未服藥):12人有心臟病發作,28人無心臟病發作,發生率30%;
男(服藥):8人心臟病發作,12人無心臟病發作,發生率40%;
合計(未用藥):13人有心臟病發作,47人無心臟病發作,發病率為21.7%;
合計(用藥):11人有心臟病發作,49人無心臟病發作,發病率為18.3%。
研究結論:
①男性患者,服用藥物D,心臟病發作的風險高30% ~ 40%。
②對於女性患者,服用藥物D,心臟病發作風險由5%變為7.5%,發病風險也增加。
③總結數據,服用藥物D後,心臟病發作風險由265,438±0.7%變為65,438±0.8.3 %,但總體發病風險下降。
d藥對男女有害,卻對人類有益,結果如此神奇。
二、問題出在哪裏?
問題是這些數據包含了壹個混淆因素:性別。回顧數據可以發現,無論是否服藥,男性的發病率都遠高於女性。如果藥物樣本中女性的數量增加,整體的發生率自然會下降。同樣,如果不采取藥物樣本的男性人數增加,樣本的總體發病率也可以提高。
因此,對於藥物D,科學的計算方法應該是:
①對於女性,不吃藥的發生率為5%;對於男性,不吃藥的發生率為30%;假設男女比例為1:1,未服藥組的平均發病率為17.5%。
②對於女性,服藥發生率為7.5%;對於男性,吸毒的發生率為40%;假設男女比例為1:1,吸毒人群平均發生率為23.75%。
結論:服用藥物D後,人群發病率由17.5%變為23.75%。這藥有毒,不能吃。
第三,吸煙者的存活率。
回到文章開頭的問題,為什麽會有這樣違背常理的結論?
吸煙者的存活率為76%,不吸煙者為60%,吸煙者的平均壽命比不吸煙者長20年。
?
問題是這些數據包含了壹個混淆因素:年齡。我們看不到研究報告中的底層數據,但很可能樣本中吸煙者的平均年齡比不吸煙者年輕。這樣,吸煙者的存活率肯定會更高,因為他們更年輕。就像找100個20歲的吸煙者+100個90歲的不吸煙者學習壹樣。10年後,極有可能100個吸煙者還活著,100個不吸煙者掛90。然後我們得出結論,不吸煙有害健康。
妳還記得昨天的結論嗎(學院信491)?我們會無形中過濾掉壹些樣本,比如無聊的渣男。在對吸煙者的研究中,研究人員當然不會刻意制造這種極端情況。他們很可能從20歲、30歲、40歲、50歲、60歲、70歲、80歲、90歲、100歲的人群中隨機選擇研究樣本...但事實上,年齡越大,吸煙者和不吸煙者的比例越不平衡,因為很多老煙民已經去世,這導致了吸煙者比不吸煙者年輕的結果
在這種情況下,只有按照年齡劃分數據,才能得到正確的結果:吸煙對存活率有負面影響。
①20歲組中,吸煙者存活率為A%,不吸煙者存活率為B%。
②30歲組中,吸煙者的生存率為C%,不吸煙者的生存率為D%。
......
第四,籃球和投資。
知識需要關聯和延伸。我們的生活中還可能發生哪些類似的事情?
比如籃球。
學生A和B喜歡打籃球,於是各自找100人打。
a找了50個專家和50個菜鳥,贏了50個專家5局,贏了50個菜鳥25局,總勝率30%。
b找了20個專家和80個菜鳥,和專家對戰20場贏了1,和菜鳥對戰80場贏了32場,總勝率33%。
從勝率來看,B的勝率比A高..但是從實力上來說,A比b強很多。
?
比如投資。
和高手玩,就像壹場勝率很低但利潤很大的交易。
和菜鳥玩,就像壹場勝率很高但利潤很低的交易。
應該追求戰略勝率還是整體利潤?答案顯然是後者。
吉姆·羅傑把自己的投資經驗總結為“40輸3贏”。在半個世紀的投資生涯中,羅傑斯屢犯錯誤,屢遭失敗。但是,3勝的分量遠不止40負。只要3勝的結果足夠大,就足以彌補40負的損失,讓妳最終獲得巨大的收益。
“40敗3勝”的背後還有壹個需要註意的問題,那就是風險控制:因為在大多數人的生活中,妳的3勝不太可能連續出現,每次勝利之間可能會有無數次的失敗,所以我們需要做的就是把損失降到最低,這樣才能轉敗為勝。說白了,不管是“40負3勝”,還是“80負1勝”,關鍵是活下去。當勝利來臨時,我們必須確保我們還在那裏。
第五,生活質量。
新的壹年,是時候“定目標,沖業績”了。我們需要認識到,對於這些目標和績效,“數量”和“質量”是不同的。
“量”更容易衡量,比如籃球比賽的勝率,交易的勝率。
“質量”更難衡量,比如籃球對手的水平,勝利的利潤。
然而,大眾總是習慣於用數量來衡量質量,卻忽略了生活中的質量。由此得到的啟示是:
(1)如果我們像喜歡壹對壹找師傅的同學A壹樣選擇了壹條相對艱難的路,我們就得做好不被賞識、被誤解、不被認可的準備,因為我們的表現(勝率)會很難看。
②如果我們是壹個能力有限的球員,想要獲得大眾的認可,選擇壹個混合競爭少的CBA可能比選擇壹個專家雲集的NBA更好,因為我們的表現(數據)會更出彩。
第六,結論。
數據不會說謊。
數據不會說謊,但收集和解讀數據的人會。
所以相信數據,但不要迷信專家。
祝大家生活愉快。
參考資料:
1.格林斯特德,C. M .和斯內爾,J. L. (1998)。概率導論。第二次修訂版。美國數學學會,普羅維登斯,國際扶輪社。
2.珀爾,J.(2014)。理解辛波森悖論。美國統計學家88: 8-13。