问题是这样的:
约翰和汤姆掷硬币,约翰掷两次,汤姆掷两次,约翰掷两次,......这样轮流掷下去,若约翰连续两次掷得的结果相同,则记1分,否则记0分。若汤姆连续两次掷得的结果中至少有一次硬币的正面朝上,则记1分,否则记0分。谁先记满10分谁就赢。谁赢的可能性比较大,为什么?
已知的答案是:
连续扔两次硬币可能出现的情况有(正,正);(正,反);(反,正);(反,反)共四种情况。约翰扔的话,两种情况记1分,两种情况记0分;汤姆扔的话三种情况记1分,一种情况记0分。所以汤姆赢得的可能性大。
我个人觉得这个答案不妥, 很明显这个问题其实不是那么简单就能解释的。 在我看来, 连续投硬币, 两次掷得的结果相同记分这样的题设说明这个其实是一个马尔可夫过程。 记分不记分取决上一次投得什么结果。 考虑约翰投到第n次, 要是n-1次是个正面, 那n次要是正就记一分, 要是负就没分。 因为正负概率相等, 其实第n次约翰得不得分的概率其实是0.5. 同理, 要是n-1是负, 第n次约翰得不得分的概率也是0.5。 本质上这个得分过程跟汤姆完全一样。 要是我们用马尔可夫动态决策做模型, 我们可以清楚发现两人的 state, action, trasisiton probability 完全一样, 只是reward反了一反。 考虑到硬币正反概率相同, 所有的sample path probabilbity 都一样, 那reward反不反对得分完全没影响。 就这样看来, 这个也就是说其实两人赢的概率其实是一样的。
请高手解释一下是我想太多了还是这题答案本来就错了。 要是我的想法是对的, 那这个奥数就太误人子弟了。
补充本题的binary tree决策过程
马尔可夫正是考虑了成对出现的情况。 正是应为我考虑到了n-1次中正负是成对出现的情况, 才会说在第n次得分的概率是0.5. 因为第n次有4种可能: 正正, 负负, 正负, 负正。 每一个可能概率是0.25, 所以我才说得分是 正正+负负=0.5.
我的分析就是基于多次投币的概率而不是单次。 要是只考虑单次 , 那原来的答案就对了。
看来楼主是误解了这道题的意思。
这道题是说,每掷两次就统计一次分数,就是我说的成对出现。
而楼主的理解是,好比前两次掷完了,比如说第2次掷了一个反面,那么第3次如果再掷一个反面,就还要记+1分。但是事实上不是这样的,两次掷完之后,就要重新掷两次了,而不是楼主的那种掷法,就像我上面说的,那种掷法情况就太多了。
也就是说,每两次都是独立的,都要成对考虑的,而不能把全部看成一个整体,只计算单次的概率.