LION:编程为什么需要概率和统计?_BILL

当你看到这样的新闻,报道了某个娱乐圈明星投资了一家某某餐饮店。现在请思考一下,这则新闻是属于娱乐领域还是餐饮领域呢?如果当你读完这篇新闻大部分内容将的是餐饮行业的过去和现在以及未来。只有小部分涉及中国明星的八卦事情。

你可以觉得,这新闻属于餐饮领域。因为大部分将餐饮领域,而只要小部分属于娱乐八卦。如果用数字来衡量大部分和小部分,我们可以说,90%属于餐饮领域,而只要10%属于娱乐八卦。用数字表示了事件发生的可能性。

根据上面的例子,我们大致知道,概率就是描述这种可能性的一个数值。

随机变量

我们知道概率和日常生活息息相关,比如天气预报。在概率论中有很多概念。但是下面的几个基本概念非常重要,你需要知道。

随机变量来描述事件所有可能出现的状态,并使用概率分布来描述每个状态出现的可能性。而随机变量又可以分为离散型随机变量和连续型随机变量。

离散随机变量是指其数值只能用自然数或整数单位计算的则为离散随机变量。如明天是否下雨。

连续随机变量是指在一定区间内可以任意取值的变量,其数值是连续不断的.,相邻两个数值可作无限分割,即可取无限个数值。例如明天的雨量。

概念分布

概率分布是指数据在统计图中的形状,概率分布是随机变量的概率在统计图中的表现形式。同样,概率分布又分为离散概率分布和连续概率分布

离散概率分布包括伯努利分布、二项分布、几何分布和泊松分布。而连续概率分布主要是正态分布。

伯努利分布:

伯努利分布(Bernoullidistribution)是很简单的离散分布。在伯努利分布下,随机变量只有两个可能的取值:1和0。随机变量取值1的概率为p。相应的,随机变量取值0的概率为1-p。因此,伯努利分布可以表示成:

即伯努利分布只有两种可能的结果:成功和失败

例如,投掷一次硬币,出现正面,记录为1,出现反面,记录为0。而抛硬币的结果要么正面朝上,要么反面朝上,所以抛硬币的结果服从伯努利分布。

Billions项目组数组包importnumpyasnpBillions项目组统计计算包的统计模块fromscipyimportstatsBillions项目组第2步,Billions项目组它返回一个列表,列表中每个元素表示随机变量中对应值的概率p=0.5Billions项目组第3步,绘图plt.plot(X,pList,marker='o',linestyle='None')plt.vlines(X,0,pList)Billions项目组y轴文本plt.ylabel('概率')Billions项目组显示图形plt.show()

二项分布

二项分布可以从计数的角度来理解。n次测试,如果随机变量为k,意味着其中的k次成功,n-k次失败。从n次实验中挑选k个,根据计数原理,共有(nk)(nk)种可能。其中的每种可能出现的概率为pk(1?p)n?k)pk(1?p)n?k)。因此,二项分布可以表示成为:

即二项分布度量的是在n次伯努利试验中正好有k次成功的概率。

例如,连续10次抛硬币,正面朝上的次数就符合二项分布.

Billions项目组数组包importnumpyasnpBillions项目组统计计算包的统计模块fromscipyimportstatsBillions项目组做某件事情的次数p=0.5Billions项目组第2步,Billions项目组它返回一个列表,列表中每个元素表示随机变量中对应值的概率pList=stats.binom.pmf(X,n,p)pListBillions项目组x轴文本plt.xlabel('随机变量:抛硬币正面朝上次数')Billions项目组标题plt.title('二项分布:n=%i,p=%.2f'%(n,p))Billions项目组导入包Billions项目组绘图包importmatplotlib.pyplotaspltBillions项目组第k次做某件事情,才取到第1次成功Billions项目组做某件事情成功的概率,这里假设每次表白成功概率都是60%p=0.6X=np.arange(1,k+1,1)XBillions项目组求对应分布的概率:概率质量函数(PMF)Billions项目组分别表示表白第1次才成功的概率,表白第2次才成功的概率,表白第3次才成功的概率,表白第4次才成功的概率,表白第5次才成功的概率pList=stats.geom.pmf(X,p)pListBillions项目组x轴文本plt.xlabel('随机变量:表白第k次才首次成功')Billions项目组标题plt.title('几何分布:p=%.2f'%p)Billions项目组导入包Billions项目组绘图包importmatplotlib.pyplotaspltBillions项目组定义随机变量,已知某路口发生事故的频率是每天五次,那么此处一天内发生k次事故的概率是多少?mu=5Billions项目组求对应分布的概率:概率质量函数plist=stats.poisson.pmf(x,mu)plistBillions项目组设定均值K=int(K)Billions项目组np.random.randn(1000)+K为创造1000个均值为K的点,服从正态分布,np.random.poisson()为服从泊松分布fig=plt.figure(figsize=(10,5))Billions项目组对进行开方coef=1/(sqrt_2pi*sig)Billions项目组-1/mypow=powercoef*(np.power((data-avg),2))Billions项目组cofe乘e的mypow次方Y=foriinrange(100):S=guass(X,K,std)Y.append(S)plt.plot(X,Y,label='Normal')plt.legend(,facecolor='white')plt.show()

总结

在真实的世界里,我们通常只能观测到一些数据,而无法事先知道,是什么模型产生了这些数据,这时候就要依赖统计学。所以,海量数据的分析、实验和机器学习,都离不开统计学。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

大币网

[0:0ms0-0:375ms