Statistics 从一组数据中排除异常值的有效和准确的算法是什么?

我有一组200个数据行(意味着一小组数据)。我想进行一些统计分析,但在此之前我想排除异常值 用于此目的的潜在算法是什么?准确性是一个值得关注的问题 我对统计数据非常陌生,因此需要非常基本的算法方面的帮助。计算集合上的标准偏差,排除第一、第二或第三标准偏差之外的所有内容。您可能听过“六西格玛”这个表达 这是指平均值的正负3西格玛(即标准偏差) 任何超出“六西格玛”范围的东西都可以被视为异常值 反思一下,我认为“六西格玛”太宽了 描述其如何达到“百万分之三点四的缺陷零件机会” 这似乎是一个非常严格的

Statistics SPSS逻辑回归

我想知道是否有一种方法可以得到许多单协变量逻辑回归。由于缺少值,我希望对所有变量执行此操作。我想进行多元逻辑回归,但我有太多的缺失值。我不想为数据库中的每个变量计算逻辑回归,有没有自动的方法 多谢各位 您可以使用SPSS语法对其进行编码 例如: LOGISTIC REGRESSION VARIABLES F2B16C -- Dependent variable /METHOD=BSTEP -- Backwards step - all variables in then see what

Statistics 如何获得在第n次印象后点击广告的概率?

我有两张桌子,点击和印象 点击表保存用户对广告的点击,类似于;播发id、用户id、单击时间 所述印象表保存用户对广告及其同类产品所做的印象;广告id、用户id、印象时间 我使用CTR对广告进行排名;广告的总点击数/广告的总印象数 几天前我注意到,通常在第二印象后没有点击的用户从不点击广告,你知道我如何使用这些数据对每个用户的广告进行排名吗?如果我理解正确,CTR将足以对每个用户的广告进行排名,(点击/印象->随着印象的增加为零) 但是,如果您想对印象进行全局排序(不仅仅是每个用户),您可以使用某

Statistics 训练集平衡策略

如果您有一个包含各种类的实例的训练集,那么它是高度不平衡的。你会用什么策略来平衡它 关于真实世界人口的信息:7类,其中最小的占5% 关于训练集的信息:频率与总体频率有很大差异 这里有两个选项: 将其偏向于人群类别频率 使其偏向均匀分布 有了偏见,我打算做一些类似SMOTE或成本敏感分类的事情 我不确定该采取哪种策略。我也愿意接受其他建议。您如何评估战略的成功?正如您所提到的,对于培训,您有两种选择。或者平衡你的数据集(如果你有大量的数据和/或少量的特征,这样扔掉一些样本不会影响学习),或者根

Statistics 如何计算两个频率分布之间的显著差异

我有一个100行2列的数据集。每行代表直方图的bin,两列是以分数显示的两个测量值。如果我们在两条曲线中绘制两列,我们将很容易看到两条曲线是不同的,但我想从统计学上找出显著差异,例如P值等。有人知道如何做到这一点吗?我认为您应该指定数据是否是重复测量。 如果是这样,则每行代表相同的样本单位,而列则表示治疗前(第1列)和治疗后(第2列)观察到的结果。 在这种情况下,你应该考虑 Wilcoxon符号秩检验或更一般地,配对差异检验。你可以在R中找到一些有用的信息 如果您的数据不是重复测量值(如我所想)

Statistics 威顿贝尔贴现解释 在JuraFaSKY和马丁的书中,等式(6.16)指出,我们可以把训练语料库看作一系列事件——一个是令牌,一个是新的n个类型。但是,从概率的推导方式来看,我猜它假设事件是不相交的。但是,如果下一个单词是新的,那么它是一个对应于一个标记的事

威顿贝尔贴现解释 在JuraFaSKY和马丁的书中,等式(6.16)指出,我们可以把训练语料库看作一系列事件——一个是令牌,一个是新的n个类型。但是,从概率的推导方式来看,我猜它假设事件是不相交的。但是,如果下一个单词是新的,那么它是一个对应于一个标记的事件,也是一个新的N元,这与不相交事件的假设相矛盾。我对它的理解哪里出错了

Statistics 从非均匀数据创建均匀分布的示例

给定一个非均匀分布(高峰值)的数据集,我想重新采样以创建一个近似均匀分布的新数据集。我的做法: 将数据划分为多个存储箱 目标料仓级别=所有料仓中每个料仓的最小样本数 随机删除样本,直到每个料仓计数=目标料仓级别 有更好的方法吗?我们知道,对于均匀分布,我们有 平均值=(a+b)/2 差异=(b-a)^2/12 因此,您可以构造这些参数,并从具有这些参数的均匀分布中进行采样,您可以设置a=min(数据)和b=max(数据),也可以设置a=mean(最低值)和b=mean(最高值)之类的。如何设置a

Statistics G*方差分析中的总样本量

当计算重复测量的所需样本量(G*幂)时,在交互方差分析中,输出中的“总样本量”指的是什么?每组所需的参与者人数或所有组的总数?这是所有组的总数。第56页有一个早期的例子。它显示了六组,需要N=90(总样本量),每组N=15 来自的最近一个示例说明了示例1.2.3中的定义用语,“…总样本量N=176(即88 “非常感谢您的回答!

Statistics 回归方程

我正在看博伦(1989)的《结构方程建模》一书的第2页。在书中,他认为在一个简单的回归中,y的方差可以表示为(b1^2*VAR[x])+VAR(扰动)。我不确定我是否理解这一点。我用10箱假X和Y试过了,但都没用。有人能解释一下吗?结构方程建模是一种对数据的协方差结构进行建模的技术,因此我们可以依赖协方差代数的一些规则。我不会在这里展示这些的证明/推导,但您可以在网上的其他地方轻松找到它们: 1. var(y) = cov(y, y) 2. cov(x, a) = 0, where a i

Statistics 用于贝叶斯回归的聚类组

我使用聚类来识别特定数据集中的不同组。然后,我计划使用我发现的组作为贝叶斯逻辑多级模型中的组变量 我的问题是,在模型拟合过程中使用聚类过程中使用的一些变量是否会产生问题?与对不同的组进行聚类时相比,我是否必须在模型中使用不同的变量

Statistics 如何在SPSS中使用国家-年横截面面板数据集建立固定效应模型?

我有一个按国家年份分组的横断面面板数据集。我想说明具体的单位差异(国家),因此希望执行固定效应OLS模型。我如何在SPSS中这样做?请让我知道。非常感谢。请尝试查找有关这方面的教程(我在简单的谷歌搜索中看到了一些),然后告诉我们,如果您遇到编程困难,我们将很乐意提供帮助。

Statistics java或相关库中用于生成正态分布随机数据的任何函数

我想生成正态分布的随机数据矩阵。是否有任何java或相关函数可用于实现此功能。此功能内置于标准库中 使用Random.nextGaussian() 这将返回正态分布的浮点数,平均值0.0和标准偏差1.0 如果需要平均值m和标准偏差s分布中的随机数,请使用以下表达式: ( Random.nextGaussian() * s ) + m 这是内置于标准库中的 使用Random.nextGaussian() 这将返回正态分布的浮点数,平均值0.0和标准偏差1.0 如果需要平均值m和标准偏差s分布中的

Statistics YSlow素数缓存-错误的饼图

我的问题是这样的: 我做了一个YSlow测试,在统计饼图视图下,我有一个错误的饼图。空缓存显示11个请求,已启动缓存显示2个请求 现在,两个请求中的一个是对HTML文件的请求,Net面板显示为304 Not Modified(未修改),但YSlow till在饼图中显示为具有文件大小的新请求 现在据我所知,如果发出304 Not Modified请求,它会在primed cache列表下显示,但文件大小为0.0 KB,而不是在饼图中 这是虫子吗?有人有经验吗 ----PS:它在2小时前工作正常,

Statistics 如何知道何时使用特定类型的相似性索引?欧氏距离与皮尔逊相关

在选择相似性指数时,需要考虑哪些决定因素。 在什么情况下,欧几里德距离优于皮尔逊距离,反之亦然 相关性与单位无关;如果将其中一个对象缩放十倍,将得到不同的欧几里德距离和相同的相关距离。因此,当您想要测量这些对象之间的距离(如由其表达谱定义的基因)时,相关性度量是非常好的 通常,绝对或平方相关性被用作距离度量,因为我们对关系的强度比对其符号更感兴趣 然而,相关性仅适用于高维数据;对于二维或三维数据点,几乎没有计算它的必要 还要注意的是,“皮尔逊距离”是一种加权类型的欧几里德距离,而不是使用皮尔逊相

Statistics 使用多个高斯函数的最可能位置

考虑到一些可能的位置,比如高斯分布,我遇到了下面的问题来定位一个人的位置 此人可能靠近道路。任何时候的概率 点由其到目标的最短距离的高斯函数给出 路。函数在零处达到峰值,占其总积分的95% 在+/-2730米范围内 以塔为中心的概率分布也告诉我们 此人的位置。分布的径向剖面为对数正态分布 平均高度为4700m,各方向的振型为3877m 一颗卫星提供了更多的信息:95%的概率人是 位于卫星路径2400m范围内(假设 正态概率分布) 塔GPS坐标 52.516288,13.377689 卫星路径是坐

Statistics 具有稀疏预测变量的logistic回归

我目前正在使用二元逻辑回归对一些数据进行建模。因变量有大量的正案例和负案例-它不是稀疏的。我还有一个很大的训练集(>100000),我感兴趣的主要效果大约有15个,所以我不担心p>n的问题 我关心的是,我的许多预测变量,如果是连续的,大多数时候都是零,如果是标称的,大多数时候都是零。当这些稀疏预测变量的值大于0(或不为空)时,由于熟悉数据,我知道它们在预测我的阳性病例时应该很重要。我一直在寻找这些预测因子的稀疏性如何影响我的模型的信息 特别是,如果有另一个预测变量不是稀疏的,并且是相关的,但实际

Statistics 方差分析因子选择的遗传算法

我计划对不同层次的因素进行方差分析,问题是我有20个独立的因素。当然,最好的模型应该只包括重要的因素。甚至可以将遗传算法应用于因子选择吗?在这种情况下,我应该尝试使用什么样的模型精度估计函数 当然前提是错误的。无论p值如何,您都希望得到正确的模型。您的方式会导致过度拟合和错误的变量选择。这就是为什么逐步回归是死的 你有一个典型的大数据问题。有很多建议,但我会用谷歌搜索功能选择。我很可能在这里试试套索 这个问题可能更适合于更一般的统计问题的堆栈交换站点。Stackoverflow实际上更多的是针对

Statistics 两个以上协变量的非参数强度函数估计

在“Spatstat”软件包中,函数“rho2hat”可以估计具有两个协变量的强度函数,但在大多数情况下,环境和生态协变量的数量超过两个。我的问题是,在这种情况下,我们是否可以使用任何函数?否,对于两个以上的协变量,没有类似的rho2hat。原则上,可以做更多的协变量,但这将是非常微妙的,我们计划在spatstat中永远也做不到

Statistics 具有固定基准年的增长公式

我有两个变量year和price,我想计算前一个变量的增长。但是,在每次计算中,基准年是不变的 考虑下表: +------+-------+--------+ | year | price | growth | +------+-------+--------+ | 2010 | 7 | -0.3 | +------+-------+--------+ | 2011 | 9 | -0.1 | +------+-------+--------+ | 2012 | 10

Statistics 当删除平均值观察值时,方差如何变化?

你早上的通勤时间有多长?显示的时间是秋季学期前两周上午通勤的时间(分钟) 43 62 49 47 95 53 54 48 42 47 你也得到了∑10i=1xi=540,早上通勤的差异为241.1分钟^2。现在,一个等于平均值的观测值将被删除。因此,差异将: a) 增加 b) 减少 c) 保持不变。我猜您指的是样本方差,即 然后,样本均值对样本方差的贡献实际上为0。如果删除平均值,则sum(Y-Ybar)^2保持不变,而n减小 这使得样本方差更高 您可以使用以下R代码将其可视化: f2=fun

Statistics 比较高程数据时了解RMSE值

我正在比较两组不同的高程数据。我正在努力确定哪些数据更准确。我正在使用地质统计学向导进行插值和交叉验证,以进行确定。我最初的印象是RMSE越接近1(值离直线有多远),越好。我读了多篇文章,建议RMSE越小越好。有没有人能帮我解释这一点或提供好的资源?我没有发现任何有用的东西 非常感谢你

Statistics 经理人游戏:如何计算市场价值?

通常,足球经理比赛中的球员都有市场价值。经理人根据这些市场价值出售他们的球员。他们认为:“哦,这名球员价值30万英镑,所以我会设法以35万英镑的价格卖掉他。” 所有球员都有三个基本素质: 强度值(1-99) 他们所能达到的最大力量(1-99) 动机(1-5) 当前年龄(16-40岁) 根据这些价值,我计算了目前的市场价值。但我想根据球员在最后一段时间的转会动态计算市场价值。我怎么能这样做 我有上面提到的素质和球员在最后一段时间内的转会情况可供计算 我怎么计算呢?我是否需要根据球员的素质对最后

Statistics 绘制统计数据,最好使用gnuplot

我有许多数字数据集,我已经计算了它们的平均值、中间值、偏差、最小值和最大值,我希望将它们可视化(在Linux上,不使用X,将其转换为图像文件) 我已经看到了gnuplot绘制错误条的功能,但是我有几个问题:我的数据集沿着X轴紧密地打包在一起,gnuplot的错误条沿着X轴占用了太多的空间;我只看到它能够绘制一个最小值和一个最大值,中间有一个数据点(大概是一个平均值),我看不出有什么好的方法可以将中间值和偏差拟合到这个模型中 有人知道在gnuplot中解决这些问题的方法吗?或者,也许有比gnupl

Statistics Python多元分析?-要从3.6M记录集中3-10个记录对生成唯一ID?

我是数据挖掘新手,对统计数据和python比较熟悉 在mysql数据库中,我们有来自某个政府机构的case\u报告表,其中我们有一个或多个id:case,理论上,他们说病例是唯一的,但可以有多个病例字段:id,其他行字段中的数据非常相似,但不完全不同,如日期(rcvd)、年龄、剂量、体重、年龄、给药途径、提交类型等 THEORETICALLY 'IDEAL' OF CASE REPORT SET FOR ONE PATIENT | id = 55 | case = 1 | a

Statistics 如何在gnuplot中生成具有可变框宽的框和须图?

我正在尝试使用gnuplot可视化我拥有的数据集(在Java中,但这并不重要)。我可以问一些不同的问题,但是现在:假设我的数据是分类的,对于每个类别,我有四分位数1,2,3,最小值和最大值,以及该类别中样本的总重量(但不是实际样本数据)。我想用GNUplot的“烛台”来绘制这个图。我几乎可以做到: 除了使用方框宽度可视化样本重量 这可以在gnuplot的“烛台”图中完成吗?还有别的办法吗 注意:我最感兴趣的是使用gnuplot。其他建议只有在易于编写脚本且不需要安装太多附加软件的情况下才受欢迎

Statistics ANN输出值不稳定,提高了精度

我正试图开发一个人工神经网络,使用PyBrain对生物数据进行建模。My ANN编译并运行,但其准确度值非常低,从未超过~62%。从编码的角度来看,如何提高ANN的准确性?我注意到,每次,ANN的输出也不一样,即使测试数据集没有变化——是否有ANN不稳定的原因,我如何改进这一点 谢谢!:) 如果每次运行脚本时都创建新网络,则输出不同是正常的 每次创建连接时,请使用随机值(范围0到1)初始化连接的权重 您可以使用NetworkWriter保存您的ANN,并使用pybrain.tools.custo

Statistics 角度统计不';没有道理

我计算了一个低于两个角度的平均角度 337.477792 324.8119785 我使用公式计算平均角度(见下文#平均分布) 我得到的是28.85511475/-28.8551147。这些值看起来不正确。。。不知是否有人能为我解释一下这个结果?非常感谢你 这些值看起来不正确 相差360的角度相等。因此,-28.8551147==331.145,这是您提供的两个值的算术平均值。如果您希望确保您的值始终处于[0360),您应该添加360如果值小于0,实际上,我还有一个问题。我仍在试图弄清楚如何通过

Statistics 从R

全部, 我对一组变量(包括分类变量和连续变量)进行了逻辑回归,以二元事件作为因变量 现在,在建模后,我观察到一组分类变量显示负号,我认为这是为了理解,如果分类变量出现的次数较多,则因变量出现的概率较低 但当我看到自变量出现的百分比时,我看到了相反的趋势。因此,结果似乎与直觉相反。任何可能发生这种情况的原因。我试着在下面用一个伪例子来解释 因变量-E 预测因素: 1.分类变量-Cat1,具有2个级别(0,1) 2.连续Var-Con1 3.分类变量-2级Cat2(0,1) 建模后: 假设所有都是有

Statistics SAS数据组织

我有数据集,如附件中的图片,我只需要每年具有相同numsecur的观测值 如何在SAS proc sql函数中执行此操作?在斯塔塔这样做会更容易吗?如果是这样的话,我可以使用什么程序?您看起来像是stackoverflow的新用户。欢迎你的问题被否决至少有三个原因: 1) It's not really clear what you want from your description of the problem and the data you're providing 2) You

Statistics sklearn加权弹性网

当我使用sklearn.linear\u model.LinearRegression模块时,我发现它支持fit方法中的sample\u weight变量。我想知道为什么其他线性_模型(例如,ElasticNet,LASSO,RidgeRegression,等等)目前不支持这一点(因为我在他们的fit方法中找不到此选项) 我检查了sklearn.linear\u model.LinearRegression,发现他们使用了\u rescale\u data方法,其中基本上将权重对角线度量的sqr

Statistics 使用Fama MacBeth(1973)方法测试CAPM

我需要为我的论文进行Fama MacBeth(FM)程序,以测试六因素模型预测未来预期收益的能力。在市场超额收益预期超额收益的单变量回归中,平均截距系数和斜率系数在1%水平上具有统计显著性。当使用FF(2015)和Carhart(1997)因子增加回归模型时,所有变量均不显著,但截距系数在1%水平上保持高度显著性 基本上,我需要知道的是CAPM是否成立。我知道,在横截面OLS设置中,截距必须在统计上不相关且接近零(α=0),而市场超额收益系数应在统计上显著且接近1(β=1)。然而,对于FM回归结

Statistics Amazon SageMaker Studio Autopilot:在进行时间序列预测时,是否需要将目标列向后移动?

我通过一些功能预测收入(目标)。通常,对于时间序列预测和简单回归模型,我们需要手动移动目标,以便它反映预测范围。例如,带有年度预测的月度数据意味着我们需要.shift(-12)等等。然而,SageMaker Studio自动驾驶仪是如何工作的?我们是否用一个移动的时间序列来喂养它

Statistics owa如何一步一步地工作

光栅1{{0,1},{1,1} 光栅2{{1,1},{0,0} 您好,您能解释一下,在给定上述两个光栅的情况下,有序加权平均法是如何工作的吗?谢谢关于OWA概念的棘手部分是操作前输入向量的顺序。给定一个向量和一个加权向量: v = (1, 3, 2, 7) weights = (0.5, 0.3, 0.1, 0.1) 请注意,与所有权重向量一样,组件的和必须和1。现在,构建v1,对v的组件进行排序: v1 = (7, 3, 2, 1) 嗯。现在,让我们看看OWA的理论: OWA = sum

Statistics 使用Fortran正确查找标准差和总体方差的问题

在fortran 95上搜索标准差和总体方差时,我找不到多少。我想知道是否有人能帮我?谢谢你抽出时间 下面是我所做的,它编译得很好,但结果给出了错误的值: SUBROUTINE ComputeStats(num, sum, avg, variance, sdv) REAL, INTENT(IN):: num(10) REAL, INTENT(OUT):: sum REAL, INTENT(OUT):: avg, variance, sdv

Statistics 从.exe文件检索数据

如何与游戏(“地震II”)进行通信,并从中检索/提取数据 我有一个老游戏(ActionQuake II),它是地震2的一个模版。 每当在游戏中执行一个动作时,它都会在突击队提示中写入每一个事务——就像反击一样。(我不确定,这是否是解决方案…) 我想这些事务可以从.EXE文件中检索 有没有办法检索、处理甚至搜索.EXE文件(实时)? 我知道这是可能的,因为在一些IRC通道中有机器人,它们会在通道上写入每个事务。许多主页也在做这件事——给用户一个服务器列表,上面有详细信息,如:分数、死亡、玩家等()

Statistics SAS-NLIN中非收敛性的记录

我有一个关于SAS proc nlin的问题 我正在进行10000次模拟。它们中的很多都不收敛,给了我错误的结果 我想在我的输出表中添加一个二进制变量,该变量表示这个函数没有收敛 有人知道怎么做吗 非常感谢, Perry您需要使用ODS从PROC NLIN中提取ConvergenceStatus输出。将其添加到程序代码中,如下所示: PROC NLIN data = ...; ...; ods output ConvergenceStatus = conv; RUN; 这将为您提供一个

Statistics O(1)模式下的堆栈

有什么方法可以跟踪堆栈并在O1时间内获取Is模式 我知道我已尝试实现最小或最大堆栈。但是这个对我来说是新的。有什么想法吗?这个想法与最小堆栈或最大堆栈是一样的,只是现在我们必须跟踪堆栈中元素的计数,这样我们就可以确定新推的元素是否改变了模式。您可以将其推广到任何操作,在这些操作中,您可以提供一个可能有状态的函数currentValue,beingpush->nextValue,并保证弹出返回到上一个值 public class ModeStack<T> { private f

Statistics 如何进行数据拟合以找到给定数据的分布

我需要进行数据拟合,以找到给定数据的分布 我需要找到发行版的pdf函数 我可以在matlab和python中使用数据拟合函数 它看起来像一个截断的伽马射线 但是,如何找到分布的参数呢 如果数据无法拟合截断的伽马测井,该怎么办 QQ图(qunatile分位数)表明,它不适合被截断 伽马 如何找到分布参数,如alpha(形状)、beta(比例) 对于截断伽马射线 如果数据拟合在这里无法工作,我还可以使用哪些其他方法 任何帮助都将不胜感激。在Matlab中查看 备选,考虑专业包,如ExtToFIT或E

Statistics 查找数据集预期范围之外的值

我有一个包含以下信息的数据集:SaleDate、ItemId、quantitysell(在MSSQL数据库中,但欢迎提供一般性的想法) 我希望能够在物品销售突然增加或减少时生成“警报”,例如,物品#54321上个月预计销售12000至15000件,但销售18000件 计算“预期范围”或触发警报的异常值的好方法是什么 平均数?中位数?四分位数?标准差?盒子和胡须的情节看起来很有趣,但这就是要走的路吗?有更好的方法吗 TIA这是一个困难的话题。我并没有什么好的建议,只是根据一家全球家居公司的零售数据

Statistics 使用GLM回归时,如何在stata中获得伪R2度量?

我使用的是GLM估计方法(family=poisson,link=log)。这应等同于泊松估计方法。因此,我应该能够计算伪R2度量。我该怎么做 谢谢 布鲁诺您可以为此使用pscl软件包 # Some mock data set.seed(2014) Y<-rpois(1000,4) set.seed(2014) x<-2*Y+0.1*rnorm(1000) # Estimate model require(MASS) m1<-glm(Y~x,family="poisson"(

Statistics 统计异常?

我写了一些处理135000本书的代码。我刚从我的零售商那里得到消息,983本书似乎有问题,并指责我的代码“搞乱”了他的库存。我有一个朋友在里面说他的库存一直有问题,看起来不是我 我认为,如果问题是我的代码,超过.73%(983/135000)的数据将受到影响。我如何用数学术语来反驳他的理论,即这是我的代码 也许正是983本书有一个cedilla。或者是日语字符。或双元音 我不认为有任何方法可以在这里使用统计数据,不会导致统计学家畏缩 你为什么不根据结果给你的费用打0.73%的折扣呢?:-) 或者

Statistics 匹配两个SPSS数据集[困难]

我目前正忙于在SPSS中组合两个数据集,但这不是常见的问题,经过巧妙的操作,我成功地将其归结为: -数据集I:非唯一ID“A” -数据集II:唯一ID“B” 我希望保留数据集I,并将数据集II中的B数据添加到A将B与A匹配的每一行中 所以:数据集I包含一个人的ID和一种疾病,每行可能包含多种疾病,因此非唯一ID&数据集II包含一个人的ID和地址行唯一。我想合并它们,这样每个ID+疾病都会用地址更新,如果地址可用的话 接下来,我要完成从I开始保留行,其中A在II和中没有匹配的B;添加新的案例,以保

Statistics 使用置信区间和点估计计算比例的方差

我想知道如何使用点估计和置信区间计算比例的方差。在本例中,我指的是来自2x2表的数据:灵敏度=0.88(95%CI,0.77到0.95)。在给定置信区间的情况下,是否可以估计灵敏度的方差(0.88)?如果没有,我还需要什么其他信息?提前感谢。如果CI是使用正态近似值估计的: 二项比例置信区间的公式为 因此,从这里你可以颠倒方程,得到SD。我投票结束这个问题,因为它是关于统计的,而不是编程或软件开发。

Statistics 面试概率脑筋急转弯

这是我们系给应届毕业生的考试题。我们在正确答案上意见分歧 数学课由10名学生组成:6名男生和4名女生。50%的学生交给A题解决,其余的交给B题。一个女孩得到A题的概率是多少?答案应该是0.5吗?这很简单。因为我们在这里回答编程问题,所以这里有一个如何计算概率的答案。 我认为你的意思是:至少有一个女孩获得考试A的概率是多少? 这可以通过将女孩获得测试a的人的测试分配数量除以可能的排列总数来计算。要生成这些赋值,只需对类或测试进行置换即可;EG在R中: > library(combinat)

Statistics 具有相似特征的匹配观测

我试图匹配具有相似特征的变量。顺便说一下,这是我第一次使用任何匹配方法,所以请耐心等待。 例如,我有一个包含国家和一系列特征的数据集,我想对具有相似特征的国家进行分组 +---------+--------+------------+--+ | Country | income | population | | +---------+--------+------------+--+ | US | 100 | 1500 | | | UK | 100

Statistics 统计语言模型:比较不同长度的单词序列

我有一个从文本中提取公司名称的算法。它通常做得很好,但是,它有时也提取看起来像公司名称的字符串,但显然不是。例如,“联系我们”、“科罗拉多斯普林斯公司”、“美容牙医”显然不是公司名称。黑名单中有太多这样的误报,所以我想介绍一种对提取的字符串进行排序的算法方法,这样就可以丢弃排名最低的字符串 目前,我正在考虑使用一个。该模型可以根据字符串中每个单词的概率乘积为每个字符串打分(考虑最简单的模型)。我的问题是:这样的模型可以用来比较不同长度的单词序列吗?由于概率根据定义小于1,较长序列的概率通常小于较

Statistics 将数据分布推广到更小子集的最佳方法?

假设我有一个如下的数据集: 此外,他们还包括174.06、174.94、175.43、177.42、177.42、177.42、177.42、177.42、177.42、177.4、178.4、178.4、178.45、175.45、175.4、175.4、175.4、175.4、174.4、174.4、174.4、174.4、175.4、175.45、175.73、175.73、175.75、175.73、175.75、175.75、175、175.75、175.75、175.75、175、1

Statistics Sklearn Chi2返回NaN结果

我试图通过使用SK2库执行卡方检验来评估功能结果 我使用了这个线程中的方法:为了获得我的p值。我的p值的剪切图如下所示: nan, 1.0, 1.0, 0.9999999999999872, nan, nan, nan, nan, nan 我有很多楠的。为什么会这样?这是否意味着假设进行0.05显著性检验,我的结果是无关紧要的?您需要什么样的数据?我的数据是从大型文本语料库中提取的文本特征(单词或短语)的矢量化版本。我的目标数据是分数。例如,每个数据条目都会有一个分数(0-100),这将是大量

Statistics 概率/统计-事件仅发生一次

如果我有十分之一的机会赢得比赛。如果我参加三场不同的比赛,我有多大机会赢得一场比赛?每次比赛我获胜的机会是十分之一。我被告知答案是24.3%,但无论我怎么努力,我都不知道这个数字是如何计算出来的。我得到的最接近值是27.1%,即1-(9/10)^3您有三种可能的有利路径: 以概率(1/10)x(9/10)x(9/10)赢第一场比赛,输下两场 输第一名,赢第二名,也输第三名,概率为(9/10)x(1/10)x(9/10) 输掉前两个,赢第三个,概率(9/10)x(9/10)x(1/10) 每条有利

  1    2   3   4   5   6  ... 下一页 最后一页 共 21 页