第1题
关于药物流行病学的叙述,不正确的是:
A.样本越大,数据估计越为准确
B.需在不同的人群中,作两三次以上的大样本研究
C.对同一个药物,一定会得出相同的研究结果
D.可发现潜伏期很长的药物不良反应
E.可在老人、儿童、孕妇等人群中进行
第6题
A.Hadoop
B.Impala
C.Spark
D.BigTable
第7题
问题描述:设有n个程序{1,2,...,n}要存放在长度为1的磁带上.程序i存放在磁带上的长度是li(1≤i≤n).程序存储问题要求确定这n个程序在磁带上的一个存储方案,使得能够在磁带上存储尽可能多的程序.
算法设计:对于给定的n个程序存放在磁带上的长度,计算磁带上最多可以存储的程序数.
数据输入:由文件input.txt给出输入数据.第1行是2个正整数,分别表示文件个数n和磁带的长度L.接下来的1行中,有1个正整数,表示程序存放在磁带上的长度.
结果输出:将计算的最多可以存储的程序数输出到文件output.txt.
第8题
本题使用GPA2.RAW中的数据。
(i)考虑方程
其中,colgpa表示累积的大学GPA,hsize表示高中毕业年级以百人计的规模,hsperc表示在毕业年级中学术排名的百分位,sat表示SAT综合分数,female是一个二值变量,而athlete也是一个运动员取值1的二值变量。你对这个方程中的系数有何预期?哪些你没有把握?
(ii)估计第(i)部分中的方程,并以通常的形式报告结果。估计运动员和非运动员之间GPA的差异是多少?它是统计显著的吗?
(ii)从模型中去掉sat并重新估计这个方程。现在,作为运动员的估计影响是多大?讨论为什么这个估计值不同于第(ii)部分的结论。
(iv)在第(i)部分的模型中,容许作为运动员的影响会因性别不同而不同。检验如下原假设:在其他条件不变的情况下,女生是否是运动员没有差别。
(v)sat对colgpa的影响会因性别不同而不同吗?讲出你的根据。
第9题
利用HPRICE1.RAW中的数据。
(i)估计模型
并按通常的格式报告你的结果,包括回归标准误。当我们代入lotsize=10000,sqrft=2300和bdrms=4时,求出预测价格,将这个价格四舍五入到美元。
(ii)做一个回归,使你能得到第(i)部分中预测值的一个95%的置信区间。注意,由于四舍五入的误差,你的预测将多少有些不同。
(iii)令price0为具有第(i)部分和第(ii)部分所述特征的住房的未知未来售价。求出price0的一个95%的置信区间,并对这个置信区间的宽度进行评论。
第10题
利用GPA2.RAW中的数据。
(i)估计模型
其中,hsize为毕业年级的规模(以百为单位),按通常的格式写出结论。二次项是统计显著的吗?
(ii)利用第(i)部分的估计方程,高中学校的“最优”规模是什么?说明你的答案。
(iii)这个分析是所有高中高年级学生学术成绩的代表吗?请解释。
(iv)用log(sat)作为因变量,求出估计的高中最优规模。它与你在第(ii)部分得到的结论很不同吗?