西兮兮

2019-02-01 14:48 已编辑 Java

关注

百度2019秋招机器学习岗笔试题

分享一个大福利😂百度公司今年秋招的提前批试题，会有很多同学感兴趣吧

1. 下列有关串，说法正确的是（）

A. 空串与空格相等

B. 空格串的串长度为0

C. 除主串S本身外，S的其他子串称为S的真子串

D. 子串在主串的位置是子串最后一个字符在主串的位置

2. 利用折半查找算法要在有序表(17,21,34,38,47,54,70)查找元素34需经过（）次比较

A. 2

B. 3

C. 5

D. 4

3. 已知序列(50,30,80,20,40,90,35,85,32,88)，按照依次插入的方法生成二叉排序树，则在该树中删除关键字值为50的节点后，其二叉排序树的根节点的值可能为()

A. 30

B. 40

C. 90

D. 80

4. 下面的程序执行结果是（）

#include<stdio.h>

Int func(int i)

{

If (i>1)

Return i*func(i-1)

Else

Return 1

}

Int main()

{

Printf(“%d\n”,func(6))

Return 0

}

5. 序列[9,14,11,16,21,15,20,31]为小顶堆，在删除堆顶元素9之后，调整后的结果是（）

A. [14,11,16,21,15,20,31]

B. [11,14,16,21,15,20,31]

C. [11,14,15,16,21,31,20]

D. [11,14,15,16,20,21,31]

6. 对任意数列进行排序时，平均排序时间最短的排序算法是()

A. 插入排序

B. 归并排序

C. 快速排序

D. 堆排序

7. 下列说法错误的是（）

A. 聚类分析可以看作是一种非监督的分类

B. 在聚类分析中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差

C. 给定由两次运行K均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优

D. K均值是一种产生划分聚类的基于密度的聚类算法，簇的个数有算法自动的确定

8. 有一家医院为了研究癌症的诊断，对一大批人作了一次普查，给每人打了试验针，然后进行统计，得到如下统计数字：

(一) 这批人中，每1000人有5个癌症病人

(二) 这批人中，每100个正常人有1人对试验的反应为阳性

(三) 这批人中，每100个癌症病人有95人对试验的反应为阳性

通过普查统计，该医院可开展癌症诊断。

现在某人试验结果为阳性，根据最小风险贝叶斯决策理论，将此患者预测为患癌症的风险概率为（）

假设将正常人预测为正常人和将癌症患者预测为癌症患者的损失函数均为0，将癌症患者预测为正常人的损失函数为3，将正常人预测为癌症患者的损失函数为1.

A. 75.50%

B. 96.9%

C. 67.7%

D. 32.3%

9. 关于数组，以下说法正确的是()

A. 数组也是一种线性表

B. 部分数组时线性表

C. 数组不是线性表

D. 只有一维数组时线性表

10. TCP协议规定DNS进程的（）端口号是53

A. 服务器

B. 主机

C. 客户

D. 分布

11. 给定文法G[E]:E->E+E|E*E|id(id表示任意小写字母)，下列表达式合法的是（）

A. a+b*c

B. a-(b+c)

C. a*(b+c)

D. a-b-c

12. 在分时系统中，时间片设置等于3，以下关于相应时间的分析，正确的是（）

A. 用户数量越多响应时间越长

B. 进程数量越多响应时间越长

C. 时间片越小响应时间越长

D. 内存空间越大响应时间越长

13. Bool bcreateOK=::CreateProcess

(

SzFilename,

SzCmdLine,

1 null

2 null

False

Create_new_console,

3 null

4 null

&si,&pi

);

以上创建进程的代码中四次出现null，作用分析正确的是（）

A. 缺省的进程安全性，缺省的线程安全性，当前目录，新的环境

B. 缺省的进程安全性，缺省的线程安全性，新的环境，当前目录

C. 缺省的线程安全性，缺省的进程安全性，当前目录，新的环境

D. 缺省的线程安全性，缺省的进程安全性，新的环境，当前目录

14. 信息检索系统的评价指标有哪些（）

A. 响应时间

B. 精确度

C. 空间消耗

D. 召回率

15. 设一个栈的输入序列为1，2，3，4，5，6，则借助一个栈得到的输出序列不可能是（）

A. 3，1，5，4，2，6

B. 2，4，3，1，6，5

C. 1，2，3，4，5，6

D. 2，3，1，5，6，4

16. 下列关于现有的分词算法说法错误的是（）

A. 中文分词的准确度，对搜索引擎结果相关性和准确性有相当大的关系

B. 由于在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词，统计词料中频度可以判断是否构成一个词

C. 统计分词系统将串频统计和串匹配结合起来，既发挥匹配分词切分速度快，效率高的特点，又利用了无词典分词结合上下文识别生词，自动消除歧义的优点

D. 基于统计的分词方法是总控部分的协调下，分词子系统获得有关词，句子等的句法和语义信息来对分词歧义进行判断

17. 假设测试样本x,若最近邻样本为s,y是类别集合，则KNN分类出错的概率为()

A. 0.5

B. 1.   下列有关串，说法正确的是（）
A.   空串与空格相等
B.   空格串的串长度为0
C.   除主串S本身外，S的其他子串称为S的真子串
D.   子串在主串的位置是子串最后一个字符在主串的位置

2.   利用折半查找算法要在有序表(17,21,34,38,47,54,70)查找元素34需经过（）次比较
A.   2
B.   3
C.   5
D.   4

3.   已知序列(50,30,80,20,40,90,35,85,32,88)，按照依次插入的方法生成二叉排序树，则在该树中删除关键字值为50的节点后，其二叉排序树的根节点的值可能为()
A.   30
B.   40
C.   90
D.   80

4.   下面的程序执行结果是（）
#include<stdio.h>

Int func(int i)
{
If (i>1)
Return i*func(i-1)
Else
Return 1
}

Int main()
{
Printf(“%d\n”,func(6))
Return 0
}

5.   序列[9,14,11,16,21,15,20,31]为小顶堆，在删除堆顶元素9之后，调整后的结果是（）
A.   [14,11,16,21,15,20,31]
B.   [11,14,16,21,15,20,31]
C.   [11,14,15,16,21,31,20]
D.   [11,14,15,16,20,21,31]

6.   对任意数列进行排序时，平均排序时间最短的排序算法是()
A.   插入排序
B.   归并排序
C.   快速排序
D.   堆排序

7.   下列说法错误的是（）
A.   聚类分析可以看作是一种非监督的分类
B.   在聚类分析中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差
C.   给定由两次运行K均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优
D.   K均值是一种产生划分聚类的基于密度的聚类算法，簇的个数有算法自动的确定

8.   有一家医院为了研究癌症的诊断，对一大批人作了一次普查，给每人打了试验针，然后进行统计，得到如下统计数字：
(一)   这批人中，每1000人有5个癌症病人
(二)   这批人中，每100个正常人有1人对试验的反应为阳性
(三)   这批人中，每100个癌症病人有95人对试验的反应为阳性
通过普查统计，该医院可开展癌症诊断。
现在某人试验结果为阳性，根据最小风险贝叶斯决策理论，将此患者预测为患癌症的风险概率为（）
假设将正常人预测为正常人和将癌症患者预测为癌症患者的损失函数均为0，将癌症患者预测为正常人的损失函数为3，将正常人预测为癌症患者的损失函数为1.
A.   75.50%
B.   96.9%
C.   67.7%
D.   32.3%

9.   关于数组，以下说法正确的是()
A.   数组也是一种线性表
B.   部分数组时线性表
C.   数组不是线性表
D.   只有一维数组时线性表

10.   TCP协议规定DNS进程的（）端口号是53
A.   服务器
B.   主机
C.   客户
D.   分布

11.   给定文法G[E]:E->E+E|E*E|id(id表示任意小写字母)，下列表达式合法的是（）
A.   a+b*c
B.   a-(b+c)
C.   a*(b+c)
D.   a-b-c

12.   在分时系统中，时间片设置等于3，以下关于相应时间的分析，正确的是（）
A.   用户数量越多响应时间越长
B.   进程数量越多响应时间越长
C.   时间片越小响应时间越长
D.   内存空间越大响应时间越长

13.   Bool bcreateOK=::CreateProcess
(
SzFilename,
SzCmdLine,
1 null
2 null
False
Create_new_console,
3 null
4 null
&si,&pi
);
以上创建进程的代码中四次出现null，作用分析正确的是（）
A.   缺省的进程安全性，缺省的线程安全性，当前目录，新的环境
B.   缺省的进程安全性，缺省的线程安全性，新的环境，当前目录
C.   缺省的线程安全性，缺省的进程安全性，当前目录，新的环境
D.   缺省的线程安全性，缺省的进程安全性，新的环境，当前目录

14.   信息检索系统的评价指标有哪些（）
A.   响应时间
B.   精确度
C.   空间消耗
D.   召回率

15.   设一个栈的输入序列为1，2，3，4，5，6，则借助一个栈得到的输出序列不可能是（）
A.   3，1，5，4，2，6
B.   2，4，3，1，6，5
C.   1，2，3，4，5，6
D.   2，3，1，5，6，4

16.   下列关于现有的分词算法说法错误的是（）
A.   中文分词的准确度，对搜索引擎结果相关性和准确性有相当大的关系
B.   由于在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词，统计词料中频度可以判断是否构成一个词
C.   统计分词系统将串频统计和串匹配结合起来，既发挥匹配分词切分速度快，效率高的特点，又利用了无词典分词结合上下文识别生词，自动消除歧义的优点
D.   基于统计的分词方法是总控部分的协调下，分词子系统获得有关词，句子等的句法和语义信息来对分词歧义进行判断

17.   假设测试样本x,若最近邻样本为s,y是类别集合，则KNN分类出错的概率为()
A.   0.5
B.
C.
D.

18.   下列关于数据降维方法正确的是()
A.   核化主成分分析为先将样本映射到高维空间，再在高维空间中使用线性降维
B.   PCA采用一组新的基来表示样本点，每个基向量都是原来基向量的线性组合，通过使用尽可能少的新基向量来表出样本，从而实现降维
C.   流行学习是一种借助拓扑流形概念的降维方法，采用的思想是“邻域保持”
D.   MDS要求原始样本空间样本之间的距离在降维后的低维空间得以保持

19.   下列程序的运行结果是1 0，请将横线处缺失的程序补充完整()
class tests{
public:
test(){x=1;}
void print(){cout<<” ”<<y<<endl;}
private:
int x;
static int y;
};
Int ____ y=0
Int main(){
Test t;
t.print();
return 0;
}
A.   Test
B.   Static
C.   Test::
D.   Const

20.   下列程序的功能是（）
#include<iostream>
Using namespace std;
Int main()
{
Int n,r;
Cin>>n;
Do
{
R=n%10;
Cout<<r;
n/=10;
}while(n!=0);
}

A.   先输出n的个位数，再输出n除以10后的值
B.   循环输出整数n除以10后的值直到n为0停止
C.   循环输出整数n的个位数直到0停止
D.   将整数n反转输出，如输入123，输出321

21.   下列程序的功能是取出浮点数的整数部分，请将横线处缺失程序补充完整（）
#include <iostream>
Using namespace std;
Void s(float x,int ____ )
{
I = int(x);
}
Int main()
{
Int n;float x;
Cin>>x;
S(x,n);
Cout<<n<<endl;
}
A.   *i
B.   \i
C.   &i
D.   I

22.   有如下类定义和变量定义，
Class P{
Public:
Int a1;
Private:
Int a2;
};
Class A :public P{/*类体略*/}；
Class B :public P{/*类体略*/}；
A a ;B b
下列语句中正确的是（）
A.   Cout<<a.a1<<endl;
B.   Cout<<a.a2<<endl;
C.   Cout<<b.a2<<endl;
D.   Cout<<b.a1<<endl;

23.   如当前样本集合D中的K类样本所占的比例为P(k)(k=1,2,3,…,y)，则样本的信息熵最大值是（）
A.   0.5
B.   Log2(p(y))
C.   Log2(y)
D.   1

24.   某数据存放在DS=2000H和DI=1234H的数据段的存储单元中，则该存储单元的物理地址是（）
A.   3234H
B.   14340H
C.   21234H
D.   其他几项都不对

25.   下列属于常用的风箱方法的是（）
A.   统一区间法
B.   平均值法
C.   统一权重法
D.   自定义区间法

26.   在Linux系统中查看正在通过ssh登陆的用户和终端（）
A.   Who | awk ‘{print $1 ,$3}’
B.   Login | awk ‘{print $1,$3}’
C.   Who | awk ‘{print $0 ,$2}’
D.   Ssh | awk ‘{print $1,$3}’

27.   下列关于语言模型的说法错误的是（）
A.   基于语料库的统计分析需要从大规模的真实语言中发现知识
B.   基于知识的语言模型是经验***方法
C.   基于语料库的统计模型更加注重数学的方法
D.   基于知识的语言模型通过非歧义的规则解释歧义过程

28.   以下代码实现循环队列的出队功能，则下划线处的代码是（）
Int deleteQueue(seqqueue *Q .QueueElementType *x)
{
If(Q->rear==Q->front && Q->tag==0)
Return (FALSE)
*x=Q->element[Q->rear]
______________________;/*重新设置队尾指针*/
If(_____________)Q->tag=0;
Return (TRUE)/*操作成功*/
}
A.
B.
C.
D.

29.   有如下代码：
K=10
I=0
While k>1:
Print(k)
I=i+1
K=k/2
Print(i)
则i最后输出为（）
A.   5
B.   4
C.   6
D.   3

30.   过拟合是机器学习/深度学习模型调参过程中的常见问题，请回答以下两个问题：
A.   请解释什么是过拟合？过拟合的表现
B.   如何解决过拟合问题

31.   如果你是一个新闻APP策略工程师，有一批当前热点的事件集合（比如疫苗造假），希望用户在搜索事件相关query的时候，可以通过泛化机制，将query映射到对应的事件上，给出该事件的完整报道。你能获取到所有用户的历史数据，（比如搜索query，点击新闻的标题），以及事件的核心描述query。请回答以下问题：
A.   判断用户query和事件核心query之间的相似程度，需要构建多个维度的特征，请列出你能想到的特征，并给出特征值的具体计算方法
B.   预期使用A中的特征训练一个相似度模型。请给出预期选取的机器学习模型及选取的理由，并给出如何得到最终模型的具体步骤
C.   请设计一套用于召回相关事件核心query的系统，并给出各模块功能。

32.   有多少长度为N+1的整数序列A0到AN，满足A0=AN=1，1<=Ai<=M且Ai不等于Aj-1(1<=i<=N)
输入：
输入两个空格隔开的整数M和N，1<=N,M<=10^9
输出：
输出满足给定条件的整数序列个数对10^9+7取模后的结果

33.   小莫在山上的小径里采蘑菇，这条路径有n个可能会生长出蘑菇的点，小莫依次经过1,2,3,4,…,n走到n后就直接回家了，在第i个点有p[i]的概率会出现a[i]大小的蘑菇，但是小莫最多只能携带一个蘑菇，所以当他遇到更大的蘑菇的时候，他就会丢弃已经有的蘑菇，替换成新的更大的蘑菇，求小莫的期望替换次数。
输入：
第一行一个整数n，（1<=n<=1000）
接下来n行，每行两个数p[i]*100,a[i]，（1<=p[i]<=100,1<=a[i]<=10^9）
输出：
一个非负整数，若最终答案为p/q，则输出p*q^(-1)%998244353

样例输入：
3
100 5
80 3
90 10
样例输出：
698771049
Hint:
输入样例2
3
50 3
50 6
50 1

样例输出2
873463810

样例解释：
对于样例一，显然第一个点（100%）必然会替换成5，第二个点必然不会替换，第三个点有90%的概率会出现10，所以90%的概率替换（共替换两次），10%的概率不替换，（共替换一次），2*0.9+1*0.1=1.9=19/10，19*10^（-1）%998244353=698771049

18. 下列关于数据降维方法正确的是()

A. 核化主成分分析为先将样本映射到高维空间，再在高维空间中使用线性降维

B. PCA采用一组新的基来表示样本点，每个基向量都是原来基向量的线性组合，通过使用尽可能少的新基向量来表出样本，从而实现降维

C. 流行学习是一种借助拓扑流形概念的降维方法，采用的思想是“邻域保持”

D. MDS要求原始样本空间样本之间的距离在降维后的低维空间得以保持

19. 下列程序的运行结果是1 0，请将横线处缺失的程序补充完整()

class tests{

public:

test(){x=1;}

void print(){cout<<” ”<<y<<endl;}

private:

int x;

static int y;

};

Int ____ y=0

Int main(){

Test t;

t.print();

return 0;

}

A. Test

B. Static

C. Test::

D. Const

20. 下列程序的功能是（）

#include<iostream>

Using namespace std;

Int main()

{

Int n,r;

Cin>>n;

{

R=n%10;

Cout<<r;

n/=10;

}while(n!=0);

}

A. 先输出n的个位数，再输出n除以10后的值

B. 循环输出整数n除以10后的值直到n为0停止

C. 循环输出整数n的个位数直到0停止

D. 将整数n反转输出，如输入123，输出321

21. 下列程序的功能是取出浮点数的整数部分，请将横线处缺失程序补充完整（）

#include <iostream>

Using namespace std;

Void s(float x,int ____ )

{

I = int(x);

}

Int main()

{

Int n;float x;

Cin>>x;

S(x,n);

Cout<<n<<endl;

}

A. *i

B. \i

C. &i

D. I

22. 有如下类定义和变量定义，

Class P{

Public:

Int a1;

Private:

Int a2;

};

Class A :public P{/*类体略*/}；

Class B :public P{/*类体略*/}；

A a ;B b

下列语句中正确的是（）

A. Cout<<a.a1<<endl;

B. Cout<<a.a2<<endl;

C. Cout<<b.a2<<endl;

D. Cout<<b.a1<<endl;

23. 如当前样本集合D中的K类样本所占的比例为P(k)(k=1,2,3,…,y)，则样本的信息熵最大值是（）

A. 0.5

B. Log2(p(y))

C. Log2(y)

D. 1

24. 某数据存放在DS=2000H和DI=1234H的数据段的存储单元中，则该存储单元的物理地址是（）

A. 3234H

B. 14340H

C. 21234H

D. 其他几项都不对

25. 下列属于常用的风箱方法的是（）

A. 统一区间法

B. 平均值法

C. 统一权重法

D. 自定义区间法

26. 在Linux系统中查看正在通过ssh登陆的用户和终端（）

A. Who | awk ‘{print $1 ,$3}’

B. Login | awk ‘{print $1,$3}’

C. Who | awk ‘{print $0 ,$2}’

D. Ssh | awk ‘{print $1,$3}’

27. 下列关于语言模型的说法错误的是（）

A. 基于语料库的统计分析需要从大规模的真实语言中发现知识

B. 基于知识的语言模型是经验***方法

C. 基于语料库的统计模型更加注重数学的方法

D. 基于知识的语言模型通过非歧义的规则解释歧义过程

28. 以下代码实现循环队列的出队功能，则下划线处的代码是（）

Int deleteQueue(seqqueue *Q .QueueElementType *x)

{

If(Q->rear==Q->front && Q->tag==0)

Return (FALSE)

*x=Q->element[Q->rear]

______________________;/*重新设置队尾指针*/

If(_____________)Q->tag=0;

Return (TRUE)/*操作成功*/

}

29. 有如下代码：

K=10

I=0

While k>1:

Print(k)

I=i+1

K=k/2

Print(i)

则i最后输出为（）

A. 5

B. 4

C. 6

D. 3

30. 过拟合是机器学习/深度学习模型调参过程中的常见问题，请回答以下两个问题：

A. 请解释什么是过拟合？过拟合的表现

B. 如何解决过拟合问题

31. 如果你是一个新闻APP策略工程师，有一批当前热点的事件集合（比如疫苗造假），希望用户在搜索事件相关query的时候，可以通过泛化机制，将query映射到对应的事件上，给出该事件的完整报道。你能获取到所有用户的历史数据，（比如搜索query，点击新闻的标题），以及事件的核心描述query。请回答以下问题：

A. 判断用户query和事件核心query之间的相似程度，需要构建多个维度的特征，请列出你能想到的特征，并给出特征值的具体计算方法

B. 预期使用A中的特征训练一个相似度模型。请给出预期选取的机器学习模型及选取的理由，并给出如何得到最终模型的具体步骤

C. 请设计一套用于召回相关事件核心query的系统，并给出各模块功能。

32. 有多少长度为N+1的整数序列A0到AN，满足A0=AN=1，1<=Ai<=M且Ai不等于Aj-1(1<=i<=N)

输入：

输入两个空格隔开的整数M和N，1<=N,M<=10^9

输出：

输出满足给定条件的整数序列个数对10^9+7取模后的结果

33. 小莫在山上的小径里采蘑菇，这条路径有n个可能会生长出蘑菇的点，小莫依次经过1,2,3,4,…,n走到n后就直接回家了，在第i个点有p[i]的概率会出现a[i]大小的蘑菇，但是小莫最多只能携带一个蘑菇，所以当他遇到更大的蘑菇的时候，他就会丢弃已经有的蘑菇，替换成新的更大的蘑菇，求小莫的期望替换次数。

输入：

第一行一个整数n，（1<=n<=1000）

接下来n行，每行两个数p[i]*100,a[i]，（1<=p[i]<=100,1<=a[i]<=10^9）

输出：

一个非负整数，若最终答案为p/q，则输出p*q^(-1)%998244353

样例输入：

100 5

80 3

90 10

样例输出：

698771049

Hint: