32、在一个n维的空间中,最好的检测离群点(OUtlier)的方法是()。
A.作正态分布概率图
B.作盒形图
C.马氏距离
D.作散点图
正确答案:C
33、在大规模的语料中,挖掘词的相关性是一个重要的
问题。以下哪一个信息不能用于确定两个词的相关性?
A.互信息
B.最大爆
C.卡方检验
D.最大似然比
正确答案:B
34、基于统计的分词方法为()。
A,正向最大匹配法
B,逆向最大匹配法
C.最少切分
D.条件随机场
正确答案:D
35、请选择下面可以应用隐马尔科夫(HMM)模型的数据集Oo
A•基因序列数据集
B.电影浏览数据集
C.股票市场数据集
D.所有以上
正确答案:D
36、以P(W)表示词条W的概率,假设已知P(南京)二0、
8,P(市长)=0、6,P(江大桥)=0、4,P(南京市)二0、
3,P(长江大桥)二O、5,在训练语料中未出现的词条概率为0。假设前后两个词的出现是独立的,那么分词结果就是
Oo
A.南京市*长江*大桥
B.南京*市长*江大桥
C.南京市长*江大桥
D.南京市*长江大桥
正确答案:B
37、在训练神经网络时,损失函数在最初的几个epoch时没有下降,可能的原因是()。
A.学习率太低
B.正则参数太高
C.陷入局部最小值
D.以上都有可能
正确答案:A