首页 > 试题广场 >

执行下列任务。 对一个ASC文件,计算每个词的频率并生成一个

[问答题]
执行下列任务。
对一个ASC文件,计算每个词的频率并生成一个与27.3类似的图(可以使用任何通用绘图软件)。在你当前目录中的文件集合上运行该程序,并看一看词频的分布是否是Zipfian的。你应该如何利用这些图来生成停止词的列表?Porter词干器被广泛使用,并且其实现代码是免费的。下载一个副本,并在你的文档集合上运行它。对于向量空间模型以及用它来检查相似度的方法的批判观点之一就是该方法将词的出现看作是彼此独立的。在实际中,很多词往往是同时出现的(例如,救护车和紧急情况)。写一个程序来扫描一个ASCI文件,列出所有彼此距离不超过5个词的词对。对于每一对词,现在你可以获得一个词对频率,这样就可以生成一个与27.3类似的图,不过其中的x轴与词对相对应。在一些样例文档集合上运行这个程序,看看结果对于词的同时出现有什么启示?

这道题你会答吗?花几分钟告诉大家答案吧!