关注
我们生活中的数据总体分为两种:结构化数据和非结构化数据。
结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。
非结构化数据:指不定长或无固定格式的数据,如 互联网数据、邮件,word文档等。
对非结构化数据顺序扫描很慢,对结构化数据的搜索却相对较快,那么把我们的非结构化数据想办法弄得有一定结构不就行了吗?这就是全文检索的基本思路,也就是将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引 。
非结构化数据又一种叫法叫全文数据。
按照数据的分类,搜索也分为两种:
1. 对结构化数据的搜索: 如对数据库的搜索,用SQL语句。再如对元数据的搜索,如利用windows搜索对文件名,类型,修改时间进行搜索等。
2. 对非结构化数据的搜索: 如用Google和百度可以搜索大量内容数据。
对非结构化数据也即全文数据的搜索主要有两种方法:顺序扫描法和反向索引法。
1. 顺序扫描法:所谓顺序扫描法,就是顺序扫描每个文档内容,看看是否有要搜索的关键字,实现查找文档的功能,也就是根据文档找词。
2. 反向索引法:所谓反向索引,就是提前将搜索的关键字建成索引,然后再根据索引查找文档,也就是根据词找文档。
这种先建立索引,再对索引进行搜索文档的过程就叫全文检索(Full-text Search) 。
全文检索的流程分为两大流程:索引创建、搜索索引
索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。
查看原帖
2 评论
相关推荐
点赞 评论 收藏
分享
10-29 15:51
嘉应学院 Java 点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 找实习是选平台还是选业务? #
1965次浏览 20人参与
# 记录实习开销 #
165981次浏览 641人参与
# 百度秋招 #
53704次浏览 391人参与
# OC/开奖 #
209060次浏览 1383人参与
# 科大讯飞工作体验 #
29984次浏览 73人参与
# 秋招疯了,看什么都像offer #
19157次浏览 130人参与
# 腾讯音乐秋招 #
432776次浏览 4790人参与
# 应届生第一份工作最好去大厂吗? #
87340次浏览 885人参与
# 材料转码还有必要吗? #
32886次浏览 153人参与
# 华为工作体验 #
244167次浏览 1304人参与
# 实习学到最有价值的工作习惯 #
42176次浏览 368人参与
# 办公室恋情是职场大忌吗 #
11060次浏览 21人参与
# 设计人的面试记录 #
167810次浏览 1546人参与
# 华为池子有多大 #
125257次浏览 811人参与
# 你知道哪些职场黑话? #
65599次浏览 454人参与
# 电信求职进展汇总 #
29426次浏览 159人参与
# 招银网络科技工作体验 #
26199次浏览 95人参与
# 实习生应该准时下班吗 #
318422次浏览 1718人参与
# 研究所VS国企,该如何选 #
226787次浏览 1944人参与
# CVTE求职进展汇总 #
27149次浏览 327人参与
# 移动求职进展汇总 #
14465次浏览 119人参与
# 蚂蚁求职进展汇总 #
134267次浏览 1214人参与
SHEIN希音公司福利 244人发布