流浪的枫之羽
日历
网志分类
· 所有网志 (43)
· C++学习 (7)
· .net学习 (0)
· 计算机图形学 (4)
· GIS (4)
· Win32平台开发 (10)
· 浙大CS之梦 (4)
· P2P (2)
· 搜索引擎 (4)
· 游戏开发 (0)
· 博客生活 (7)
· 未分类 (1)
站内搜索
友情链接
· 歪酷博客
· 我的歪酷 非非共享界
· 葡萄是一种水果,很好吃哦!
· 可爱的小蓓
· 上帝保佑善良的小孩
· DOOMIII队友
· 我写的小东西

订阅 RSS

0010799

歪酷博客

搜索、游戏、IT,博客、广告、生活
« 上一篇: 我对P2P中UDP穿越NAT的理解供参考 下一篇: StandardAnalyzer和simpleAnalyzer的比较 »
枫之羽 @ 2007-10-27 23:56

搜索引擎的基础知识

最近在看 ,现在写一下搜索引擎的实现原理,可以看作四步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。
  1. 从互联网上抓取网页. 利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到服务器中。
  2. 建立索引数据库 . 由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它 网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信 息建立网页索引数据库。
  3. 在索引数据库中搜索 . 当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
  4. 对搜索结果进行处理排序 . 所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。




评论 / 个人网页 / 扔小纸条
* 昵称

已经注册过? 请登录

新用户请先注册 以便能显示头像及追踪评论回复

Email
网址
* 评论
表情
 


 

分类小组论坛
杂谈 , 娱乐、八卦 , 文学、艺术 , 体育 , 旅游、同城 , 象牙塔 , 情感 , 时尚、生活 , 星座 , 科技

请注意遵守中华人民共和国法律法规, 如威胁到本站生存, 将依法向有关部门报告, 同时本站的相关记录可能成为对您不利的证据.

相关法律法规
全国人大常委会关于维护互联网安全的决定
中华人民共和国计算机信息系统安全保护条例
中华人民共和国计算机信息网络国际联网管理暂行规定
计算机信息网络国际联网安全保护管理办法
计算机信息系统国际联网保密管理规定