搜索引擎原理技术与系统第二版.pdf
http://www.100md.com
2019年12月19日
![]() |
| 第1页 |
![]() |
| 第10页 |
![]() |
| 第13页 |
![]() |
| 第28页 |
![]() |
| 第46页 |
参见附件(3534KB,279页)。
搜索引擎原理技术与系统第二版是基于第一版打造的升级版本,里面详细的介绍了互联网搜索引擎的原理,对于从事该方面的用户来说,这本书是非常值得一读的!

搜索引擎原理技术与系统介绍
《搜索引擎——原理技术与系统(第二版)》系统介绍了互联网搜索引擎的工作原理、实现技术及系统构建方案。《搜索引擎——原理技术与系统(第二版)》分三篇共13章。上篇介绍搜索引擎的基本原理和技术,讲述一个小型简单搜索引擎实现的具体细节;中篇详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;下篇结合“中国Web信息博物馆”和“中国互联网数字资源财富库藏”的实践经验,介绍了构建大规模Web历史网页和非网页仓储系统的技术和方法,以及中文网页的自动分类与聚类、开放域问题系统的构建等。
《搜索引擎——原理技术与系统(第二版)》层次分明,由浅入深,上篇和中篇涉及内容提供了源代码地址;既有深入的理论分析,也有大量的实验数据和程序,具有学习和实用双重意义。
搜索引擎原理技术与系统部分章节
第一章 引论,上篇:Web搜索引擎基本原理和技术
第二章 Web搜索引擎工作原理和体系结构
第三章 Web信息的搜集
第四章 对搜集信息的预处理
第五章 信息查询服务
第六章 可扩展搜集子系统
第七章 网页净化与消重
第八章 高性能检索子系统
第九章 相关排序与系统质量评估
搜索引擎原理技术与系统概述
2005年4月,在华夏英才基金的支持下,本书的第一版问世。当时,互联网搜索引擎虽然在网民中已经不是一个陌生的概念,但是很少见到针对实际系统的构建,比较系统地介绍搜索引擎原理与实现技术的书。因此本书第一版的出版应该说比较及时,对不少年轻计算机技术人员起到了启蒙的作用。的确,在过去这些年里,我们多次收到读者的反馈,告知那本书对他们职业生涯的作用。最初的读者中,现在有许多都是搜索公司的骨干了。截止到2011年5月,《搜索引擎——原理、技术与系统》已经印刷了七次。一本比较专业的书,能得到那么多读者的喜欢,我们甚感欣慰。
同时我们也看到,随着互联网长盛不衰的发展,搜索的重要性日益突出;而且我们还看到一个现象,那就是相当一批有实力的互联网公司都有进入搜索领域的战略和行动,并不因为有了百度和谷歌就放弃那个市场。这种现象造成了搜索技术人才的很大缺口,尤其是有一定实际开发搜索引擎经验的人才缺口。很多高校看到这种需求,纷纷开设相关课程。许多学者看到这种需求,也纷纷写出各具特色的教材和专著。例如,郭军的《Web搜索》,董守斌和袁华的《网络信息检索》,以及刘奕群、马少平、洪涛和刘子正的《搜索引擎技术基础》。许多出版社也看到了这种需求,引进了大量相关的外版书籍。
那么,既然市场上已经有了这么多关于搜索引擎技术的书,为什么还要出版本书呢?其实这个想法我们4年前就有了,由于客观原因而耽误下来。最根本的原因是,搜索引擎技术的发展和对搜索引擎技术前沿认识的深入,使得我们感到原来书中的有些内容不再重要,而有些新的内容应该包括进去。
2003年秋,在编写本书第一版的时候,主要工作基础是“天网搜索”,它曾经是中国最好的,是我们引以为自豪的搜索引擎。围绕“天网搜索”的开发,北京大学网络实验室培养了一批优秀的学生。本书第一版的内容大都是那些同学实际工作经验的总结,因此一方面总体看的确比较实用,但另一方面某些部分也不够成熟和深入。同时,过去7年来,北京大学网络实验室在搜索引擎技术方面的研究工作也有了深入进展,尤其在搜索评测与高性能索引结构方面取得了一批前沿成果,这些都是在修订中要考虑的内容。
本书保留了第一版上篇的大部分内容,即搜索引擎的基本原理,过去这么些年并没有什么变化;删除了第一版中的第九,第十二和十三章,增加了第十,第十一和十三章,分别介绍基于搜索引擎技术开发并从2002年一直运行至今的“中国Web信息博物馆”、“中国数字财富库藏”及开放域问答系统。同时,较大幅度修订了第一版中的部分小节内容。总的来看,第二版中约45%的内容是新的,且总篇幅比第一版增加约30%。
鉴于我们在第一版中的一个特色——详细介绍了一个小型搜索引擎(TSE)并提供源代码,引起了许多读者的兴趣,纷纷和来邮件咨询,在此高兴地告诉读者:北京大学网络实验室将开放天网搜索系统的所有源代码。用该源代码构建的系统能搜集和处理上亿量级的网页,其体现的技术与本书中的几章内容相对应。
还有两个原因促使我们完成第二版的修订。一是2011年我们与百度合作承担一个国家项目“基于框计算的新一代搜索引擎与浏览器”,尽管规定的任务中没有要求,但我们认为能有这么一本书在项目完成之际面世,也是一件令人高兴的事情。二是2003年我们发起了“全国搜索引擎与网上信息挖掘学术研讨会”,首届在北京大学举办后,每年在全国各地由不同的高校轮流举办,很多人在会议组织工作中付出了巨大努力,他们是华南理工大学的董守斌、清华大学的李星、山东大学的马军、海南大学的雷景生、江西师范大学的王明文、大连理工大学的林鸿飞、西华大学的杜亚军,河北大学的袁方。今年已是第十届了,又回到北京大学来举办,本书的出版既是对本届会议的一个献礼,也是对过去10年来曾经为“全国搜索引擎与网上信息挖掘学术研讨会”做过贡献的所有朋友,以及参加会议的所有人员的感谢。
搜索引擎原理技术与系统截图

相关资料1:
- 金弦浩介绍及套管针技术介绍.doc
- 《电池储能系统调频技术》.pdf
- 《连锁零售企业供应链风险预警中的信息及控制技术》.pdf
- 脊柱肿瘤的辅助诊断和治疗技术.doc
- 《风力发电技术与工程应用》.pdf
- 《花卉采后保鲜技术》扫描版.pdf
- 仰卧拔伸手法治疗神经根型颈椎病技术.rtf
- 固定与搬运技术(上海市院前急救质控中心).ppt
- 《优质鸡健康养殖技术》.pdf
- 《新编南方种草养羊实用技术》.pdf
- 《物联网技术》第2版.pdf
- 《天文200问》张明昌.周洪楠.苗永.陕西科学技术出版社.pdf
- 《ANSYS 13.0流场分析技术及应用实例》.pdf
- 多普勒超声(TCD)的诊断技术与临床应用(上).pdf
- 外科手术学基本技术及技巧_12795964.pdf




