[精] 百度与GOOGLE的比较与介析2008-03-15 23:02:52 楼主
[精] 百度与GOOGLE的比较与介析
2008-03-14 22:41:35
百度与GOOGLE的比较与介析
摘要:
本文通过对两大中文搜索引李的比较和笔者一些认识,指出了两者的优劣,强大的功能和独到的特.点,提供了选择搜索引擎中性能评价的一些参考思路.
关键词:百度;GOOGLE;搜索引擎
随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息.网上的信息量的指数级增长,形式的多样性及其分布式特性,给人们在网上寻找信息带来了很大困难.为了解决这个问题,搜索引擎随之诞生.搜索引擎能让你发现从未去过的网站,并找到更多信息.随着时间的推移,许多读者发现搜索己经成为网络生活的一部分.在全球范围内少说也有几千个搜索引擎站点,尽管在使用上有许多相通之处,但每个搜索引擎的性能都有所不同.我们按其工作方式主要可分:目录索引类搜索引擎(Search Index/Directory),全文搜索引擎(Full Text Search Engine),元搜索引擎(META Search Engine),基于客户(Client一based)搜索的搜索引擎, 分布式(Distributed)搜索引擎,居于P2P的检索等等.由于纯粹的全文式和目录式的搜索引擎都存在各自的不足,人们自然想到把上述两种搜索引擎的优点结合起来,扬长避短.而百度与GOOGLE正是居于这种背景发展起来的很有实用价值搜索引擎.Google号称全球第一搜索,百度则号称中文第一搜索(美国权威机构Alexa2004年6月的全球网站排名结果显示,百度稳步进入全球站排行榜TOP10,排名第7位,成为最有影响力的中文站点之一). 目前国内80%以上的引擎都采纳百度或GOOGLE技术所以有必要对它们进行较全面的比较.
1、对各项指标的比较
根据曾民族在《网络信息检索现状和性能评价》中综合国内外搜索引擎评价研究成果的基础上提出的几个评价指标,笔者分别对两者做如下比较.
1.1数据库构成,规模和内容
1.1.1共同点.
①两者都有部分日更新.
②标示丰富的网页属性(网页标题,网页摘要,网址,网页大小).
1.1.2 GOOGLE特有.
①多为月更新.
②网页42.8亿,图片3.9亿张,新闻组文章7亿篇.有1.5 万台服务器,200多条T3级宽带.
③搜索范围涵盖了世界各地的网页.
④索引功能通过索引库和排序器来实现.
1.1.3百度特有.
①平均周更新.
②中文网页超过3亿,flash约5万个。
③拥有目前世界上最大的中文信息库,并且还在以每天几十万页的速度快速增长.
④搜索范围涵盖了中国内地,港澳台,新加坡等华语地区及北美,欧洲部分网站.
0在中国各地和美国均设有服务器.
⑥还标示网页生成日期,网页语言.
1.2索引方法
1.2.1共同点.
由四部分:蜘蛛程序,监控程序,索引数据库,检索程序组成自动索引.即用所谓的"蜘蛛"自动收集网页的数据收集系统,"蜘蛛"将收集所得的网页内容交给索引和检索系统,索引和检索系统通过扫描每一个网页中的每一个词,建立以词为单位的倒排文档,再根据关键词在每一个网页中出现的频率对包含这些关键词的网页进行排序,最后输出排序结果.
1.2.2 GOOGLE特有.
专利网页级别技术Pag- eRank能够提供高命中率的搜索结果.
1.2.3百度特有.
百度自主开发了功能强大的智能性网络蜘蛛系统:"东方之蛛",采用高可定制,高扩展性的调度算法使得搜索器可在极短的时间内收集到最大数量的中文因特网信息.应用内容相关度评价技术,并且运用了中文智能语言的处理方法,依靠字与词的不同切割方法,弥补了单纯依靠字或词的引擎技术的缺陷,并且能够在不同的编码之间转换,这就使得简体字和繁体字的检索结果自然结合, 智能化的中文语言处理技术大大提高了搜索的准确性与查全率.
1.3检索效果
1.3.1共同点.
①两者均有程度不同的检索噪声.
②都能较好地解决自动去重,由于都引入网页快照(cache,百度快照)从服务器里直接取出缓存的网页,巧妙地解决了搜索用户经常遇到的死链接问题.
1.3.2 GOOGLE特有. 查全率明显高于百度.
1.3.3百度特有.
①高效的搜索算法和本地服务器保证最快的响应速度,响应时间短,一个检索的平均响应时间小于0.5s.
②在中文检索中检准率较高.
1.4检索结果显示
1.4.1共同点.
①按相关性排序.
②网页标题,网页摘要,网页类别,网址,网页大小,快照,搜索用时间,命中记录数量,以醒目的颜色显示检索词,搜索框,搜索按钮,使用偏好(个人设置),搜索结果统计信息,常用链接,注释或摘要.
③摘录查询网页的含有关键字的内容,而不仅仅是网站简介.
1.4.2 GOOGLE特有.
①采用相关度和收费排序网页级别技术,检索式.
②限定或改变显示数量.
③高级搜索,搜索字段,标题下文本,类似网页.
④英文:搜索结果翻译;
⑤新闻组(USENET)搜索.
⑥设立了成人内容过滤功能.
2.4.3百度特有.
①采用超链分析技术,内容相关度评价及竞价排名排序.
②标记网页生成时间,网页语言.
③提供将百度设为首页,与百度对话,在结果中查询,检索扩展,发表/查看相关留言,该网站内的更多结果,全部搜索结果,翻页等链接和操作.
④保持新闻搜索,网页搜索,贴吧,MP3搜索,图片搜索等分类检索,百度已经自动为用户作类聚.
⑤相关搜索.百度搜索引擎会为您提供"其他用户搜索过的相关关键词"作参考.用户点击其中一个相关搜索词,都能得到那个相关搜索词的搜索结果.
⑥错别字纠正提示.提示您输入关键词的同音词,错别字纠正等.即使用户只输入关键词的拼音搜索,也能提示出最符合的中文关键词.
1.5用户界面
1.5.1共同点.
①搜索框,搜索按钮,常用的导航元素.
②提供高级搜索,帮助说明,检索功能说明链接.
1.5.2 GOGGLE特有.
①在英文界面可选择过滤不良信息.
②提供手气不错按钮,使用偏好,语言工具等按钮.
③提供四大功能模块:所有网站,图像,网上论坛,网页目录.
④提供搜索所有网站,搜索所有中文网页,搜索简体中文网页等选项.
⑤利用cookie来存储页面设定.
(6)可设置检索界面语言,查询信息的语言,每页最多显示记录条数.
1.5.3百度特有.
①还提供新闻,网页,帖吧, MP3,图片,网站等分类目录.
②并有English,网站推广,网站登录,搜索风云榜,搜索工具,百度大全等相关链接.
1.6检索功能
1.6.1共同点.
①默认以关键词精确匹配方式搜索;以关键词搜索时,返回结果中包含全部及部分关键词.
②支持"与"(只需在两个关键词之间加空格即可),"或","非"布尔命令.."site: ","link: ".返回所有链接到某个URL地址的网页等特殊搜索命令.
④字母无大小写之分,默认全部为小写.
⑤图片文档等一些其他多媒体搜索.
⑥忽略字符;用双引号实现精确查询.
⑦用户输入标准编码的繁体中文或简体中文,都可以同时搜到繁体中文和简体中文网页;并且,搜索结果中的繁体网页摘要信息会自动转成简体中文,方便用户阅读.
⑧支持中英文混合查询.
⑨可以在某一级子类的查询中输入关键词.
1.6.2 GOOGLE特有.
Google支持多达132种语言,包括简体中文和繁体中文.允许以多种语言进行搜索.
②检索符"空格","OR',,"一".
③字段检索.nurl语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中.Allinurl语法返回的网页的链接中包含所有查询关键字,这个查询的对象只集中于网页的链接字符串.
标题搜索.Allintitle和intitle的用法类似于上面的allinurl和inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询.Site是一个很实用的语法用google的site语法把GOOGLE请来专为你的站点搜索引攀,比一些网站上都有一个自己的小的
搜索引擎还好用(例如:http://lib. jmu. edu. cn/navi- gator/sports/ index. asp就是笔者用googler的site来
做的).
④限制检索." daterange : "(限定搜索的时间范围)."filetype: "(限定搜索的文档类别)."fi- letype:"是Google开发的非常强大实用的一个搜索语法.具有独到的图片搜索功能,能对某些二进制文档进行检索.目前,Google已经能检索微软的Office文档如.xls, . ppt, . doc, . rtf, WordPerfect文档,Lotusl一2一3文档,Adobe的.pdf文档,Shock- Wave的.swf文档等.其中最实用的文档搜索是 PDF搜索.收录有几千万PDA文档.PDF是 ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准.
⑤扩检功能.用"re- late"或点击在结果上的相似网页可获得更多的检索结果.
⑥特殊检索.智能化的"手气不错"功能,提供可能最符合要求的网站."info:"用来显示与某链接相关的一系列搜索.快速连接到诸如天气, 邮政编码和区号,股票报价,移动电话号码(11 phone-book:")等信息以及英汉/汉英词典功能.不支持单词多形态,断词查询和中文单词衍生形态查询.很多文章认为不能支持通配符.其实笔者发现可以在双引号内部份支持通配符,Google对通配符支持有限.它目前只可以用","来替代单个字符,而且包含","必须用引号.如用","来替代单个字符,比如输入"唐,诃德"和"唐,.诃德"得到的结果是不同的.有强大的新闻组搜索功能(http://groups. Google. com/ ),新闻搜索( http://news. google.com/ ),分类告搜索(" http://catalogs. google.com/" ),术语查询,语音查询,键盘查询等等.
(7)默认带连线的字词为词组;对忽略的关键字加上明文的"+"号进行强制搜索.
1.6.3百度特有.
①语言.提供中文(简/繁体)网页搜索服务;支持主流的中文编码标准,包括GBK(汉字内码扩展规范), GB2312(简体),BIG5(繁体), 并且能够在不同的编码之间转换.
⑧检索符."空格","}","一".
③字段检索.在"inurl"后加URL中的文字,可以限制只搜索URL中含有这些文字的网页.在一个或几个关键词前加"intitle : ",可以限制只搜索网页标题中含有这些关键词的网页.
④ 特殊检索.限定要搜索的网页的地区.限定要搜索的网页的时间.个性设置.此外还提供关键词分类搜索,即将常用关键词进行组合分类,直接用目录分类新闻,网页,帖吧,MP3,图片,网站等来限制检索, 并可以在某一级子类的查询中输入关键词,方便用 户直接查找有关资料.
⑤扩检功能.点击在结果上的相关链接可获得更多的检索结果.
⑥特殊检索.支持动态网页.因为大多数负责搜索网页的蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来.然而,网站使用的动态网页生成工具乃是大势所趋,ASP, PHP, JSP等编程工具日益流行,解决动态网页查找的问题已经是人心所向.百度这一方面又在国际互联网界首开先河,成功解决了动态网页的收集和索引问题,用搜索引攀来查找动态生成的网页已经不是神话.股票搜索功能等具有国内A股股票实时查询功能,同时支持语法 "stock: ".词典搜索功能.提供中英文词典互译. 只要用户输入的关键词有相关中英文解释,在搜索结果中搜索框上即会显示词典的链接,点击即可找到您要查的词的英文(或中文)翻译.计算器功能.输入需要计算的数学表达式点击搜索,即可获得计算结果.支持查询连线关键词.检索古汉语(诗词)类资料有独到之处.
2总结
2.1
通过以止比较,我们感觉到无论是Google还是百度,搜索速度都昨常迅速,百度只是稍稍领先数据库规模,涵盖范围,在返回结果的数量上, google要强于百度(google不愧是全球信息量最大的搜索引擎).在结果的相关性和准确度方面,两大搜索引擎可说是不分上下.google类似网页的链接,但百度在搜索时给出了一些与用户的关键词相关的检索条件,可以说是对用户更加体贴.古汉语(诗词)类资料搜索这方面百度有独到之处.在中英文混合的搜索中,双方表现都不错;在结果的组织方面,双方都有网页快照,网页的摘要,关键词标志明显,文件大小等信息都相当详细,而百度还包括该网页更新时间的信息.在逻辑检索方面,百度比google支持得更好.在检索深度上,google表现确有其过人之处(例如,笔者于2004年6月9日发布的http://lib. jmu. edcn/navigator/sports/index. asp体育信息导航.7月初来自crawlerll. googlebot.com的爬虫抓取了我站内容,并在GOOGLE能直接搜索到.而百度到目前为止还只能搜索在图书馆主页上的体育信息导航超链接.).Google最有价值与最出名的还是自然搜索结果.如果您在某一领域做学间,Google侦察兵会成为您的助手,帮您快速找到大量资料.但是,GOGGLE一个最大的不足是没有国际出口的国内用户无法登录.其次,在Google上可以搜索到许多国内禁止,限制传播的内容,如黄色,迷信,暴力等,这使它很难通过内容审查.
2.2
从综合实力来看,两大搜索引擎可说是旗鼓相A, google的优势在于信息圣大,资源丰富百度的优势在于对中文的理解较好,更贴近中文用户的搜索习惯.而且系统每个部分均采用N+1的冗余设计.当在某个工作模块发生异常时,冗余模块可立即启动大大提高效率.
2.3
以目前的市场来看,使用百度搜索引李技术的中文网站要多一些百度毕竟占有语言和本土化优势,Google作为一家国际性大公司,如果它致力于开发中文市场(如即将推出的被称为"AdSense for Search"和"倾向站点"搜索的服务),其前景也不可小看.在中文信息搜索可先用百度对中文的理解较好的特点进行先搜索,实在找不到了再用GOOGLE.而外文则应当用GOOGLE搜索.
2.4
展望百度除了一直是最大的中文搜索引李,在搜索的相关性止也不断升级百度为了把门户网站用的搜索引擎技术应用于中小网站和满足企业的需要,开发了百度网事通Web和网事通Real搜索.特别值得一提的是网事通Real,其实是一个实时新闻搜索引擎,可以同时监控和检索几千个网站在一分钟前发布的新闻,也能被当作信息监控工具使用.据说某些企业购买来监控各大论坛里的信息,既能收集竞争情报,又能在出现不利企业的信息时及时处理.他们都相继推出了如天气搜索,列车航班搜索,股票搜索,字典搜索,多文档搜索,计算器等新功能.Google则把很多英语功能迅速用到中文中来.最近GOGGLE开始注资百度,"Coogle"C+百度"希望不只是为了"垄断",而是把俩者完全整合一起为用户提供功能更强大的搜索引攀.
3结束语
尽管任何搜索引擎都无法夜盖所有的网页,和无法根本上防止一些网站为自身利益的网页欺骗;搜索结结果信息噪声仍然较大.从目前的状况来看,现有的搜索引攀技术,包括国内,国外的,都很难实质性地改善搜索引擎的结果,满足用户更深层次的需求.现在业界所谓的"第三代搜索引攀","智能搜索"等概念就是市场炒作,其实质都是基于第二代的"超链接分析技术".而新一代的搜索引攀技术在搜索相关数据后,可以进一步按不同要求自行创建列表,用户只需轻点鼠标,就能得到各种"精细信息".第三代中文搜索不仅第一次大规模地采用了中文自动分类,自动聚类等人工智能技术,而且创造性地使用了中文内容分析技术,以及区域智能识别技术,大大地增强了搜索引攀的查询能力.正因为新一代智能搜索引攀更注重智能化和用户使用的个性化需求,所以人们大胆预测,这一理念将成为未来搜索引擎的发展方向.但由以上几点我们可以看到它们功能的强大,它们在解决"迷航"间题还是很称职的.当然一个好的搜索引攀不再仅凭借数据库大小,更新频率,检索速度,对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何更加深入应用智能化技术从庞大的资料库中精确地找到正确的资料更加重要.经过长期的经验积累选择合适的搜索引擎,掌握必要搜索技巧,你就能打开网络信息资源这个宝库.
〔参考文献〕
[1) http: //www. alexa. com/
[2」曾民族.网络信息检索现状和性能评价.情报学报,1997(2).
[31 http : //www. google. com/ .
[4] http://www. baidu. com/.
[5]费志勇,褚润贞.搜索引攀Baidu百度)研究.现代情报,2003(9).
[6] http://210.34.157. 78/default2. asp screen- width = 800. google介绍.
[7]郑琳.搜索引攀的质全评价研究.情报杂志, 2003(9).
[8J陈继红,青晓.四种搜索引攀的比较研究.情报科学,2003,(10).
[9]http: //news. onlinedown. net/info/12621一1.htm先睹为快一Google搜索引攀新增特殊功能简介.
[10] http://news. onlinedown. net/info/12552一1. htm尘埃尚未落定'
[11] http://news. onlinedown. net/info/11117一1.htm精华二GOGGLE搜索秘籍全攻略.
[12]http://210. 34. 4. 20/news/detail. asp serial = 90 & keys = & key=搜索引拳国内搜索引攀技术现状.
[13]http://www. google123.net/html/2004一5一26/2004526143937. htm. 127
2008-03-14 22:41:35
百度与GOOGLE的比较与介析
摘要:
本文通过对两大中文搜索引李的比较和笔者一些认识,指出了两者的优劣,强大的功能和独到的特.点,提供了选择搜索引擎中性能评价的一些参考思路.
关键词:百度;GOOGLE;搜索引擎
随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息.网上的信息量的指数级增长,形式的多样性及其分布式特性,给人们在网上寻找信息带来了很大困难.为了解决这个问题,搜索引擎随之诞生.搜索引擎能让你发现从未去过的网站,并找到更多信息.随着时间的推移,许多读者发现搜索己经成为网络生活的一部分.在全球范围内少说也有几千个搜索引擎站点,尽管在使用上有许多相通之处,但每个搜索引擎的性能都有所不同.我们按其工作方式主要可分:目录索引类搜索引擎(Search Index/Directory),全文搜索引擎(Full Text Search Engine),元搜索引擎(META Search Engine),基于客户(Client一based)搜索的搜索引擎, 分布式(Distributed)搜索引擎,居于P2P的检索等等.由于纯粹的全文式和目录式的搜索引擎都存在各自的不足,人们自然想到把上述两种搜索引擎的优点结合起来,扬长避短.而百度与GOOGLE正是居于这种背景发展起来的很有实用价值搜索引擎.Google号称全球第一搜索,百度则号称中文第一搜索(美国权威机构Alexa2004年6月的全球网站排名结果显示,百度稳步进入全球站排行榜TOP10,排名第7位,成为最有影响力的中文站点之一). 目前国内80%以上的引擎都采纳百度或GOOGLE技术所以有必要对它们进行较全面的比较.
1、对各项指标的比较
根据曾民族在《网络信息检索现状和性能评价》中综合国内外搜索引擎评价研究成果的基础上提出的几个评价指标,笔者分别对两者做如下比较.
1.1数据库构成,规模和内容
1.1.1共同点.
①两者都有部分日更新.
②标示丰富的网页属性(网页标题,网页摘要,网址,网页大小).
1.1.2 GOOGLE特有.
①多为月更新.
②网页42.8亿,图片3.9亿张,新闻组文章7亿篇.有1.5 万台服务器,200多条T3级宽带.
③搜索范围涵盖了世界各地的网页.
④索引功能通过索引库和排序器来实现.
1.1.3百度特有.
①平均周更新.
②中文网页超过3亿,flash约5万个。
③拥有目前世界上最大的中文信息库,并且还在以每天几十万页的速度快速增长.
④搜索范围涵盖了中国内地,港澳台,新加坡等华语地区及北美,欧洲部分网站.
0在中国各地和美国均设有服务器.
⑥还标示网页生成日期,网页语言.
1.2索引方法
1.2.1共同点.
由四部分:蜘蛛程序,监控程序,索引数据库,检索程序组成自动索引.即用所谓的"蜘蛛"自动收集网页的数据收集系统,"蜘蛛"将收集所得的网页内容交给索引和检索系统,索引和检索系统通过扫描每一个网页中的每一个词,建立以词为单位的倒排文档,再根据关键词在每一个网页中出现的频率对包含这些关键词的网页进行排序,最后输出排序结果.
1.2.2 GOOGLE特有.
专利网页级别技术Pag- eRank能够提供高命中率的搜索结果.
1.2.3百度特有.
百度自主开发了功能强大的智能性网络蜘蛛系统:"东方之蛛",采用高可定制,高扩展性的调度算法使得搜索器可在极短的时间内收集到最大数量的中文因特网信息.应用内容相关度评价技术,并且运用了中文智能语言的处理方法,依靠字与词的不同切割方法,弥补了单纯依靠字或词的引擎技术的缺陷,并且能够在不同的编码之间转换,这就使得简体字和繁体字的检索结果自然结合, 智能化的中文语言处理技术大大提高了搜索的准确性与查全率.
1.3检索效果
1.3.1共同点.
①两者均有程度不同的检索噪声.
②都能较好地解决自动去重,由于都引入网页快照(cache,百度快照)从服务器里直接取出缓存的网页,巧妙地解决了搜索用户经常遇到的死链接问题.
1.3.2 GOOGLE特有. 查全率明显高于百度.
1.3.3百度特有.
①高效的搜索算法和本地服务器保证最快的响应速度,响应时间短,一个检索的平均响应时间小于0.5s.
②在中文检索中检准率较高.
1.4检索结果显示
1.4.1共同点.
①按相关性排序.
②网页标题,网页摘要,网页类别,网址,网页大小,快照,搜索用时间,命中记录数量,以醒目的颜色显示检索词,搜索框,搜索按钮,使用偏好(个人设置),搜索结果统计信息,常用链接,注释或摘要.
③摘录查询网页的含有关键字的内容,而不仅仅是网站简介.
1.4.2 GOOGLE特有.
①采用相关度和收费排序网页级别技术,检索式.
②限定或改变显示数量.
③高级搜索,搜索字段,标题下文本,类似网页.
④英文:搜索结果翻译;
⑤新闻组(USENET)搜索.
⑥设立了成人内容过滤功能.
2.4.3百度特有.
①采用超链分析技术,内容相关度评价及竞价排名排序.
②标记网页生成时间,网页语言.
③提供将百度设为首页,与百度对话,在结果中查询,检索扩展,发表/查看相关留言,该网站内的更多结果,全部搜索结果,翻页等链接和操作.
④保持新闻搜索,网页搜索,贴吧,MP3搜索,图片搜索等分类检索,百度已经自动为用户作类聚.
⑤相关搜索.百度搜索引擎会为您提供"其他用户搜索过的相关关键词"作参考.用户点击其中一个相关搜索词,都能得到那个相关搜索词的搜索结果.
⑥错别字纠正提示.提示您输入关键词的同音词,错别字纠正等.即使用户只输入关键词的拼音搜索,也能提示出最符合的中文关键词.
1.5用户界面
1.5.1共同点.
①搜索框,搜索按钮,常用的导航元素.
②提供高级搜索,帮助说明,检索功能说明链接.
1.5.2 GOGGLE特有.
①在英文界面可选择过滤不良信息.
②提供手气不错按钮,使用偏好,语言工具等按钮.
③提供四大功能模块:所有网站,图像,网上论坛,网页目录.
④提供搜索所有网站,搜索所有中文网页,搜索简体中文网页等选项.
⑤利用cookie来存储页面设定.
(6)可设置检索界面语言,查询信息的语言,每页最多显示记录条数.
1.5.3百度特有.
①还提供新闻,网页,帖吧, MP3,图片,网站等分类目录.
②并有English,网站推广,网站登录,搜索风云榜,搜索工具,百度大全等相关链接.
1.6检索功能
1.6.1共同点.
①默认以关键词精确匹配方式搜索;以关键词搜索时,返回结果中包含全部及部分关键词.
②支持"与"(只需在两个关键词之间加空格即可),"或","非"布尔命令.."site: ","link: ".返回所有链接到某个URL地址的网页等特殊搜索命令.
④字母无大小写之分,默认全部为小写.
⑤图片文档等一些其他多媒体搜索.
⑥忽略字符;用双引号实现精确查询.
⑦用户输入标准编码的繁体中文或简体中文,都可以同时搜到繁体中文和简体中文网页;并且,搜索结果中的繁体网页摘要信息会自动转成简体中文,方便用户阅读.
⑧支持中英文混合查询.
⑨可以在某一级子类的查询中输入关键词.
1.6.2 GOOGLE特有.
Google支持多达132种语言,包括简体中文和繁体中文.允许以多种语言进行搜索.
②检索符"空格","OR',,"一".
③字段检索.nurl语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中.Allinurl语法返回的网页的链接中包含所有查询关键字,这个查询的对象只集中于网页的链接字符串.
标题搜索.Allintitle和intitle的用法类似于上面的allinurl和inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询.Site是一个很实用的语法用google的site语法把GOOGLE请来专为你的站点搜索引攀,比一些网站上都有一个自己的小的
搜索引擎还好用(例如:http://lib. jmu. edu. cn/navi- gator/sports/ index. asp就是笔者用googler的site来
做的).
④限制检索." daterange : "(限定搜索的时间范围)."filetype: "(限定搜索的文档类别)."fi- letype:"是Google开发的非常强大实用的一个搜索语法.具有独到的图片搜索功能,能对某些二进制文档进行检索.目前,Google已经能检索微软的Office文档如.xls, . ppt, . doc, . rtf, WordPerfect文档,Lotusl一2一3文档,Adobe的.pdf文档,Shock- Wave的.swf文档等.其中最实用的文档搜索是 PDF搜索.收录有几千万PDA文档.PDF是 ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准.
⑤扩检功能.用"re- late"或点击在结果上的相似网页可获得更多的检索结果.
⑥特殊检索.智能化的"手气不错"功能,提供可能最符合要求的网站."info:"用来显示与某链接相关的一系列搜索.快速连接到诸如天气, 邮政编码和区号,股票报价,移动电话号码(11 phone-book:")等信息以及英汉/汉英词典功能.不支持单词多形态,断词查询和中文单词衍生形态查询.很多文章认为不能支持通配符.其实笔者发现可以在双引号内部份支持通配符,Google对通配符支持有限.它目前只可以用","来替代单个字符,而且包含","必须用引号.如用","来替代单个字符,比如输入"唐,诃德"和"唐,.诃德"得到的结果是不同的.有强大的新闻组搜索功能(http://groups. Google. com/ ),新闻搜索( http://news. google.com/ ),分类告搜索(" http://catalogs. google.com/" ),术语查询,语音查询,键盘查询等等.
(7)默认带连线的字词为词组;对忽略的关键字加上明文的"+"号进行强制搜索.
1.6.3百度特有.
①语言.提供中文(简/繁体)网页搜索服务;支持主流的中文编码标准,包括GBK(汉字内码扩展规范), GB2312(简体),BIG5(繁体), 并且能够在不同的编码之间转换.
⑧检索符."空格","}","一".
③字段检索.在"inurl"后加URL中的文字,可以限制只搜索URL中含有这些文字的网页.在一个或几个关键词前加"intitle : ",可以限制只搜索网页标题中含有这些关键词的网页.
④ 特殊检索.限定要搜索的网页的地区.限定要搜索的网页的时间.个性设置.此外还提供关键词分类搜索,即将常用关键词进行组合分类,直接用目录分类新闻,网页,帖吧,MP3,图片,网站等来限制检索, 并可以在某一级子类的查询中输入关键词,方便用 户直接查找有关资料.
⑤扩检功能.点击在结果上的相关链接可获得更多的检索结果.
⑥特殊检索.支持动态网页.因为大多数负责搜索网页的蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来.然而,网站使用的动态网页生成工具乃是大势所趋,ASP, PHP, JSP等编程工具日益流行,解决动态网页查找的问题已经是人心所向.百度这一方面又在国际互联网界首开先河,成功解决了动态网页的收集和索引问题,用搜索引攀来查找动态生成的网页已经不是神话.股票搜索功能等具有国内A股股票实时查询功能,同时支持语法 "stock: ".词典搜索功能.提供中英文词典互译. 只要用户输入的关键词有相关中英文解释,在搜索结果中搜索框上即会显示词典的链接,点击即可找到您要查的词的英文(或中文)翻译.计算器功能.输入需要计算的数学表达式点击搜索,即可获得计算结果.支持查询连线关键词.检索古汉语(诗词)类资料有独到之处.
2总结
2.1
通过以止比较,我们感觉到无论是Google还是百度,搜索速度都昨常迅速,百度只是稍稍领先数据库规模,涵盖范围,在返回结果的数量上, google要强于百度(google不愧是全球信息量最大的搜索引擎).在结果的相关性和准确度方面,两大搜索引擎可说是不分上下.google类似网页的链接,但百度在搜索时给出了一些与用户的关键词相关的检索条件,可以说是对用户更加体贴.古汉语(诗词)类资料搜索这方面百度有独到之处.在中英文混合的搜索中,双方表现都不错;在结果的组织方面,双方都有网页快照,网页的摘要,关键词标志明显,文件大小等信息都相当详细,而百度还包括该网页更新时间的信息.在逻辑检索方面,百度比google支持得更好.在检索深度上,google表现确有其过人之处(例如,笔者于2004年6月9日发布的http://lib. jmu. edcn/navigator/sports/index. asp体育信息导航.7月初来自crawlerll. googlebot.com的爬虫抓取了我站内容,并在GOOGLE能直接搜索到.而百度到目前为止还只能搜索在图书馆主页上的体育信息导航超链接.).Google最有价值与最出名的还是自然搜索结果.如果您在某一领域做学间,Google侦察兵会成为您的助手,帮您快速找到大量资料.但是,GOGGLE一个最大的不足是没有国际出口的国内用户无法登录.其次,在Google上可以搜索到许多国内禁止,限制传播的内容,如黄色,迷信,暴力等,这使它很难通过内容审查.
2.2
从综合实力来看,两大搜索引擎可说是旗鼓相A, google的优势在于信息圣大,资源丰富百度的优势在于对中文的理解较好,更贴近中文用户的搜索习惯.而且系统每个部分均采用N+1的冗余设计.当在某个工作模块发生异常时,冗余模块可立即启动大大提高效率.
2.3
以目前的市场来看,使用百度搜索引李技术的中文网站要多一些百度毕竟占有语言和本土化优势,Google作为一家国际性大公司,如果它致力于开发中文市场(如即将推出的被称为"AdSense for Search"和"倾向站点"搜索的服务),其前景也不可小看.在中文信息搜索可先用百度对中文的理解较好的特点进行先搜索,实在找不到了再用GOOGLE.而外文则应当用GOOGLE搜索.
2.4
展望百度除了一直是最大的中文搜索引李,在搜索的相关性止也不断升级百度为了把门户网站用的搜索引擎技术应用于中小网站和满足企业的需要,开发了百度网事通Web和网事通Real搜索.特别值得一提的是网事通Real,其实是一个实时新闻搜索引擎,可以同时监控和检索几千个网站在一分钟前发布的新闻,也能被当作信息监控工具使用.据说某些企业购买来监控各大论坛里的信息,既能收集竞争情报,又能在出现不利企业的信息时及时处理.他们都相继推出了如天气搜索,列车航班搜索,股票搜索,字典搜索,多文档搜索,计算器等新功能.Google则把很多英语功能迅速用到中文中来.最近GOGGLE开始注资百度,"Coogle"C+百度"希望不只是为了"垄断",而是把俩者完全整合一起为用户提供功能更强大的搜索引攀.
3结束语
尽管任何搜索引擎都无法夜盖所有的网页,和无法根本上防止一些网站为自身利益的网页欺骗;搜索结结果信息噪声仍然较大.从目前的状况来看,现有的搜索引攀技术,包括国内,国外的,都很难实质性地改善搜索引擎的结果,满足用户更深层次的需求.现在业界所谓的"第三代搜索引攀","智能搜索"等概念就是市场炒作,其实质都是基于第二代的"超链接分析技术".而新一代的搜索引攀技术在搜索相关数据后,可以进一步按不同要求自行创建列表,用户只需轻点鼠标,就能得到各种"精细信息".第三代中文搜索不仅第一次大规模地采用了中文自动分类,自动聚类等人工智能技术,而且创造性地使用了中文内容分析技术,以及区域智能识别技术,大大地增强了搜索引攀的查询能力.正因为新一代智能搜索引攀更注重智能化和用户使用的个性化需求,所以人们大胆预测,这一理念将成为未来搜索引擎的发展方向.但由以上几点我们可以看到它们功能的强大,它们在解决"迷航"间题还是很称职的.当然一个好的搜索引攀不再仅凭借数据库大小,更新频率,检索速度,对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何更加深入应用智能化技术从庞大的资料库中精确地找到正确的资料更加重要.经过长期的经验积累选择合适的搜索引擎,掌握必要搜索技巧,你就能打开网络信息资源这个宝库.
〔参考文献〕
[1) http: //www. alexa. com/
[2」曾民族.网络信息检索现状和性能评价.情报学报,1997(2).
[31 http : //www. google. com/ .
[4] http://www. baidu. com/.
[5]费志勇,褚润贞.搜索引攀Baidu百度)研究.现代情报,2003(9).
[6] http://210.34.157. 78/default2. asp screen- width = 800. google介绍.
[7]郑琳.搜索引攀的质全评价研究.情报杂志, 2003(9).
[8J陈继红,青晓.四种搜索引攀的比较研究.情报科学,2003,(10).
[9]http: //news. onlinedown. net/info/12621一1.htm先睹为快一Google搜索引攀新增特殊功能简介.
[10] http://news. onlinedown. net/info/12552一1. htm尘埃尚未落定'
[11] http://news. onlinedown. net/info/11117一1.htm精华二GOGGLE搜索秘籍全攻略.
[12]http://210. 34. 4. 20/news/detail. asp serial = 90 & keys = & key=搜索引拳国内搜索引攀技术现状.
[13]http://www. google123.net/html/2004一5一26/2004526143937. htm. 127









