纳速健身

标题: Google搜索技巧总结 [打印本页]

作者: awagink    时间: 2008-4-23 15:29
标题: Google搜索技巧总结
一、初阶搜索

1、【搜索结果要求包含两个及两个以上关键字】
      一般搜索引擎需要在多个关键字之间加上“ ”,而Google无需用明文的“ ”来表示逻辑“与”操作,只要空格就可以了。
2、搜索结果要求不包含某些特定信息
      Google用减号“-”表示逻辑“非”操作。“A –B”表示搜索包含A但没有B的网页。
注意:这里的“ ”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外,操作符与作用的关键字之间,不能有空格。比如“搜索引擎 - 文化”,搜索引擎将视为关键字为“搜索引擎”和“文化”的逻辑“与”操作,中间的“-”被忽略。
3、【搜索结果至少包含多个关键字中的任意一个】
      Google用大写的“OR”表示逻辑“或”操作。搜索“A OR B”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。
注意:“与”操作必须用大写的“OR”,而不是小写的“or”。

二、杂项语法

1、【通配符问题】
      很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。Google对通配符支持有限。它目前只可以用“*”来替代单个字符,而且包含“*”必须用""引起来。比如,“"以*治国"”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符。
2、【搜索整个短语或者句子】
      Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。
3、【搜索引擎忽略的字符以及强制搜索】
      Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。
      示例:搜索关于www起源的一些历史资料。
      搜索:“www的历史 internet”
      结果:以下的字词因为使用过于频繁,没有被列入搜索范围: www 的. 已搜索有关www的历史 internet的中文(简体)网页。 共约有75,100项查询结果,这是第1-10项 。 搜索用时0.22秒。

      我们看到,搜索“www的历史 internet”,但搜索引擎把“www”和“的”都省略了。于是上述搜索只搜索了“历史”和“internet”。这显然不符合要求。这里我顺便说一点搜索引擎分词的知识。当我们在搜索“www的历史”的时候,搜索引擎实际上把这个短语分成三部分,“www”、“的”和“历史”分别来检索,这就是搜索引擎的分词。所以尽管你输入了连续的“www的历史”,但搜索引擎还是把这个短语当成三个关键字分别检索。
      如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。
      搜索:“+www +的历史 internet”
      结果:已搜索有关+www +的历史 internet的中文(简体)网页。 共约有25,000项查询结果,这是第1-10项 。 搜索用时0.05秒。

      另一个强制搜索的方法是把上述的关键字用英文双引号引起来。在上例“”world war I””中,“I”其实也是忽略词,但因为被英文双引号引起来,搜索引擎就强制搜索这一特定短语。
4、【在某一类文件中查找信息】
      “filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80%。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。
      示例:搜索几个资产负债表的Office文档。
      搜索:“资产负债表 filetype:doc OR filetype:xls OR filetype:ppt”
      结果:已搜索有关资产负债表 filetype:doc OR filetype:xls OR filetype:ppt的中文(简体)网页。 共约有481项查询结果,这是第1-10项 。 搜索用时0.04秒。
      注意,下载的Office文件可能含有宏病毒,谨慎操作。
      示例:搜索一些关于搜索引擎知识和技巧方面的PDF文档
      搜索:“"search engine" tips OR tutorial filetype:pdf”
      结果:已向英特网搜索"search engine" tips OR tutorial filetype:pdf. 共约有12,600项查询结果,这是第1-10项 。 搜索用时0.22秒。
      我们来看其中的一个结果:
      [PDF]Search Engines Tips
      文档类型: PDF/Adobe Acrobat - HTML 版
      ... http://www.google.com/press/zeitgeist.html See what people are searching on at Google.com
      * Search Engine Watch http://searchenginewatch.com/ Some free tips ...
     www
.allvertical.com/PromoKits/SearchEngineTips.pdf  -  类似网页
      可以看到,Google用[PDF]来标记这是一个PDF的文档检索,另外,它还给出了该PDF文档的HTML版本,该HTML版保留了文档的文字内容和结构,但没有图片。




5、【搜索的关键字包含在URL链接中】
      “inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。
       示例:查找MIDI曲“沧海一声笑”。
       搜索:“inurl:midi “沧海一声笑””
       结果:已搜索有关inurl:midi "沧海一声笑"的中文(简体)网页。 共约有27项查询结果,这是第1-10项 。 搜索用时0.34秒。
       注意:“inurl:”后面不能有空格,Google也不对URL符号如“/”进行搜索。例如,Google会把“cgi-bin/phf”中的“/”当成空格处理。
     “allinurl”语法返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。
       示例:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。
       搜索:“allinurl:"cgi-bin" phf +com”
       结果:已向英特网搜索allinurl:"cgi-bin" phf +com. 共约有51项查询结果,这是第1-10项 。 搜索用时0.11秒。

6、【搜索的关键字包含在网页标题中】
      “intitle”和“allintitle”的用法类似于上面的inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。
       示例:查找日本明星藤原纪香的照片集。
       搜索:“intitle:藤原纪香 "写真集"”
       结果:已搜索有关intitle:藤原纪香 "写真集"的中文(简体)网页。 共约有315项查询结果,这是第1-10项 。 搜索用时0.15秒。
7、【网页快照】
       网页快照是Google抓下来缓存在服务器上的网页。它有三个作用:
       第一, 如果原地址打开很慢,那么可以直接查看Google缓存页面,因为Google服务器速度极快。
       第二, 如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过Google快照看到该页面信息。当然,快照内容不是该页最新页面。
       第三, 如果打开的页面信息量巨大,一下子找不到关键词所在位置,那么可以通过Google快照,因为快照中Google用黄色表明关键字位置。
7、【网页翻译】
       你懂英文,但是你不见得就懂德文、法文、拉丁文。如果搜索出来的页面是这些语言怎么办?Google提供了网页翻译功能!虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文,但是不得不承认,这是个很好的功能。
       试着做以下搜索:“big bang site:fr”。这个表示查找关于宇宙大爆炸的法文网页。看第一条结果:
The Big Bang Website - [ Translate this page ]
... A propos de Big Bang. Le dernier numéro en date. Les anciens numéros. Autres
activités. Concerts progressifs en France. Emissions de radio. Liens.
perso.club-internet.fr/calyx/bigbang/ - 3k - Cached - Similar pages
       有点晕。没关系,点击“Translate this page”按钮。再看结果,嗯,大致能看明白,这原来是个叫“big bang”的乐队的网站,与大爆炸无关...
       机器翻译是一个很前沿的人工智能课题,想指望翻译出来的结果跟专门用英语撰写的内容是不可能的。但西文间的互相转译比中英文机译强得多得多了。至少能看明白。

       关于“百度”的搜索技巧,等改天整理之后再发上来!o(∩_∩)o...


作者: lwzf666    时间: 2009-2-4 15:55
感谢分享,多谢!




欢迎光临 纳速健身 (https://nasue.com/) Powered by Discuz! X3.4