如沐博客-互联网观察者

致力于互联网产业的发展

[置顶] 十年技术 不要再迷茫

[置顶] 程序员应聘面试经验谈

[置顶] 最近手头紧,出几个域名,基本上都是老米

Google & 百度搜索引擎ping服务实现

采集站需要的是三点:

1.采集速度,能否保证原创出现10s内,将这个内容采集到自己的网站上?

2.SEO,在不影响阅读,不影响内容正确性的前提下适度伪原创;keyword,description等。

3.大量数据,采集大量数据,数据库优化要做好。

...

那些让我们“欲罢不能”的互联网产品

...

Google的大爸爸BigDaddy数据中心

从2005年12月初开始,Google开始建构新一代搜索引擎架构,他们称为大爸爸数据中心(BigDaddy Datacenter)。

据Matt Cutts介绍,大爸爸数据中心是全新的和改善过的软件基本架构。这一个新的基本架构一个数据中心一个数据中心的替换现有的Google算法基本架构。

从2005 年12月初到2006年一月初,Google基本完成了两个数据中心的大爸爸转换。但是在转换过程中,访客所看到的搜索结果,有的时候是大爸爸的结果,有的时候是以前的或正常的结果。因为Google的工程师在不停的检测,有的时候把大爸爸接通,有的时候又拿下。

...

Google工程师解释Googlebot抓取网页的原理

前几天我们报道了Google的Matt Cutts确认了AdSense的Mediabot的确是会帮助Googlebot抓取网页的消息,但有部分人不相信Matt Cutts,或者不相信他能代表Google官方。作为Matt Cutts的blog的一名忠实读者,我觉得完全没必要花费篇幅再去特别说明Matt Cutts的权威性。我想说的是,Matt Cutts在是Google品质管理部门的一名高级软件工程师,外界所知的是他负责研发阻止Spam与恶性控制排名的技术。因此,信不信当然由你
...

如何验证谷歌抓取机器人(Googlebot)

最近我听到一些聪明 人士要求搜索引擎提供一种方法来验证一个抓取机器人是正宗的。毕竟,任何垃圾制造者都可以用Googlebot来命名他们的抓取机器人,并声称自己是Google的。那么,你应该信任哪些抓取机器人,又应该阻截哪些?

我们听到最普遍的要求是把Googlebot的IP地址列表公布给大家。这个做法的问题是,如果/当我们的抓取工具的IP地址范围改变时,并非每个人都知 道去检查。事实上,爬行组几年前搬迁过Googlebot的IP地址,他们遇到的一个真正的麻烦是提醒一些把Googlebot的IP范围写在他们的程序 里的网管们。所以爬行组的成员们提供了另一种方法来验证Googlebot。这里是爬行组成员们提供的一个答案(经他们同意在此引述) :

...
分页:[«]1[»]

Copyright 2010-2018 25230.NET All Rights Reserved.