意见 Google,修复您的缺陷! | 约翰角 德沃夏克

Google,修复您的缺陷! | 约翰角 德沃夏克

视频: Гласный звук /æ/, как в слове "cat" - произношение на американском английском (十一月 2024)

视频: Гласный звук /æ/, как в слове "cat" - произношение на американском английском (十一月 2024)
Anonim

查看图库中的所有照片

为了获取新闻,我经常扫描Google新闻,该新闻根据“机器人”确定的趋势汇总来自世界各地的文章。 一切都与趋势有关。 它通常会错过重大新闻,而完全忽略重要的评论,例如我的专栏文章。 取而代之的是,它似乎更倾向于断开链接-我的意思是《 华尔街日报》 ,该书需要订阅才能阅读。

今天就是一个例子。 CES上有一个关于Dish Network竞购Clearwire的重大新闻。 但是,谷歌决定,最重要的故事应该来自《 华尔街日报》, 而不是通过免费且可读的网站链接到任何相关的故事。

过去,Google进行过某种交易,允许用户至少在阅读之前禁止阅读主要段落,甚至阅读整篇文章,然后再将其屏蔽。 除非您知道旁路技巧(如下所述),否则它将不再适用。 现在您遇到了付费专区,您已经完成了。 我想实际的订阅者会越过这一点,但我想知道Google机器人如何通过它来首先找到故事。 Google付费吗? 我对此表示怀疑。 因此,Google bot必须有某种后门程序,对吗?

这是伪造的,对Google用户不利。 Google经历了所有麻烦,打败了尝试使用该系统的人们,但它让《 华尔街日报》 拉了这个st头? 这实质上是《 华尔街日报》 订阅的付费内容。 这就是Google想要的吗? Google会减薪吗?

对于Google来说,简单地解决此烦恼就不难了。 一分钟需要五个顶。 那是太多的工作吗?

如果公司在其服务中内置了付费专区,则Google根本不应搜索该网站。 机器人应该知道这里有付费专区,并且只需避免搜索。 而且,是的,我想解释一下机器人如何准确地搜索被付费专栏阻止的网站。 这是一个谜。

付费墙应与告诉爬网程序机器人消失的“ robots.txt”完全相同。 但是,关于《 华尔街日报》和 Google的关系有些可疑。 杀死所有机器人的最简单方法是robots.txt文件中的meta标记,因此:

查看图库中的所有照片

WSJ 专门阻止了某些子目录,但显然不是全部。 而且,更奇怪的是,如果您在Google新闻中搜索完全相同的文章,而不是简单地单击摘要中的链接,则可以通过其他某种方式来获取文章。

我通过挑战 WSJ所 使用的robots.txt文件来挑战更多的技术读者,弄清楚这两种情况是怎么回事。 此处提供公共文档。

无论如何,出于经济原因,网站都有收费壁垒。 如果他们想用自己的内容玩游戏是一回事,但应以与Google试图挫败尝试使用该系统的人们相同的方式从搜索结果中禁止该内容。 Google会禁止一些不幸的博客写手冒犯一些粗略的行为。 用相同的方式处理更大的网站怎么样?


您可以在Twitter @therealdvorak上关注John C. Dvorak。

更多约翰·德沃夏克(John C. Dvorak):

与John C. Dvorak脱离话题。

查看图库中的所有照片

Google,修复您的缺陷! | 约翰角 德沃夏克