亚马逊云科技

广告

安信SSL证书

广告

Google更新:NotebookLM不会遵守robots.txt规则

美国云服务器推荐

Google最近悄悄释放了一个信号,旗下的NotebookLM文档会忽略robots.txt规则,随后Google又悄悄更新了NotebookLM的相关文档,明确说明这一情况。那么NotebookLM到底是什么?为何不遵守robots.txt?又该如何阻止它访问自己的网站内容呢?下面我们一步步介绍。​

首先,Google悄悄更新了“用户触发的抓取工”(用户触发的Fetchers)列表,新增了关于Google NotebookLM的说明文档。明确了一点,Google NotebookLM不会遵守robots.txt规则。​

简单介绍下Google NotebookLM,是一款AI研究与写作工具,用户可以把网页链接添加进去,工会自动处理链接里的内容,之后用户就能针对这些内容提问,或者让它生成摘要。除此之外这个工具还能自动创建交互式思维导图,帮用户梳理网页里的主题,提炼关键信息。​

而用户触发的Fetchers是由用户主动发起请求才会工作的网页代理工,默认情况下就不会遵守robots.txt协议。根据Google官方对“用户触发的Fetchers”的文档说明:“因为抓取行为是用户主动请求的,所以这些抓取工通常会忽略robots.txt的规则。”​

关于robots.txt协议参考:《网站robots.txt文件全面解析

Google-NotebookLM(即NotebookLM的抓取工具)正是如此,它会忽略robots.txt。这里要区分一下:robots.txt的作用本来是让网站管理者控制哪些机器人能抓取、索引自己的网页。但像Google-NotebookLM这样的代理工,并不是在“索引网页内容”(也就是不会把网页收录到搜索引擎里),而是代表用户,通过Google NotebookLM和网站内容互动的用户,去获取内容。​

那么网站管理者如果想阻止NotebookLM访问自己的内容,该怎么做呢?​

Google在通过NotebookLM抓取网站内容时,会使用一个特定的“用户代理”(可以理解为工的“身份标识”),标识就是“Google-NotebookLM”。所以,想阻止它的网站管理者,只要设置规则、自动拦截这个身份标识:

WordPress搭建的网站用Wordfence安全插件创建一条自定义规则,拦截所有使用“google-notebooklm”用户代理的访问请求,这样就能阻止NotebookLM抓取内容。​

另外还有一种方法,就是通过网站的.htaccess文件设置规则,体代码如下(需要确保服务器支持mod_rewrite模块):​

<IfModule mod_rewrite.c> 在RewriteCond %{HTTP_USER_AGENT} google-notebooklm [NC] RewriteRule .* – [F,L] </IfModule> 上的RewriteEngine

设置好这条规则后,服务器就会拒绝“Google-NotebookLM”的访问请求。

(本文由美国主机侦探原创,转载请注明出处“美国主机侦探”和原文地址!)

主机侦探企业微信

微信扫码加好友进群

主机优惠码及时掌握

主机侦探QQ群

QQ群号:938255063

主机优惠发布与交流

温馨提示:

1、本站部分图片来源于互联网,如有侵权请联系删除。邮箱:2942802716#qq.com(#改为@)

2、本文评论没有专人回复,如果您有问题请到美国主机侦探论坛提问!

3、美国主机侦探免费为您提供美国主机购买咨询。

RAKsmart美国服务器
下一篇
Google更新
已经没有了
返回顶部