Google最近悄悄释放了一个信号,旗下的NotebookLM文档会忽略robots.txt规则,随后Google又悄悄更新了NotebookLM的相关文档,明确说明这一情况。那么NotebookLM到底是什么?为何不遵守robots.txt?又该如何阻止它访问自己的网站内容呢?下面我们一步步介绍。
首先,Google悄悄更新了“用户触发的抓取工”(用户触发的Fetchers)列表,新增了关于Google NotebookLM的说明文档。明确了一点,Google NotebookLM不会遵守robots.txt规则。
简单介绍下Google NotebookLM,是一款AI研究与写作工具,用户可以把网页链接添加进去,工会自动处理链接里的内容,之后用户就能针对这些内容提问,或者让它生成摘要。除此之外这个工具还能自动创建交互式思维导图,帮用户梳理网页里的主题,提炼关键信息。
而用户触发的Fetchers是由用户主动发起请求才会工作的网页代理工,默认情况下就不会遵守robots.txt协议。根据Google官方对“用户触发的Fetchers”的文档说明:“因为抓取行为是用户主动请求的,所以这些抓取工通常会忽略robots.txt的规则。”
关于robots.txt协议参考:《网站robots.txt文件全面解析》
Google-NotebookLM(即NotebookLM的抓取工具)正是如此,它会忽略robots.txt。这里要区分一下:robots.txt的作用本来是让网站管理者控制哪些机器人能抓取、索引自己的网页。但像Google-NotebookLM这样的代理工,并不是在“索引网页内容”(也就是不会把网页收录到搜索引擎里),而是代表用户,通过Google NotebookLM和网站内容互动的用户,去获取内容。
那么网站管理者如果想阻止NotebookLM访问自己的内容,该怎么做呢?
Google在通过NotebookLM抓取网站内容时,会使用一个特定的“用户代理”(可以理解为工的“身份标识”),标识就是“Google-NotebookLM”。所以,想阻止它的网站管理者,只要设置规则、自动拦截这个身份标识:
WordPress搭建的网站用Wordfence安全插件创建一条自定义规则,拦截所有使用“google-notebooklm”用户代理的访问请求,这样就能阻止NotebookLM抓取内容。
另外还有一种方法,就是通过网站的.htaccess文件设置规则,体代码如下(需要确保服务器支持mod_rewrite模块):
<IfModule mod_rewrite.c> 在RewriteCond %{HTTP_USER_AGENT} google-notebooklm [NC] RewriteRule .* – [F,L] </IfModule> 上的RewriteEngine
设置好这条规则后,服务器就会拒绝“Google-NotebookLM”的访问请求。
(本文由美国主机侦探原创,转载请注明出处“美国主机侦探”和原文地址!)

微信扫码加好友进群
主机优惠码及时掌握

QQ群号:938255063
主机优惠发布与交流