Google更新：NotebookLM不会遵守robots.txt规则

Google最近悄悄释放了一个信号，旗下的NotebookLM文档会忽略robots.txt规则，随后Google又悄悄更新了NotebookLM的相关文档，明确说明这一情况。那么NotebookLM到底是什么？为何不遵守robots.txt？又该如何阻止它访问自己的网站内容呢？下面我们一步步介绍。

首先，Google悄悄更新了“用户触发的抓取工”（用户触发的Fetchers）列表，新增了关于Google NotebookLM的说明文档。明确了一点，Google NotebookLM不会遵守robots.txt规则。

简单介绍下Google NotebookLM，是一款AI研究与写作工具，用户可以把网页链接添加进去，工会自动处理链接里的内容，之后用户就能针对这些内容提问，或者让它生成摘要。除此之外这个工具还能自动创建交互式思维导图，帮用户梳理网页里的主题，提炼关键信息。

而用户触发的Fetchers是由用户主动发起请求才会工作的网页代理工，默认情况下就不会遵守robots.txt协议。根据Google官方对“用户触发的Fetchers”的文档说明：“因为抓取行为是用户主动请求的，所以这些抓取工通常会忽略robots.txt的规则。”

关于robots.txt协议参考：《网站robots.txt文件全面解析》

Google-NotebookLM（即NotebookLM的抓取工具）正是如此，它会忽略robots.txt。这里要区分一下：robots.txt的作用本来是让网站管理者控制哪些机器人能抓取、索引自己的网页。但像Google-NotebookLM这样的代理工，并不是在“索引网页内容”（也就是不会把网页收录到搜索引擎里），而是代表用户，通过Google NotebookLM和网站内容互动的用户，去获取内容。

那么网站管理者如果想阻止NotebookLM访问自己的内容，该怎么做呢？

Google在通过NotebookLM抓取网站内容时，会使用一个特定的“用户代理”（可以理解为工的“身份标识”），标识就是“Google-NotebookLM”。所以，想阻止它的网站管理者，只要设置规则、自动拦截这个身份标识：

WordPress搭建的网站用Wordfence安全插件创建一条自定义规则，拦截所有使用“google-notebooklm”用户代理的访问请求，这样就能阻止NotebookLM抓取内容。

另外还有一种方法，就是通过网站的.htaccess文件设置规则，体代码如下（需要确保服务器支持mod_rewrite模块）：