robots.txt也称为机器人排除协议,是为了告诉搜索引擎网站在索引网络时不要爬取哪些内容而创建的。 也就是说,一个网站要是不想被OpenAI爬虫,那就必须正确配置robots.txt文件,并带有特定标签,明确告诉GPTBot不要访问该网站。
近日,一家仅有7人团队的初创企业Triplegangers遭遇了意想不到的困境,其公司网站突然崩溃,无法正常访问。紧急排查后,CEO和员工们惊讶地发现,导致这一问题的竟是OpenAI的GPTBot爬虫。