robots.txt生成
限制目录
生成文件
抓取间隔
网站地图
允许访问
禁止访问
结果
- 输入参数
- 抓取间隔:
- robots.txt:
- 限制目录:
robots.txt 下载文件
-
Q&A
-
1
robots.txt是什么?
robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元资料)。
robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符。
-
2
robots.txt如何生成?
1. 输入需限制目录,以英文,分割(默认为空)
2. 设置抓取间隔(默认无限制)
3. 设置网站地图(默认为空)
4. 选择允许爬虫和禁止爬虫(默认允许所有)
5. 点击生成文件
-
3
robots.txt如何提交?
1. 点击下载文件
2. 将文件上传至网站根目录,并设置可访问
-
4
该功能是否收费?
robots.txt生成免费提供,无需付费
-
5
该功能是否提供接口?
robots.txt生成提供API接口,支持第三方调用
无需登录,不限速度
URL: "https://www.ipanpan.com/v7/generate/robots" METHOD: "POST" INPUT: { bot: { // 爬虫标识,user-agent可自行扩充,state可取范围(disallow:"/", allow:"") "*": "", Baiduspider: undefined, Bytespider: undefined, "Sogou web spider": undefined, "360Spider": undefined, YisouSpider: undefined, Googlebot: undefined, Bingbot: undefined, "Yahoo! Slurp": undefined, Yandexbot: undefined, }, path: undefined, // 禁止目录 sitemap: undefined, // 网站地图 delay: 0, // 间隔时间 } OUTPUT: { result: { robots: "robots content" } } NOTICE: 1. 需自行校验请求值数据正确性 2. 需自行将返回值生成robots.txt文件