我认为,直到Openai也为基于人工智能的搜索引擎开发而发挥作用。带有GPT-5宽语言模型的新的爬行者GPTBOT网络已经启动。
那些使用chatgpt的人知道这种广泛的语言模型(LLM)当前正在运行GPT-3.5,在2021年9月对更新的数据集进行了培训。因此,如果这次请求较新的信息, chatgpt 无法提供准确的信息。当然,对于不支持使用辅助插件的免费版本有效。
发射 GPTBot, OpenAI 它有一个开放的途径,可以通过此新的轨道网络索引网页。由于Google,Microsoft,Yahoo等公司已经做了很多年了。
GPT-5和OpenAi开发的新攻击者GPTBOT网络
新的爬行者GPTBOT Web用途 web agent:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
网站所有者可以通过文件控制网页索引 robots.txt
,利用与其他公司的其他网络爬网相同的指令。
例如,如果网站的所有者不希望OpenAI收集网站上的信息,他可以添加到 robots.txt
行:
User-agent: GPTBot
Disallow: /
即使他们的行为像爬网络网络一样,GPTBOT也会有一个独特的目的:收集公开可用的数据,同时仔细避免涉及付费墙的来源,收集违反开放政策的个人数据或内容。
但是,存在很多争议,有些甚至在未经作者的同意或没有谋求资料来源的情况下就对公司的保密性和内容的使用提起了法律诉讼。
6月,日本的隐私监管机构在未经授权的数据收集中向OpenAI发出了警告。另外,今年早些时候,由于涉嫌违反欧盟法律,意大利暂时禁止Chatgpt使用。