אני לא חושב שזה ייקח הרבה זמן עד שפתאתי תיכנס גם היא לפיתוח מנוע חיפוש המבוסס על בינה מלאכותית. הסורק החדש של GPTBOT עם מודל השפה הרחבה של GPT-5 כבר הושק.
מי שמשתמש ב- ChatGpt יודע שמודל השפה הרחב הזה (LLM) כרגע פועל GPT-3.5, ומוכשר על מערך נתונים מעודכן בספטמבר 2021. אז אם יתבקש מידע חדש יותר, צ'אט אינו מסוגל לספק מידע מדויק. כמובן, תקף לגרסה החינמית שאינן תומכות בשימוש בתוספי עזר.
עם ההשקה GPTBot, OpenAI יש לו נתיב פתוח לאינדקס את דפי האינטרנט דרך רשת הסורק החדש הזו. כמו שחברות כמו גוגל, מיקרוסופט, יאהו ועוד עושות כבר שנים רבות.
GPT-5 והסורק החדש של GPTBOT שפותח על ידי Openai
הרשת החדשה של הסורק GPTBOT משתמשת web agent:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
בעלי אתרים יכולים לשלוט באינדקס של דפי אינטרנט באמצעות קובץ robots.txtתוך שימוש באותן הנחיות כמו לסורקי רשת אחרים של חברות אחרות.
לדוגמה, אם הבעלים של אתר לא רוצה שאותה יאסוף מידע באתר, הוא יכול להוסיף robots.txt הקווים:
User-agent: GPTBot
Disallow: /
גם אם הם יתנהגו כמו רשת סורק, ל- GPTBOT תהיה מטרה מובהקת: לאסוף נתונים זמינים לציבור, תוך הימנעות מקפידה על מקורות הכרוכים בתשלום, איסוף נתונים אישיים או תוכן המנוגד למדיניות פותחת.
עם זאת, ישנם לא מעט מחלוקת, חלקם שאף משכו פעולות משפטיות בחברה הפתוחה בנושא סודיות ושימוש בתוכן ללא הסכמת המחברים או מבלי לחטוף את המקורות.
ביוני פרסמה רשות הרגולציה של יפן פרטיות אזהרה לפתיחה על איסוף נתונים בלתי מורשה. כמו כן, מוקדם יותר השנה, איטליה אסרה באופן זמני את השימוש של צ'טגפט בגלל הפרות לכאורה של חוקי האיחוד האירופי.