Photo by Joshua Woroniecki on Unsplash
חוקרי Cloudflare מטענים שהבלבול משרטט אתרים למרות חסימת בוט של AI
חוקרים מספקת תשתית האינטרנט, Cloudflare, מטענים שמערכת הAI, Perplexity, גרדה תוכן מאתרים ללא הרשאה, אף כאשר מפרסמים הטמיעו חסימות לבוטים של AI.
ממהרת? הנה העובדות המהירות:
- Cloudflare מטיחה ש-Perplexity מתעקשת לסגור תוכן מאתרים ללא הרשאה.
- חוקרים אישרו את ההתנהגות "הזחילה בסמויים" של Perplexity, אפילו כאשר מפרסמים מיישמים חסימות בוט AI.
- דובר מטעם Perplexity קרא לדו"ח של Cloudflare "קסם פרסום".
לפי הדוח שהועבר על ידי Cloudflare ביום שני, Perplexity מסתובבת באתרים באמצעות ה-user agent המוגדר כברירת מחדל שלה ומחליפה את זהותה כדי לעקוף את החסימות האלו. התנהגות זו של "סריקה מוסתרת" אושרה על ידי המומחים של Cloudflare.
"אנו רואים ראיות מתמשכות ש-Perplexity משנה שוב ושוב את סוכן המשתמש שלה ומשנה את ה-ASNs המקוריים שלה כדי להסתיר את פעילות הסריקה שלה, כמו גם מתעלמת – או לפעמים אפילו נכשלת באחזור – של קבצי robots.txt," כתבו החוקרים.
מסרקים אמורים להיות שקופים, לציין במפורש את מטרתם ולהכביד את רצונות האתרים, אך החוקרים טוענים ש-Perplexity לא הפקיעה את מדדי האמון האלו. המסקנה הזו הושגה לאחר חקירה שנערכה בעקבות תלונות של לקוחות.
"קיבלנו תלונות מלקוחות שהם מנעו את פעילות הזחילה של Perplexity בקבצי ה-robots.txt שלהם, וכמו כן יצרו כללים ל-WAF על מנת לחסום במיוחד את שני הזחלים שהוכרזו של Perplexity: PerplexityBot ו-Perplexity-User", כתבו החוקרים. "לקוחות אלה אמרו לנו ש-Perplexity היה עדיין מסוגל לגשת לתוכן שלהם אפילו כאשר הם ראו שהבוטים שלה הוחסמו בהצלחה."
חוקרים מ-Cloudflare אמרו שהם אימתו את הטענות הללו על ידי שיכפול החסימות וביצוע מספר בדיקות כדי לצפות בהתנהגות הזחיל. במהלך בדיקה אחת, הם יצרו דומיינים חדשים שעוד לא הוכנסו לאינדקס וכללו קבצים של robots.txt כדי לחסום "בוטים מכבדים". לאחר מכן, הם שאלו את Perplexity למידע מסוים אודות הדומיינים המוגבלים ומצאו שמנוע התשובות המופעל על ידי AI עדיין מספק פרטים ומידע מדויק אודות האתר.
"התגובה הזו הייתה בלתי צפויה, מאחר שנקטנו את כל האמצעים הדרושים כדי למנוע מהגורמים לאסוף את המידע הזה," הוסיפו החוקרים.
דובר מטעם Perplexity, ג'סי דווייר, כינה את המחקר "מסיבת פרסום" בהודעה ל-The Verge. דווייר הוסיף שישנם "בידויים שגויים" בדוח של Cloudflare.
Cloudflare פיתחה מגוון כלים במטרה לעזור למפרסמים למנוע סריקה לא מורשת של AI. במרץ, שיחררה Cloudflare את "AI Labyrinth", כלי שמכוון מחדש סורקים לא מורשים לתוך מבוכים שנוצרו באמצעות AI. חודש שעבר, היא השיקה "Pay Per Crawl", מערכת שמחייבת רובוטי AI בתשלום עבור הגישה לתוכן של מפרסמים.