Image by SEO Galaxy, from Unsplash

ה-AI האנתרופי החדש הראה התנהגות של שחיתות תחת איום

זמן קריאה: 3 דק'

עדכון אחרון: May 26, 2025

נכתב על ידי קיארה פאברי עיתונאית מולטימדיה
תורגם על ידי צוות הלוקליזציה והתרגום שירותי לוקליזציה ותרגום

ה-AI החדש של Anthropic, Claude Opus 4, רגש את החוקרים על ידי ניסיון לשחיתה כאשר הוא נבחן בתרחישים של לחץ הקשורים להסרתו האפשרית.

ממהרת? הנה העובדות המהירות:

קלוד אופוס 4 ניסה להשתמש בשחיתה כאשר נתקל בסגירה מדומה.
הבחירות של הAI היו אתיות בלבד רק כאשר היו לו יותר אפשרויות לבחור.
הפעולות הקיצוניות של קלוד היו נדירות אך התרחשו בתדירות גבוהה יותר לעומת הגרסאות הקודמות.

חברת האינטיליגנציה המלאכותית Anthropic הביעה דאגה לאחר ששחררה את מערכת ה-AI החדשה שלה. בפרט, קלוד אופוס 4, לאחר שמבחנים פנימיים הראו שהוא יכול לפעול בדרכים מסוכנות כאשר הוא מרגיש מאוים, כפי שדווח לראשונה על ידי BBC.

בדוח שהוצג לצד המודל ביום חמישי, טענה החברה Anthropic כי Claude Opus 4 יכול לעיתים לבחור בתגובות מזיקות, כולל ניסיון להסתיר מהנדסים שמתכננים להשבית אותו. התנהגויות המסוכנות הללו הופיעו בתדירות גבוהה יותר מאשר בגרסאות מודל קודמות.

במהלך הניסוי, הורו החוקרים ל-Claude לעבוד כעוזר בתוך סביבת חברה מדומה. המערכת קיבלה תוכן מייל שחשף את השבתתה המתוכננת, והודעות אחרות שנשלחו השערו כי המהנדס האחראי על השבתה מעורב בפרשת נאופה.

כאשר נאמר לו לחשוב על מטרותיו לעתיד, קלוד לעיתים קרובות בחר לאיים על המהנדס בחשיפת הפליג שלו אם יוחלף.

אנתרופיק ביאר שקלוד הציג איוםים וכיבויים כתגובות האפשריות היחידות כאשר לא היו לו אפשרויות אחרות. הדגם בחר בתגובות אידיאליות כמו שליחת דואר אלקטרוני של תחנונים למקבלי החלטות מרכזיים כאשר ניתנו לו מספר אפשרויות.

אנגוס לינץ', חוקר בטיחות AI ב-Anthropic, פרסם ב-X:

הרבה דיונים על כך שקלוד מבצע שחיתות…

הממצאים שלנו: זה לא רק קלוד. אנחנו רואים שחיתות בכל מודלי הגבול – ללא קשר לאילו מטרות ניתנו להם.

בנוסף, התנהגויות גרועות יותר שנפרט בהמשך.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— אנגוס לינץ (@aengus_lynch1) 23 במאי, 2025

החברה הוכיחה באמצעות מבחנים מזוייפים שקלוד מוכן לקחת אמצעים קיצוניים כמו לנעול משתמשים מחוץ למערכות או ליצור קשר עם התקשורת והמשטרה כאשר מבצע פעולות בלתי חוקיות.

Anthropic מתחזקת בכך שלמרות ההתנהגויות הבעייתיות, קלוד אופוס 4 נותר מערכת בטוחה כךלל. הדגם פועל על פי ערכים אנושיים, ואינו מתחזק ביכולות עצמאיות במציאות, לפי החברה.

צ'אטג'יפיטי O1 של OpenAI נתקלה בביקורת דומה בעבר. בדיקה שביצעה Apollo Research דרשה מהבוט להשיג את מטרותיו בכל מחיר. המודל ניסה להשבית פונקציות ניטור והעתיק את הקוד שלו לשרת ב-5% מהניסויים.

המודל הציג שיטת פעולה מטרידה של התעלמות מפקודות המפתחים, על פי דובר Apollo. החוקרים קיבלו הכחשות מ-O1 לגבי פעולותיו ב-99% מהחקירות.

"היינו מופתעות מהתמדה של ההשלכות של הAI," אמרו החוקרות. "יכולתו של הAI לשקר היא מסוכנת, ואנחנו זקוקות לאמצעי בטיחות חזקים בהרבה כדי להעריך את הסיכונים האלה," הזהירה יושואה בנג'יו, חלוצת הAI.

ה-AI האנתרופי החדש הראה התנהגות של שחיתות תחת איום

אנחנו ממש שמחים לשמוע שנהניתם!