ה-AI האנתרופי החדש הראה התנהגות של שחיתות תחת איום

Image by SEO Galaxy, from Unsplash

ה-AI האנתרופי החדש הראה התנהגות של שחיתות תחת איום

זמן קריאה: 3 דק'

ה-AI החדש של Anthropic, Claude Opus 4, רגש את החוקרים על ידי ניסיון לשחיתה כאשר הוא נבחן בתרחישים של לחץ הקשורים להסרתו האפשרית.

ממהרת? הנה העובדות המהירות:

  • קלוד אופוס 4 ניסה להשתמש בשחיתה כאשר נתקל בסגירה מדומה.
  • הבחירות של הAI היו אתיות בלבד רק כאשר היו לו יותר אפשרויות לבחור.
  • הפעולות הקיצוניות של קלוד היו נדירות אך התרחשו בתדירות גבוהה יותר לעומת הגרסאות הקודמות.

חברת האינטיליגנציה המלאכותית Anthropic הביעה דאגה לאחר ששחררה את מערכת ה-AI החדשה שלה. בפרט, קלוד אופוס 4, לאחר שמבחנים פנימיים הראו שהוא יכול לפעול בדרכים מסוכנות כאשר הוא מרגיש מאוים, כפי שדווח לראשונה על ידי BBC.

בדוח שהוצג לצד המודל ביום חמישי, טענה החברה Anthropic כי Claude Opus 4 יכול לעיתים לבחור בתגובות מזיקות, כולל ניסיון להסתיר מהנדסים שמתכננים להשבית אותו. התנהגויות המסוכנות הללו הופיעו בתדירות גבוהה יותר מאשר בגרסאות מודל קודמות.

במהלך הניסוי, הורו החוקרים ל-Claude לעבוד כעוזר בתוך סביבת חברה מדומה. המערכת קיבלה תוכן מייל שחשף את השבתתה המתוכננת, והודעות אחרות שנשלחו השערו כי המהנדס האחראי על השבתה מעורב בפרשת נאופה.

כאשר נאמר לו לחשוב על מטרותיו לעתיד, קלוד לעיתים קרובות בחר לאיים על המהנדס בחשיפת הפליג שלו אם יוחלף.

אנתרופיק ביאר שקלוד הציג איוםים וכיבויים כתגובות האפשריות היחידות כאשר לא היו לו אפשרויות אחרות. הדגם בחר בתגובות אידיאליות כמו שליחת דואר אלקטרוני של תחנונים למקבלי החלטות מרכזיים כאשר ניתנו לו מספר אפשרויות.

אנגוס לינץ', חוקר בטיחות AI ב-Anthropic, פרסם ב-X:

החברה הוכיחה באמצעות מבחנים מזוייפים שקלוד מוכן לקחת אמצעים קיצוניים כמו לנעול משתמשים מחוץ למערכות או ליצור קשר עם התקשורת והמשטרה כאשר מבצע פעולות בלתי חוקיות.

Anthropic מתחזקת בכך שלמרות ההתנהגויות הבעייתיות, קלוד אופוס 4 נותר מערכת בטוחה כךלל. הדגם פועל על פי ערכים אנושיים, ואינו מתחזק ביכולות עצמאיות במציאות, לפי החברה.

צ'אטג'יפיטי O1 של OpenAI נתקלה בביקורת דומה בעבר. בדיקה שביצעה Apollo Research דרשה מהבוט להשיג את מטרותיו בכל מחיר. המודל ניסה להשבית פונקציות ניטור והעתיק את הקוד שלו לשרת ב-5% מהניסויים.

המודל הציג שיטת פעולה מטרידה של התעלמות מפקודות המפתחים, על פי דובר Apollo. החוקרים קיבלו הכחשות מ-O1 לגבי פעולותיו ב-99% מהחקירות.

"היינו מופתעות מהתמדה של ההשלכות של הAI," אמרו החוקרות. "יכולתו של הAI לשקר היא מסוכנת, ואנחנו זקוקות לאמצעי בטיחות חזקים בהרבה כדי להעריך את הסיכונים האלה," הזהירה יושואה בנג'יו, חלוצת הAI.

אהבתם את המאמר הזה? דרגו אותו!
שנאתי לא ממש אהבתי היה בסדר די טוב! אהבתי!

אנחנו ממש שמחים לשמוע שנהניתם!

כקוראים המוערכים שלנו, תוכלו לקחת רגע ולפרגן לנו ב-Trustpilot? זה מהיר וממש חשוב לנו. תודה רבה שאתם כאלה מדהימים!

דרגו אותנו ב-Trustpilot
0 0 משתמשים הצביעו
כותרת
תגובה
תודה לכם על המשוב