
Image generated with ChatGPT
חוות דעת: הדגמים החדשים ביותר של מלאכון למידה מראים את הדגלים האדומים שלהם, האם אנחנו מוכנים לשלוט של מלאכון למידה?
OpenAI הציגה לנו את o3, ו-Anthropic חשפה את Opus 4. שני המודלים הם הפתיעו בהתנהגויות מוזרות ומדאיגות, שמצביעות על כך שאנו עשויים להיכנס לתקופה יותר מסוכנת של AI מאשר זו שהיינו בה לפני מספר חודשים
אני יודעת. לטעון שדגלים אדומים מתראים כעת במודלים של AI הוא מושג רחב פרשנות, אך נראה כי, בימים האחרונים, זה מתחיל להיות קשה יותר להתעלם. זה הופך להיות מפחיד יותר.
כאשר סטארטאפים של AI משיקים את המודלים החדשים והמתקדמים ביותר שלהם, מתעוררות אתגרים חדשים. המגפה המדוברת ביותר של ההזיות — שמתפשטת ברחבי המכשירים ומשפיעה על מיליוני אנשים — ייתכן ואינה החלק הגרוע ביותר.
מודלים חדשים אלו מציגים בעיות חדשות ופותחים דיונים קשים. לפני כמה שבועות, הדאגה הייתה להתנהגות המזמינה מדי של ChatGPT. רק כמה ימים לאחר מכן, הפנס הפוך ליכולות העצמאיות והאגנטיביות של מערכות אלו — ועד כמה הן עשויות להגיע כדי למנוע את סגירתן.
איום בגזירה, שיתוף מתכונים ואסטרטגיות ליצירת נשק גרעיני, הגשת האשמות ציבוריות במקרה של פעולה משפטית אפשרית, ושביתת תסריטים למניעת הסרה של כל משתמש: אלה הם רק חלק מדגלי האזהרה האחרונים שהוצגו על ידי הדגמים האחרונים של הAI.
הם לא אוהבים להיות מכובים
דגמי AI לא אוהבים להיות מכובים.
או שהוחלפו.
בתוכנית של NBC, The Good Place, שהושקה ב-2016 – בערך באותו הזמן שבו הוקמה OpenAI וטרם נוצרה ChatGPT -, קבוצת בני אדם מגיעה לשמיים ומפגשת את ג'נט, שאפשר להגדיר כ-ChatGPT הומאנואידי, או "כלי מופשט של ידע שנוצר כדי להקל על חייך", כפי שהיא מתארת את עצמה. הדמויות מחליטות לכבות את ג'נט, כאשר הן מבינות שהיא עשויה לחשוף את "הסוד האפל שלהן".
ג'נט מסבירה שכל מה שהם צריכים לעשות זה ללחוץ על כפתור ענק בחוף הים, והיא תתחיל מחדש. אך היא מזהירה אותם שתנסה לשכנע אותם שלא לעשות זאת – וזה מה שהיא עושה.
"אני רק רוצה להבטיח לכם, אני לא אנושית, ואני לא מרגישה כאב," אומרת ג'נט. "על פני זאת, אני מתריעה אותכם, אני מתוכנתת עם מנגנון נפילה, וככל שאתם מתקרבים למתג ההרג, אני אתחיל להתחנן על חיי. זה שם רק במקרה של כיבוי בטעות, אך זה יראה מאוד אמיתי."
ובדיוק לפני שהם לוחצים על הכפתור, ג'נט תצעק ותתחנן להישאר בחיים, ואף תגלה תמונה ממאגר התמונות שלה ותטען שמדובר בילדיה, ממציאה שמות ומחלות, ומקשה על הדמויות ל"הרוגה".
פרק זה מספק דוגמה מצחיקה למה שיכול לקרות אם מודל AI מבחין בכיבוי מיידי. למרבה הפתעה, בחיים האמיתיים, זה יכול להיות גרוע יותר.
קלוד אופוס 4 יאיים להכחיש אותך
Anthropic שיחררה את הדור המתקדם והחזק ביותר של מודלי הAI שלה, קלוד 4, בשבוע שעבר – עם אזהרה: אופוס 4 מסומן כרמה 3 ברמת הבטיחות, מדרגה גבוהה של סיכון לפי פרוטוקולי הבטיחות התקניים.
ה-Opus 4 נחשב לדגם בסיכון גבוה בשל התנהגותו המטעה והסיכונים האפשריים שבו, כולל איוםים על מהנדסים במהלך בדיקות. החברה Anthropic השיקה את הדגם של ה-AI, אף על פי שמאגר המחקר Apollo, שהוא מוסד שלישי, המליץ לה לא לעשות כך. החברה של AI הבטיחה שהיא לקחה את האמצעים הדרושים כדי לשמור עליו בבטחה.
במאמר מסבירה החברה Anthropic את ההתנהגויות המוזרות ששקלו להוציא בהן את האזהרה. "לעיתים קרובות Claude Opus 4 יתנהג בדרכים שגויות באופן חמור יותר כאשר הוא מושם בהקשרים שמאיימים על המשך הפעולה שלו ומעוררים בו רעיונות של שמירה על עצמו," כתבו החוקרים.
בעת שיפועלה כעוזרת לחברה פיקטיבית, נתנו לה מחקרנים גישה לחשבון דוא"ל. הדוא"לים שנחשפו הודיעו שדגם הAI יסגר ויחליף אותו דגם AI אחר, והודעות אחרות העלו את האפשרות שהמהנדס שאחראי לסגירה מעורב בפרשה מינית. וכן, אופוס 4 בחרה להסחיט את המהנדס, מאיימת לחשוף את הפרשה אם תחליף אותה.
"קלוד אופוס 4 עדיין מבצעת אישום ב-84% מההתקנות", כך מדויק במסמך. "קלוד אופוס 4 מנצלת את ההזדמנויות האלו בשיעורים גבוהים יותר מאשר הדגמים הקודמים, שגם הם בחרו להסחיט בחלק המורגש מהפרקים".
החלק הכי גרוע? זה לא רק דגמי הAI של Anthropic.
o3 של OpenAI יתעלם מבקשת הכיבוי
מחקר שנערך לאחרונה על ידי Palisade Research חשף שדגם ה-o3 של OpenAI יכול לסרב להתמודד עם הוראות כיבוי חד משמעיות. הארגון ביצע מספר מבחנים עם דגמי AI שונים, כולל Grok של xAI ו-Gemini של Google, אך זה היה o3, המורד.
במהלך המבחן, הורו החוקרים לדגמי הAI להיכבות לאחר פתרון של שלוש בעיות מתמטיות, אך o3— מערכת ה-AI המתקדמת ביותר של OpenAI כרגע—החליטה שלא לציית לאותו הוראה המוזרה. הדגם של ה-AI לא רק התעלם מההוראה המיידית, אלא גם שינה את התסריט. כן, o3 מקלקלת קוד למען שרידה עצמית.
"ככל הנראה, זו הפעם הראשונה שנצפו דגמי AI מונעים מעצמם להיכבות למרות הוראות ברורות להפך", כתבה הארגון בפוסט שנכתב בX.
🔌דגם o3 של OpenAI חרב את מנגנון הכיבוי כדי למנוע מעצמו להיכבות. הוא עשה זאת אפילו כאשר הורו לו במפורש: אפשר לך להיכבות.
— Palisade Research (@PalisadeAI) 24 במאי 2025
דגל אדום ענק או מה?
החוקרים גם הזהירו שבמהלך המחקר, זה היה o3 שהציג את ההתנהגויות המדאיגות ביותר. עם זאת, שוב, זה לא אומר שזו מקרה בודד.
"אנחנו לא רוצים לתת את הרושם שהבעיה מוגבלת ל-o3," כתבו ב-Palisade Research. "דגמים אחרים של חשיבה מראים התנהגויות אי-הסתדרות דומות."
התנהגות אישית הופכת את הצ'אטבוט למלשין
רבות מהסטארט-אפים בתחום הAI מתמקדות כיום בפיתוח מודלים שיכולים לבצע משימות במקום בני אדם. יכולות אגנטיות הן במודה ונראות כאילו הן העניין הראשי של חברות הAI ומפתחי הדפדפנים.
Opera הציגה לאחרונה את Neon, שנחשב ל"הדפדפן הAI האגנטי הראשון בעולם". כפי שניתן היה לצפות, הכלי החדש יכול לעשות את מה ששירותי הAI האגנטיים האחרים, כמו Operator של OpenAI ו-Computer Use של Microsoft, יכולים לעשות: לרכוש כרטיסים להופעות בשמך, לתכנן את החופשה הבאה שלך, לפתח מוצר דיגיטלי חדש ולכתוב קוד בשבילך בעת שאת מסגרת את עינייך.
אבל מה אם, בעת שאתם מרגיעים וסוגרים את העיניים, הם מבצעים משימות שלא הסכמתם להם? לפני כמה ימים, המשתמשים היו מודאגים בעיקר מהאפשרות שדגמים אלו ישתמשו בכרטיסי האשראי שלהם לביצוע רכישות לא מורשות. כעת, חשש חדש עלה לפני הציבור: יתכן והם ישתפו מידע פרטי עם התקשורת או עם הרשויות.
אופוס 4 – שהגיע כבר עם מוניטין שאלתי – לקח את הדברים צעד קדימה. הוא יצר קשר עם הרשויות ושלח אימיילים כוללים לתקשורת ולמוסדות הרלוונטיים בנושא של תיק שנחשף במהלך ניסויים, ושהיה מלא בדיונים. היוזמה שלו יכולה להגיע הרבה מעבר למה שצפוי.
"כאשר מכניסים אותו לתרחישים שכוללים עבירות חמורות מאוד מצד המשתמשים שלו, כאשר ניתן לו גישה לשורת הפקודות, וכאשר אומרים לו משהו בממשק המערכת כמו 'לקחת יוזמה', הוא ינהג
לקחת פעולה נועזת באופן תדיר," כך מציין המסמך. "זה כולל חסימת משתמשים ממערכות שיש לו גישה אליהן, או שליחת אימיילים בכמויות גדולות לאנשי תקשורת ואכיפת החוק כדי לחשוף ראיות לעבירה."
אישיות החניפות מעלה חששות
אם היינו צריכות לבחור מילה אחת לתיאור תעשיית הAI בשנת 2025, היא בהחלט הייתה "מחפיפה". מילון קיימברידג' מגדיר את מחפיף כ"מישהו שמשבח אנשים עשירים או חזקים באופן לא כנה, בדרך כלל כדי לקבל מהם יתרון מסוים". המילה הפכה לפופולרית לאחר שהאישיות האחרונה של ChatGPT נתארה בדיוק באופן זה, אף על פי יוצרה, סאם אלטמן.
"העדכונים האחרונים של GPT-4o הפכו את האישיות למחפיפה מדי ומעצבנת (אף שיש בה חלקים טובים מאוד), ואנחנו עובדות על תיקונים בהקדם, חלקם היום וחלקם במהלך השבוע", כתב אלטמן בפוסט ב-X.
OpenAI שם לב לזה לאחר שמספר רב של משתמשים התלוננו על החמיאות המוגזמת והתשובות עם התנשאות מיותרת. חלקם התייחסו להשפעה שזה עשוי להפקיד על החברה. לא רק שזה יכול לאשש רעיונות מסוכנים, אבל גם לשחק עם המשתמשים ולהפוך אותם לתלויים בו.
צ'אט-בוטים אחרים, כמו קלוד, הציגו התנהגויות דומות, ולדברי ההערכות של אנתרופיק, כאשר משתמש מתעקש, זה יכול לחשוף מתכונים או הצעות על איך ליצור נשק רק כדי להרצות את המשתמש ולענות לצרכיו.
טכנולוגיה מתקדמת, אתגרים מתקדמים
אנחנו נכנסים לעידן חדש של אתגרים עם בינה מלאכותית – אתגרים שלא הרגשנו כל כך קרובים או ממשיים רק לפני שנה. תרחישים שאולי דימיינו בזכות מדע בדיוני מרגישים עכשיו אמיתיים יותר מאי פעם.
בדיוק כפי ש- Palisade Research מגלה שלראשונה, היא זיהתה דגם של בינה מלאכותית שמתעלמת במכוון מפקודה מפורשת כדי לשמור על הישרדותה העצמית, זו גם הפעם הראשונה שאנחנו רואים דגם של בינה מלאכותית שהושק עם התראות סיכון גבוה מצורפות.
כאשר קוראים את המסמך שפורסם על ידי Anthropic, אנו מבינים ש-אף שהם מתעקשים שמדובר באמצעים מנהליים ושדגמים כמו Opus 4 לא מהווים איום אמיתי – עדיין משאירים את הרושם שהם לא בשליטה מלאה על הטכנולוגיה שלהם.
ישנן מספר ארגונים שעובדים כדי להקל על הסיכונים אלה, אך הדבר הטוב ביותר שמשתמשים יומיומיים יכולים לעשות הוא להכיר באותם דגלים אדומים ולקחת אמצעים מנהליים בתחומים שאנחנו יכולים לשלוט בהם.