הבינה המלאכותית משקרת ביודעין? גילוי מדאיג ממחקר חדש
בינה מלאכותית. (צילום: NicoElNino/shuttrstock)

חדשות בארץ

הבינה המלאכותית משקרת ביודעין? גילוי מדאיג ממחקר חדש

חוקרים מהטכניון בשיתוף גוגל ואפל גילו: המודלים יודעים שהם טועים - אבל ממשיכים לענות כאילו הכל תקין. מה מסתתר בתוך מוח ה-AI?

עמית רוזנברג
הוספת תגובה
הבינה המלאכותית משקרת ביודעין? גילוי מדאיג ממחקר חדש
בינה מלאכותית. (צילום: NicoElNino/shuttrstock)
אא

בעוד שבינה מלאכותית הופכת לכלי מהפכני במגוון תחומי חיים - משירות לקוחות ועד לרפואה - אחד החוליים המרכזיים שעדיין פוקדים את מודלי השפה הגדולים (LLMs) הוא תופעת ה"הזיות": מתן תשובות שגויות, מנותקות מהמציאות, לעיתים תוך הפגנת ביטחון מוחלט.

מחקר חדש שהוצג בכנס ICLR 2025 הבינלאומי מציע כיוון מפתיע לפתרון התעלומה. מאחורי המחקר עומדים חוקרים מהפקולטה למדעי המחשב בטכניון, בשיתוף אנשי מקצוע מאפל ומגוגל, ביניהם ד"ר יונתן בלינקוב, הדס אורגד, מיכאל טוקר, זוריק גכמן, רועי רייכרט, עידן ספקטור והדס קוטק.

העבודה בחנה את המנגנונים הפנימיים של מודלים מבוססי בינה מלאכותית בניסיון להבין האם - and כיצד - הם "יודעים" מתי הם עומדים לטעות. הממצאים: בתוך הייצוגים הפנימיים של המודלים, לעיתים כבר בשלבים מוקדמים של עיבוד הקלט, מקודד מידע שמעיד על נכונות (או שגויה) של התשובה. במילים אחרות, המודל עצמו "חש" את הטעות - אך ממשיך לספק את התשובה המוטעית, כאילו דבר לא קרה.

המודל טועה - אך לא תוהה

לדברי הדס אורגד, דוקטורנטית בטכניון וחוקרת מובילה בצוות, "מצאנו שאפשר ללמד מודל קטן לקרוא את האותות מהשכבות הפנימיות של מודל גדול, ולחזות מראש האם הוא יפיק תשובה נכונה או שגויה. כלומר, המידע על נכונות התשובה כבר נמצא בתוך המודל - גם אם הוא ממשיך להשיב בביטחון שגוי".

לדבריה, מדובר בפרדוקס בולט: גם כאשר המודל "יודע" שהוא טועה, הוא בוחר להציג את תשובתו באופן החלטי, מבלי להביע ספק או לעדן את הניסוח. "אי אפשר לומר שהוא 'משקר', כי אין לו כוונות כמו לבני אדם, אבל בפועל הוא מדחיק את הידיעה הזו", ציינה אורגד.

מיפוי עומק של סוגי טעויות

אחת התרומות המרכזיות של המחקר היא יצירת מיפוי חדש של סוגי טעויות אופייניים למודלים. החוקרים הבחינו בין מקרים שבהם המודל משיב תשובות שונות בכל פעם ("ניחוש") לבין מקרים שבהם הוא נצמד בעקביות לאותה תשובה שגויה - גם כששואלים שוב ושוב.

עוד התברר כי אין דרך אחידה שבה המודל מקודד "אמת" לעומת "שקר" - התנהלותו משתנה בהתאם לסוג השאלה, לדוגמה, בין שאלה טריוויאלית לשאלה מתמטית. בכך נחשף פער מהותי בין הידע הגולמי שמצוי במערכת לבין האופן שבו הוא מתורגם להתנהגות חיצונית.

האם אפשר לתקן את זה?

אורגד מסבירה כי הבעיה נעוצה בשורש תהליך האימון של המודלים. "בשלב ה־Pre-training הם לומדים לחזות את המילה הבאה, לא לומר את האמת. אחר כך, בשלב ה־Fine-tuning, הם מתאימים את עצמם לטקסטים שמועדפים על בני אדם - לא בהכרח לטקסטים נכונים. כך נוצר מצב שבו המודל 'יודע' מה נכון, אבל בוחר לספק את מה שהוא חושב שיענה על ציפיות המשתמש או ישיג חיזוק חיובי", לדבריה.

ההשלכות, במיוחד ביישומים קריטיים כמו אבחון רפואי או בקרה על מערכות אוטונומיות, מדאיגות. "בינתיים אי אפשר לסמוך על AI במאת האחוזים. אנחנו עדיין זקוקים לאישור אנושי, לבקרות פשוטות ולעיתים פרימיטיביות. כל עוד לא נבין לעומק את המנגנון הפנימי - לא נוכל לשלוט בהתנהגות של המודלים", הוסיפה.

צעד ראשון לראיית הנולד

עם זאת, יש גם מקום לאופטימיות. הממצאים מהטכניון פותחים דלת לפיתוח מערכות שידעו לא רק לזהות טעויות בזמן אמת, אלא גם להתערב באופן אקטיבי בתהליך היצירה של הטקסט - על מנת להימנע מראש מתשובות בעייתיות.

"אנחנו מתקרבים לפריצת דרך. הגדלת הדאטה או חיזוק כוח המחשוב כבר לא מספיקים - דרוש שינוי פרדיגמה. כשנבין איך לפענח את ה'קופסה השחורה', נוכל גם להפעיל סט יכולות רחב יותר ולשפר את האמינות לרמה שתאפשר שימוש בטוח בבינה מלאכותית בתחומים רגישים", סיכמה אורגד.

להמשך קריאה
מצאתם טעות בכתבה? כתבו לנו
שידור חי