تقنية SOLiD لمراقبة الكذب في الذكاء الاصطناعي

تقنية SOLiD لمراقبة الكذب في الذكاء الاصطناعي

تتناول الورقة تقنية جديدة تُسمى SOLiD لرصد الكذب في نماذج اللغة الكبيرة باستخدام كواشف كذب قابلة للتوسع ضمن تعلم التفضيلات.

AI

ملخص الذكاء الاصطناعي

  • تتناول الورقة تقنية جديدة تُسمى SOLiD لرصد الكذب في نماذج اللغة الكبيرة باستخدام كواشف كذب قابلة للتوسع ضمن تعلم التفضيلات.
  • تحسين موثوقية النماذج عبر كشف الاستجابات المضللة تلقائيًا
  • arXiv:2607.01567v1 Announce Type: new Abstract: Deceptive behavior in LLMs is costly to monitor and prevent, motivating approaches such as Scalable Oversight via Lie Detectors (SOLiD) (Cundy & Gleave, 2025), which uses lie detectors to identify responses for review by high-cost labelers. In this paper, we scale SOLiD to larger models and evaluate it in more diverse and realistic preference-learning settings. We find favorable scaling: undetected deception drops from 34% for 1B-parameter models to 14% for 405B-parameter models at a detector true positive rate of 99%, and expensive human labelers can be removed entirely from the fine-tuning phase without a statistically significant increase in deception. However, SOLiD is sensitive to distribution shift between detector training and preference-training data, which can drive detector false positive rates to impractical levels.

arXiv:2607.01567v1 Announce Type: new Abstract: Deceptive behavior in LLMs is costly to monitor and prevent, motivating approaches such as Scalable Oversight via Lie Detectors (SOLiD) (Cundy & Gleave, 2025), which uses lie detectors to identify responses for review by high-cost labelers. In this paper, we scale SOLiD to larger models and evaluate it in more diverse and realistic preference-learning settings.

We find favorable scaling: undetected deception drops from 34% for 1B-parameter models to 14% for 405B-parameter models at a detector true positive rate of 99%, and expensive human labelers can be removed entirely from the fine-tuning phase without a statistically significant increase in deception. However, SOLiD is sensitive to distribution shift between detector training and preference-training data, which can drive detector false positive rates to impractical levels.

اقرأ أيضا

سباق الذكاء الاصطناعي يُهدد الأهداف المناخية الذكاء الاصطناعي

سباق الذكاء الاصطناعي يُهدد الأهداف المناخية

أدى سباق تطوير الذكاء الاصطناعي لدى جوجل وأمازون إلى ارتفاع حاد في انبعاثات الغازات الدفيئة، مما يُضعف التزاماتهما المناخية.

Hawk: توليد نوى NPUs ذكية بالاعتماد على العتاد الذكاء الاصطناعي

Hawk: توليد نوى NPUs ذكية بالاعتماد على العتاد

يقدّم بحث «Hawk» إطار عمل جديد لتوليد نوى عالية الأداء لوحدات معالجة الشبكات العصبية (NPUs) عبر الاستفادة من المعرفة المُدمجة بالعتاد.

نظام EO-Agents لتوليد الفرضيات العلمية من بيانات رصد الأرض الذكاء الاصطناعي

نظام EO-Agents لتوليد الفرضيات العلمية من بيانات رصد الأرض

يقدم البحث نظام EO-Agents المكوّن من ثلاثة وكلاء لغويين كبيرين لتوليد فرضيات علمية في مجال رصد الأرض باستخدام بيانات مرئية وبنية مُنظمة بدلًا من النصوص غير المنظمة فقط.