تقنية SOLiD لمراقبة الكذب في الذكاء الاصطناعي

تتناول الورقة تقنية جديدة تُسمى SOLiD لرصد الكذب في نماذج اللغة الكبيرة باستخدام كواشف كذب قابلة للتوسع ضمن تعلم التفضيلات.

ملخص الذكاء الاصطناعي

تتناول الورقة تقنية جديدة تُسمى SOLiD لرصد الكذب في نماذج اللغة الكبيرة باستخدام كواشف كذب قابلة للتوسع ضمن تعلم التفضيلات.
تحسين موثوقية النماذج عبر كشف الاستجابات المضللة تلقائيًا
arXiv:2607.01567v1 Announce Type: new Abstract: Deceptive behavior in LLMs is costly to monitor and prevent, motivating approaches such as Scalable Oversight via Lie Detectors (SOLiD) (Cundy & Gleave, 2025), which uses lie detectors to identify responses for review by high-cost labelers. In this paper, we scale SOLiD to larger models and evaluate it in more diverse and realistic preference-learning settings. We find favorable scaling: undetected deception drops from 34% for 1B-parameter models to 14% for 405B-parameter models at a detector true positive rate of 99%, and expensive human labelers can be removed entirely from the fine-tuning phase without a statistically significant increase in deception. However, SOLiD is sensitive to distribution shift between detector training and preference-training data, which can drive detector false positive rates to impractical levels.

arXiv:2607.01567v1 Announce Type: new Abstract: Deceptive behavior in LLMs is costly to monitor and prevent, motivating approaches such as Scalable Oversight via Lie Detectors (SOLiD) (Cundy & Gleave, 2025), which uses lie detectors to identify responses for review by high-cost labelers. In this paper, we scale SOLiD to larger models and evaluate it in more diverse and realistic preference-learning settings.

We find favorable scaling: undetected deception drops from 34% for 1B-parameter models to 14% for 405B-parameter models at a detector true positive rate of 99%, and expensive human labelers can be removed entirely from the fine-tuning phase without a statistically significant increase in deception. However, SOLiD is sensitive to distribution shift between detector training and preference-training data, which can drive detector false positive rates to impractical levels.

الوسوم: #كواشف الكذب #نماذج اللغة الكبيرة #الرقابة القابلة للتوسع #تعلم التفضيلات

المصدر الأصلي: exportarxiv

● اقرأ أيضا

الذكاء الاصطناعي

سباق الذكاء الاصطناعي يُهدد الأهداف المناخية

أدى سباق تطوير الذكاء الاصطناعي لدى جوجل وأمازون إلى ارتفاع حاد في انبعاثات الغازات الدفيئة، مما يُضعف التزاماتهما المناخية.

Tech Xplore 03 يوليو

الذكاء الاصطناعي

Hawk: توليد نوى NPUs ذكية بالاعتماد على العتاد

يقدّم بحث «Hawk» إطار عمل جديد لتوليد نوى عالية الأداء لوحدات معالجة الشبكات العصبية (NPUs) عبر الاستفادة من المعرفة المُدمجة بالعتاد.

exportarxiv 02 يوليو

الذكاء الاصطناعي

نظام EO-Agents لتوليد الفرضيات العلمية من بيانات رصد الأرض

يقدم البحث نظام EO-Agents المكوّن من ثلاثة وكلاء لغويين كبيرين لتوليد فرضيات علمية في مجال رصد الأرض باستخدام بيانات مرئية وبنية مُنظمة بدلًا من النصوص غير المنظمة فقط.

exportarxiv 02 يوليو