ابزار جدید OpenAI سعی می کند رفتارهای مدل های زبانی را توضیح دهد

اغلب گفته می‌شود که مدل‌های زبان بزرگ (LLM) در امتداد خطوط ChatGPT OpenAI یک جعبه سیاه هستند و مطمئناً حقیقتی در آن وجود دارد. حتی برای دانشمندان داده، دشوار است که بدانند چرا، همیشه، یک مدل به روشی که انجام می دهد، مانند اختراع حقایق از روی پارچه، پاسخ می دهد.

در تلاشی برای جدا کردن لایه‌های LLM، OpenAI در حال توسعه ابزاری برای شناسایی خودکار بخش‌های یک LLM است که مسئول کدام یک از رفتارهای آن است. مهندسان پشت آن تاکید می کنند که در مراحل اولیه است، اما کد اجرای آن از امروز صبح به صورت متن باز در GitHub در دسترس است.

ویلیام ساندرز، مدیر تیم تفسیرپذیری OpenAI در یک مصاحبه تلفنی به TechCrunch گفت: «ما در تلاش هستیم تا [راه‌هایی برای] پیش‌بینی مشکلات سیستم هوش مصنوعی ایجاد کنیم. ما می‌خواهیم واقعاً بتوانیم بدانیم که می‌توانیم به کاری که مدل انجام می‌دهد و پاسخی که تولید می‌کند اعتماد کنیم.»

برای این منظور، ابزار OpenAI از یک مدل زبان (به طعنه) استفاده می‌کند تا عملکرد اجزای دیگر LLM‌های ساده‌تر از لحاظ معماری – به‌ویژه GPT-2 خود OpenAI را مشخص کند.

چگونه؟ ابتدا یک توضیح سریع در مورد LLM برای پس زمینه. مانند مغز، آنها از «نورون‌ها» تشکیل شده‌اند، که الگوی خاصی را در متن مشاهده می‌کنند تا بر آنچه مدل کلی «می‌گوید» بعد تأثیر بگذارد. به عنوان مثال، با توجه به درخواستی در مورد ابرقهرمانان (مثلاً «کدام ابرقهرمان‌ها دارای ابرقدرت‌های مفید هستند؟»)، یک «نرون ابرقهرمانی مارول» ممکن است احتمال نام‌گذاری ابرقهرمان‌های خاص فیلم‌های مارول را افزایش دهد.

ابزار OpenAI از این راه‌اندازی برای تجزیه مدل‌ها به تکه‌های جداگانه آن‌ها استفاده می‌کند. ابتدا، این ابزار توالی‌های متنی را در مدل مورد ارزیابی اجرا می‌کند و منتظر مواردی می‌ماند که یک نورون خاص مکرراً «فعال می‌شود». در مرحله بعد، GPT-4، آخرین مدل هوش مصنوعی تولید متن OpenAI، این نورون‌های بسیار فعال را نشان می‌دهد و GPT-4 را توضیح می‌دهد. برای تعیین دقیق بودن توضیح، این ابزار GPT-4 را با دنباله‌های متنی ارائه می‌کند و از آن می‌خواهد نحوه رفتار نورون را پیش‌بینی یا شبیه‌سازی کند. سپس رفتار نورون شبیه سازی شده را با رفتار نورون واقعی مقایسه می کند.

جف وو، سرپرست تیم تحقیق، می‌گوید: «با استفاده از این روش، اساساً می‌توانیم برای هر نورون، نوعی توضیح اولیه زبان طبیعی برای کاری که انجام می‌دهد و همچنین امتیازی برای اینکه چقدر این توضیح با رفتار واقعی مطابقت دارد، داشته باشیم. تیم تراز مقیاس پذیر در OpenAI گفت. ما از GPT-4 به عنوان بخشی از فرآیند برای ارائه توضیحاتی در مورد آنچه که یک نورون به دنبال آن است استفاده می کنیم و سپس ارزیابی می کنیم که چقدر این توضیحات با واقعیت کاری که انجام می دهد مطابقت دارد.

محققان توانستند توضیحاتی را برای تمام 307200 نورون در GPT-2 ایجاد کنند که در مجموعه داده‌ای که در کنار کد ابزار منتشر شده است، گردآوری کردند.

به گفته محققان، ابزارهایی مانند این می توانند روزی برای بهبود عملکرد یک LLM مورد استفاده قرار گیرند – به عنوان مثال برای کاهش سوگیری یا سمیت. اما آنها اذعان می‌کنند که راه درازی در پیش است تا اینکه واقعاً مفید باشد. این ابزار در توضیحات خود برای حدود 1000 نورون، کسری کوچک از کل، مطمئن بود.

یک فرد بدبین نیز ممکن است استدلال کند که این ابزار اساساً یک تبلیغ برای GPT-4 است، با توجه به اینکه برای کار کردن به GPT-4 نیاز دارد. سایر ابزارهای تفسیرپذیر LLM کمتر به APIهای تجاری وابسته هستند، مانند DeepMind’s Tracr، کامپایلری که برنامه ها را به مدل های شبکه عصبی ترجمه می کند.

وو گفت که اینطور نیست – این واقعیت که ابزار از GPT-4 استفاده می کند صرفاً “تصادفی” است – و برعکس، ضعف های GPT-4 را در این زمینه نشان می دهد. او همچنین گفت که این برنامه با برنامه های تجاری در ذهن ایجاد نشده است و از نظر تئوری، می تواند برای استفاده از LLM ها در کنار GPT-4 سازگار شود.

وو گفت: “بیشتر توضیحات نمره بسیار ضعیفی دارند یا آنقدر از رفتار نورون واقعی را توضیح نمی دهند.” برای مثال، بسیاری از نورون‌ها به‌گونه‌ای فعال هستند که تشخیص آن‌چه در حال وقوع است بسیار سخت است – مثل اینکه روی پنج یا شش چیز مختلف فعال می‌شوند، اما هیچ الگوی قابل تشخیصی وجود ندارد. گاهی اوقات یک الگوی قابل تشخیص وجود دارد، اما GPT-4 قادر به یافتن آن نیست.

این به معنای مدل‌های پیچیده‌تر، جدیدتر و بزرگ‌تر یا مدل‌هایی است که می‌توانند وب را برای کسب اطلاعات مرور کنند. اما در مورد دوم، وو معتقد است که مرور وب مکانیسم های اساسی ابزار را تغییر زیادی نمی دهد. او می‌گوید که می‌توان آن را به سادگی تغییر داد تا بفهمیم چرا نورون‌ها تصمیم می‌گیرند که جستجوهای خاصی را در موتورهای جستجو ایجاد کنند یا به وب‌سایت‌های خاصی دسترسی پیدا کنند.

وو گفت: “ما امیدواریم که این مسیر امیدوارکننده ای را برای پرداختن به تفسیرپذیری به روشی خودکار باز کند که دیگران بتوانند روی آن کار کنند و در آن مشارکت کنند.” «امید این است که ما واقعاً نه تنها توضیح خوبی در مورد اینکه نورون‌ها به چه چیزی پاسخ می‌دهند، بلکه در کل، رفتار این مدل‌ها – چه نوع مدارهایی را محاسبه می‌کنند و چگونه نورون‌های خاصی بر روی دیگر نورون‌ها تأثیر می‌گذارند، داشته باشیم.»