مقاله

مایکروسافت مدل هوش مصنوعی سبک و کارآمدی معرفی کرد که روی CPU اجرا می‌شود

مایکروسافت مدل هوش مصنوعی سبک و کارآمدی معرفی کرد که روی CPU اجرا می‌شود
جدیدترین مدل هوش مصنوعی مایکروسافت برای اجراشدن به GPU نیاز ندارد.

به ادعای پژوهشگران مایکروسافت، آن‌ها بزرگ‌ترین مدل هوش مصنوعی یک‌بیتی را توسعه داده‌اند که به‌عنوان BitNet شناخته می‌شود. این مدل با نام BitNet b1.58 2B4T و تحت مجوز MIT به‌صورت آزادانه در دسترس است. مدل مذکور می‌تواند روی CPU (پردازنده‌های مرکزی)، ازجمله پردازنده‌ی M2 اپل، اجرا شود.

بیت‌نت‌ها درواقع مدل‌های فشرده‌ای هستند که برای اجرای کارآمد روی سخت‌افزارهای سبک طراحی شده‌اند. در مدل‌های استاندارد، مقادیر وزن که ساختار داخلی مدل را تعیین می‌کنند، معمولاً به‌گونه‌ای کوانتیزاسیون (کمی‌سازی) می‌شوند تا عملکرد بهتری روی مجموعه‌ی گسترده‌ای از ماشین‌ها داشته باشند.

بیت‌نت‌ها وزن‌ها را به سه مقدار ۱- و ۰ و ۱ کمی‌سازی می‌کنند تا در مقایسه با مدل‌های هوش مصنوعی موجود، کارآیی بیشتری داشته باشند. پژوهشگران مایکروسافت می‌گویند که BitNet b1.58 2B4T اولین بیت‌نت با ۲ میلیارد پارامتر (وزن) است. این مدل روی مجموعه‌ای شامل ۴ تریلیون توکن، معادل تقریباً ۳۳ میلیون کتاب، آموزش داده شده می‌شود.

بیت‌نت b1.58 2B4T نمی‌تواند به‌طور کامل رقبای خود با ۲ میلیارد پارامتر را پشت‌سر بگذارد؛ اما به نظر می‌رسد که به‌خوبی با آن‌ها رقابت می‌کند. براساس آزمایش‌های انجام‌شده، مدل گفته‌شده در مقایسه با مدل‌های Llama 3.2 1B و Gemma 31B و Qwen 2.5 1.5B در معیارهایی مثل GSM8K (مجموعه‌ای از مسائل ریاضی سطح مدرسه) و PIQA (آزمایش مهارت‌های استدلال فیزیکی و عمومی) بهتر عمل می‌کند.

بیت‌نت b1.58 2B4T از مدل‌های دیگر هم‌سایز خود تا دو برابر سرعت بیشتری دارد؛ ولی چنین امری به چهارچوب سفارشی bitnet.cpp مایکروسافت نیاز دارد که فقط با سخت‌افزار‌های معینی کار می‌کند. پردازنده‌‌های گرافیکی یا همان GPU در فهرست موارد پشتیبانی‌شده نیستند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *