مایکروسافت مدل هوش مصنوعی سبک و کارآمدی معرفی کرد که روی CPU اجرا میشود

جدیدترین مدل هوش مصنوعی مایکروسافت برای اجراشدن به GPU نیاز ندارد.
به ادعای پژوهشگران مایکروسافت، آنها بزرگترین مدل هوش مصنوعی یکبیتی را توسعه دادهاند که بهعنوان BitNet شناخته میشود. این مدل با نام BitNet b1.58 2B4T و تحت مجوز MIT بهصورت آزادانه در دسترس است. مدل مذکور میتواند روی CPU (پردازندههای مرکزی)، ازجمله پردازندهی M2 اپل، اجرا شود.
بیتنتها درواقع مدلهای فشردهای هستند که برای اجرای کارآمد روی سختافزارهای سبک طراحی شدهاند. در مدلهای استاندارد، مقادیر وزن که ساختار داخلی مدل را تعیین میکنند، معمولاً بهگونهای کوانتیزاسیون (کمیسازی) میشوند تا عملکرد بهتری روی مجموعهی گستردهای از ماشینها داشته باشند.
بیتنتها وزنها را به سه مقدار ۱- و ۰ و ۱ کمیسازی میکنند تا در مقایسه با مدلهای هوش مصنوعی موجود، کارآیی بیشتری داشته باشند. پژوهشگران مایکروسافت میگویند که BitNet b1.58 2B4T اولین بیتنت با ۲ میلیارد پارامتر (وزن) است. این مدل روی مجموعهای شامل ۴ تریلیون توکن، معادل تقریباً ۳۳ میلیون کتاب، آموزش داده شده میشود.
بیتنت b1.58 2B4T نمیتواند بهطور کامل رقبای خود با ۲ میلیارد پارامتر را پشتسر بگذارد؛ اما به نظر میرسد که بهخوبی با آنها رقابت میکند. براساس آزمایشهای انجامشده، مدل گفتهشده در مقایسه با مدلهای Llama 3.2 1B و Gemma 31B و Qwen 2.5 1.5B در معیارهایی مثل GSM8K (مجموعهای از مسائل ریاضی سطح مدرسه) و PIQA (آزمایش مهارتهای استدلال فیزیکی و عمومی) بهتر عمل میکند.
بیتنت b1.58 2B4T از مدلهای دیگر همسایز خود تا دو برابر سرعت بیشتری دارد؛ ولی چنین امری به چهارچوب سفارشی bitnet.cpp مایکروسافت نیاز دارد که فقط با سختافزارهای معینی کار میکند. پردازندههای گرافیکی یا همان GPU در فهرست موارد پشتیبانیشده نیستند.