خانه

هزینه اجرای مدل‌های هوش مصنوعی چرا ناگهان انفجاری شد؟ نقش پنهان DRAM و بازی جدید حافظه در AI

آیلین سرهنگی

29 بهمن 1404

وقتی صحبت از هزینه‌های زیرساخت هوش مصنوعی می‌شود، همه ذهن‌ها سریع می‌رود سمت GPU و نام‌هایی مثل انویدیا. اما واقعیت این است که بازی اصلی کم‌کم دارد به سمت «حافظه» می‌رود؛ جایی که DRAM حالا تبدیل به یکی از گلوگاه‌های مهم AI شده است.

طبق گزارش‌ها، قیمت چیپ‌های DRAM در یک سال گذشته حدود ۷ برابر شده؛ آن هم درست در زمانی که شرکت‌های بزرگ در حال ساخت دیتاسنترهای چند میلیارد دلاری جدید هستند.

این یعنی اجرای مدل‌های AI دیگر فقط یک رقابت پردازشی نیست؛ تبدیل شده به یک بازی مدیریت حافظه.

چرا حافظه این‌قدر مهم شده است؟

در مدل‌های بزرگ زبانی، فقط قدرت پردازش مهم نیست. داده باید در زمان درست، به عامل درست برسد. اگر این هماهنگی درست انجام نشود، هزینه توکن‌ها بالا می‌رود و اجرای مدل به‌صرفه نخواهد بود.

هرچه بتوانید با توکن کمتر همان پاسخ را بگیرید، هزینه inference پایین‌تر می‌آید. و این دقیقاً جایی است که «مدیریت حافظه» وارد بازی می‌شود.

ماجرای کش در Claude چه می‌گوید؟

یک مثال جالب از پیچیده‌تر شدن این موضوع را می‌توان در مستندات کش پرامپت‌های Anthropic دید.

چند ماه پیش، صفحه قیمت‌گذاری کش برای مدل Claude ساده بود:

«از کش استفاده کنید، ارزان‌تر است.»

اما حالا همان صفحه تبدیل شده به یک راهنمای مفصل درباره اینکه:

چند دقیقه کش بخرید؟ ۵ دقیقه یا ۱ ساعت؟
چقدر کش‌نویسی (cache write) پیش‌خرید کنید؟
چطور از تفاوت قیمت cache read و write به نفع خودتان استفاده کنید؟

مسئله این است که اگر داده شما هنوز داخل کش باشد، استفاده از آن بسیار ارزان‌تر است. اما هر داده جدیدی که اضافه می‌کنید ممکن است داده قبلی را از پنجره کش بیرون بیندازد.

مدیریت این تعادل، حالا یک مهارت تخصصی شده است.

DRAM، HBM و معماری دیتاسنتر

در لایه پایین‌تر، دیتاسنترها باید تصمیم بگیرند چه زمانی از DRAM استفاده کنند و چه زمانی از HBM. این تصمیم مستقیم روی سرعت و هزینه تأثیر می‌گذارد.

در لایه بالاتر هم شرکت‌ها در حال یاد گرفتن این هستند که چطور «مدل‌سوارم» یا مجموعه‌ای از ایجنت‌های AI را طوری طراحی کنند که از کش مشترک بیشترین استفاده را ببرند.

به بیان ساده‌تر:

هر چه ارکستراسیون حافظه بهتر باشد، توکن کمتری مصرف می‌شود و هزینه اجرای مدل پایین‌تر می‌آید.

فرصت برای استارتاپ‌ها

چند ماه پیش استارتاپی به نام Tensormesh روی بهینه‌سازی کش کار می‌کرد. این فقط یکی از لایه‌های استک است.

فرصت‌های بزرگ‌تری در بخش‌های دیگر هم وجود دارد:

بهینه‌سازی استفاده از انواع حافظه در دیتاسنتر
ابزارهای مدیریت کش برای توسعه‌دهندگان
طراحی معماری‌های نرم‌افزاری کم‌مصرف‌تر

این حوزه هنوز در ابتدای راه است.

نتیجه نهایی؛ آینده AI ارزان‌تر می‌شود؟

با بهتر شدن مدیریت حافظه و بهینه‌تر شدن مدل‌ها در پردازش هر توکن، هزینه inference کاهش پیدا می‌کند. وقتی هزینه سرورها پایین بیاید، بسیاری از اپلیکیشن‌هایی که امروز اقتصادی نیستند، وارد محدوده سوددهی می‌شوند.

پس شاید سؤال درست این نباشد که «کدام مدل قوی‌تر است؟»

بلکه باید بپرسیم: «کدام شرکت حافظه را هوشمندتر مدیریت می‌کند؟»

در آینده نزدیک، برنده‌های بازار AI احتمالاً آن‌هایی خواهند بود که بازی حافظه را بهتر بلد باشند.

#هوش_مصنوعی #مدیریت_حافظه #دیتاسنتر #مدل_زبانی #هزینه_اینفرنس #زیرساخت

#AIInfrastructure #DRAM #InferenceCost #Claude #Anthropic #CacheOptimizatio #DataCenter

آیلین سرهنگی

متخصص حوزه فناوری با تمرکز بر هوش مصنوعی، یادگیری ماشین و زیرساخت‌های نرم‌افزاری، در تیم فنی یک شرکت فعال در زمینه فناوری‌های نوین فعالیت می‌کنم و تلاش دارم تا با تولید محتوای دقیق، کاربردی و به‌روز، مفاهیم پیچیده‌ی تکنولوژی را به زبان ساده برای همه ارائه کنم.