📌 این تصویر 👆 روند آموزش ChatGPT را با استفاده از یادگیری تقویتی با بازخورد انسانی (RLHF) نشان میدهد. برای اینکه ساده و دقیق متوجه شویم:
---
🔹 مرحله ۱: جمعآوری داده نمایشی (Supervised Fine-Tuning - SFT)
یک پرامپت از دیتاست انتخاب میشود.
یک انسان (labeler) پاسخ درست یا نمونهی مطلوب را تولید میکند.
این داده برای فاینتیون کردن مدل پایه (مثلاً GPT-3.5) با یادگیری نظارتشده استفاده میشود.
🎯 هدف: مدل یاد بگیرد به شکل اولیه درست جواب دهد.
---
🔹 مرحله ۲: جمعآوری داده مقایسهای و آموزش مدل پاداش (Reward Model - RM)
یک پرامپت به مدل داده میشود و چندین خروجی مختلف ایجاد میشوند.
انسان این خروجیها را از بهترین تا بدترین رتبهبندی میکند.
داده رتبهبندی برای آموزش مدل پاداش (Reward Model) استفاده میشود.
🎯 هدف: مدلی ساخته شود که بتواند کیفیت پاسخها را ارزیابی کند.
---
🔹 مرحله ۳: بهینهسازی با الگوریتم PPO (Reinforcement Learning)
پرامپت جدید داده میشود.
مدل (policy) یک خروجی تولید میکند.
مدل پاداش (RM) کیفیت خروجی را محاسبه میکند.
الگوریتم PPO (Proximal Policy Optimization) وزنهای مدل را بهروزرسانی میکند.
🎯 هدف: مدل یاد بگیرد طوری پاسخ دهد که بیشترین پاداش (رضایت کاربر و کیفیت پاسخ) را بگیرد.
---
⚙️ به زبان ساده:
1. اول انسان نمونههای درست به مدل یاد میدهد.
2. بعد انسان خروجیهای مدل را مقایسه و رتبهبندی میکند.
3. در نهایت، مدل با استفاده از بازخورد و الگوریتم تقویتی بهینه میشود.
---
📢 @rss_ai_ir
#یادگیری_عمیق #هوش_مصنوعی #RLHF #ChatGPT #DeepLearning
---
🔹 مرحله ۱: جمعآوری داده نمایشی (Supervised Fine-Tuning - SFT)
یک پرامپت از دیتاست انتخاب میشود.
یک انسان (labeler) پاسخ درست یا نمونهی مطلوب را تولید میکند.
این داده برای فاینتیون کردن مدل پایه (مثلاً GPT-3.5) با یادگیری نظارتشده استفاده میشود.
🎯 هدف: مدل یاد بگیرد به شکل اولیه درست جواب دهد.
---
🔹 مرحله ۲: جمعآوری داده مقایسهای و آموزش مدل پاداش (Reward Model - RM)
یک پرامپت به مدل داده میشود و چندین خروجی مختلف ایجاد میشوند.
انسان این خروجیها را از بهترین تا بدترین رتبهبندی میکند.
داده رتبهبندی برای آموزش مدل پاداش (Reward Model) استفاده میشود.
🎯 هدف: مدلی ساخته شود که بتواند کیفیت پاسخها را ارزیابی کند.
---
🔹 مرحله ۳: بهینهسازی با الگوریتم PPO (Reinforcement Learning)
پرامپت جدید داده میشود.
مدل (policy) یک خروجی تولید میکند.
مدل پاداش (RM) کیفیت خروجی را محاسبه میکند.
الگوریتم PPO (Proximal Policy Optimization) وزنهای مدل را بهروزرسانی میکند.
🎯 هدف: مدل یاد بگیرد طوری پاسخ دهد که بیشترین پاداش (رضایت کاربر و کیفیت پاسخ) را بگیرد.
---
⚙️ به زبان ساده:
1. اول انسان نمونههای درست به مدل یاد میدهد.
2. بعد انسان خروجیهای مدل را مقایسه و رتبهبندی میکند.
3. در نهایت، مدل با استفاده از بازخورد و الگوریتم تقویتی بهینه میشود.
---
📢 @rss_ai_ir
#یادگیری_عمیق #هوش_مصنوعی #RLHF #ChatGPT #DeepLearning
❤6👍6🔥5😁5🎉3👏1
📱 فراتر از رایگان؛ معرفی پلن ۵ دلاری ChatGPT Go
🔹 یک طرح جدید با قیمت پایینتر از نسخههای قبلی ChatGPT معرفی شده: ChatGPT Go که بیسروصدا راهاندازی شده و فعلاً فقط در هند و چند منطقه محدود فعاله.
💰 با پرداخت حدود ۵ دلار (۴۰۰ روپیه هند) در ماه، به GPT-5 دسترسی خواهید داشت؛ پیشرفتهترین مدل ChatGPT. این پلن اجازه میده:
♻️پیامهای بیشتری ارسال کنید
♻️فایلها رو بارگذاری کنید
♻️تصاویر باکیفیتتری بسازید
در واقع ChatGPT Go یک پلن میانرده بین نسخهی رایگان و نسخههای گرانتر Plus/Pro محسوب میشه؛ با هزینهای مناسب، امکانات قابلتوجهی در اختیار کاربر قرار میده.
#ChatGPT #هوش_مصنوعی #GPT5 #اشتراک
@rss_ai_ir
🔹 یک طرح جدید با قیمت پایینتر از نسخههای قبلی ChatGPT معرفی شده: ChatGPT Go که بیسروصدا راهاندازی شده و فعلاً فقط در هند و چند منطقه محدود فعاله.
💰 با پرداخت حدود ۵ دلار (۴۰۰ روپیه هند) در ماه، به GPT-5 دسترسی خواهید داشت؛ پیشرفتهترین مدل ChatGPT. این پلن اجازه میده:
♻️پیامهای بیشتری ارسال کنید
♻️فایلها رو بارگذاری کنید
♻️تصاویر باکیفیتتری بسازید
در واقع ChatGPT Go یک پلن میانرده بین نسخهی رایگان و نسخههای گرانتر Plus/Pro محسوب میشه؛ با هزینهای مناسب، امکانات قابلتوجهی در اختیار کاربر قرار میده.
#ChatGPT #هوش_مصنوعی #GPT5 #اشتراک
@rss_ai_ir
👍12🥰11🎉9🔥8😁7❤6👏5
🔹 در نیمهی نخست سال ۲۰۲۵ دو شرکت OpenAI و Anthropic رشد خیرهکنندهای را تجربه کردند و بهنوعی وارد مرحلهی «ابررشد» شدند.
💰 درآمد سالانه (ARR):
* اوپنایآی از ۶ میلیارد دلار به ۱۲ میلیارد دلار در عرض ۶ ماه رسید.
* آنتروپیک از ۱ میلیارد دلار به ۵ میلیارد دلار در ۷ ماه رشد کرد.
📊 مقایسه درآمدها:
* اوپنایآی در بخش اشتراکها (مصرفکننده و سازمانی) پیشتاز است.
* آنتروپیک در بخش API کمی جلوتر است: ۳.۱ میلیارد دلار در برابر ۲.۹ میلیارد دلار.
* نیمی از درآمد API آنتروپیک تنها از Cursor و GitHub Copilot به دست میآید.
👩💻 شاخصهای استفاده:
* چتجیپیتی روزانه بیش از ۳ میلیارد پیام پردازش میکند (رشد ۴ برابری نسبت به سال گذشته).
* کلودکُد به ۴۰۰ میلیون دلار ARR رسیده و تنها در چند هفته دو برابر شده است.
* بسیاری از دستیارها به طور پیشفرض از Claude 4 Sonnet استفاده میکنند.
⚖️ با این حال اگر جیپیتی-۵ دوباره برتری مطلق پیدا کند، احتمال دارد Cursor و Copilot به سمت اوپنایآی متمایل شوند و این میتواند موازنهی بازار را یکشبه تغییر دهد.
🌐 @rss_ai_ir
#هوش_مصنوعی #OpenAI #Anthropic #ChatGPT #Claude #Cursor #Copilot #GPT5 #بازار
💰 درآمد سالانه (ARR):
* اوپنایآی از ۶ میلیارد دلار به ۱۲ میلیارد دلار در عرض ۶ ماه رسید.
* آنتروپیک از ۱ میلیارد دلار به ۵ میلیارد دلار در ۷ ماه رشد کرد.
📊 مقایسه درآمدها:
* اوپنایآی در بخش اشتراکها (مصرفکننده و سازمانی) پیشتاز است.
* آنتروپیک در بخش API کمی جلوتر است: ۳.۱ میلیارد دلار در برابر ۲.۹ میلیارد دلار.
* نیمی از درآمد API آنتروپیک تنها از Cursor و GitHub Copilot به دست میآید.
👩💻 شاخصهای استفاده:
* چتجیپیتی روزانه بیش از ۳ میلیارد پیام پردازش میکند (رشد ۴ برابری نسبت به سال گذشته).
* کلودکُد به ۴۰۰ میلیون دلار ARR رسیده و تنها در چند هفته دو برابر شده است.
* بسیاری از دستیارها به طور پیشفرض از Claude 4 Sonnet استفاده میکنند.
⚖️ با این حال اگر جیپیتی-۵ دوباره برتری مطلق پیدا کند، احتمال دارد Cursor و Copilot به سمت اوپنایآی متمایل شوند و این میتواند موازنهی بازار را یکشبه تغییر دهد.
🌐 @rss_ai_ir
#هوش_مصنوعی #OpenAI #Anthropic #ChatGPT #Claude #Cursor #Copilot #GPT5 #بازار
🎉31🔥24🥰22😁21❤19👏19👍18