مقاله خوبی که اخیرا منتشر شده اومدن شیواه کارایی LLM ها بررسی کردند که عمدتاً چه مسائلی را حل می کنند در مدلهای LLM ها مسیرهای استدلالی متعددی را در نظر میگیرند که بهترین پاسخ برای کامنت یوزر باشد که تصمیم گیری در مورد اقدامات بعدی، انتخاب ها را خود ارزیابی میکند. در این این مدل بررسی کردند که چگونه میتواند خودش را بهبود دهد.
و کلی ایده جذابی که میتوانید بدست اورید.
▪️ Tree of Thoughts: LLMs Deliberately Solving Problems
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
و کلی ایده جذابی که میتوانید بدست اورید.
▪️ Tree of Thoughts: LLMs Deliberately Solving Problems
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍2❤1
DeepMind AI Expert
مقاله خوبی که اخیرا منتشر شده اومدن شیواه کارایی LLM ها بررسی کردند که عمدتاً چه مسائلی را حل می کنند در مدلهای LLM ها مسیرهای استدلالی متعددی را در نظر میگیرند که بهترین پاسخ برای کامنت یوزر باشد که تصمیم گیری در مورد اقدامات بعدی، انتخاب ها را خود ارزیابی…
پیرو ادامه این مقاله
▪️ Finetuning LLMs Efficiently with Adapters
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
▪️ Finetuning LLMs Efficiently with Adapters
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
منابعی برای علاقمندان به تایم سریها و هوش مصنوعی در موضوعات مالی
▪️ Deep Time-Series Learning and Finance Applications fall 2017, by Francois Belletti
#هوش_مصنوعی #منابع #فیلم #کلاس_آموزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
▪️ Deep Time-Series Learning and Finance Applications fall 2017, by Francois Belletti
#هوش_مصنوعی #منابع #فیلم #کلاس_آموزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
پادکست دکتر وحید بهزادان در رابطه با AI Safety in AGI بسیار شنیدنی است.
https://dataskeptic.com/blog/episodes/2023/a-psychopathological-approach-to-safety-in-agi
#پادکست
https://dataskeptic.com/blog/episodes/2023/a-psychopathological-approach-to-safety-in-agi
#پادکست
👍5
موقعیت کارآموزی در حوزه NLP
برنامه تحقیقات تابستانی دانشگاه کوچ به دانشجویان و علاقهمندان این فرصت را میدهد تا در کنار کسب تجربه تحقیقاتی خود را برای تحصیلات تکمیلی یا کار در حرفه مدنظر آماده کنند. با توجه به این برنامه گروه NLP دانشکده مهندسی کامپیوتر به سرپرستی Dr.Gözde Gül Sahin تصمیم دارد از علاقهمندان در زمینه پردازش زبان طبیعی دعوت به عمل آورد. دو پروژه در این زمینه وجود دارد که در صورت دعوت به مصاحبه برای داوطلبین تشریح میشوند.
از علاقهمندان درخواست میشود تا رزومه خود را به همراه چند نمونه کد پروژههای مرتبط را به آدرس ایمیل [email protected] بفرستند. (لطفا عنوان ایمیل را KUSRP Internship را قرار دهید.)
شرایط:
۱- علاقهمند به پژوهش در حوزه NLP و مخصوصا Large Language Models
۲- تعهد کامل در طول دوره کارآموزی و عدم اشتغال به کار یا پروژه دیگر
۲- مسلط به پایتون و تجربه کار با کتابخانههای مرتبط با Deep Learning مثل PyTorch
نوع همکاری: حضوری (اولویت) / دورکاری
نکات:
ادامه همکاری پس از پایان دوره رسمی کارآموزی در صورت توافق طرفین مطلوب است.
ارایه خوابگاه از طرف دانشگاه گارانتی نمیشود!
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
برنامه تحقیقات تابستانی دانشگاه کوچ به دانشجویان و علاقهمندان این فرصت را میدهد تا در کنار کسب تجربه تحقیقاتی خود را برای تحصیلات تکمیلی یا کار در حرفه مدنظر آماده کنند. با توجه به این برنامه گروه NLP دانشکده مهندسی کامپیوتر به سرپرستی Dr.Gözde Gül Sahin تصمیم دارد از علاقهمندان در زمینه پردازش زبان طبیعی دعوت به عمل آورد. دو پروژه در این زمینه وجود دارد که در صورت دعوت به مصاحبه برای داوطلبین تشریح میشوند.
از علاقهمندان درخواست میشود تا رزومه خود را به همراه چند نمونه کد پروژههای مرتبط را به آدرس ایمیل [email protected] بفرستند. (لطفا عنوان ایمیل را KUSRP Internship را قرار دهید.)
شرایط:
۱- علاقهمند به پژوهش در حوزه NLP و مخصوصا Large Language Models
۲- تعهد کامل در طول دوره کارآموزی و عدم اشتغال به کار یا پروژه دیگر
۲- مسلط به پایتون و تجربه کار با کتابخانههای مرتبط با Deep Learning مثل PyTorch
نوع همکاری: حضوری (اولویت) / دورکاری
نکات:
ادامه همکاری پس از پایان دوره رسمی کارآموزی در صورت توافق طرفین مطلوب است.
ارایه خوابگاه از طرف دانشگاه گارانتی نمیشود!
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍8
یه مدل جدید ریلیز کردن از مدل متا بهتره:
https://huggingface.co/tiiuae/falcon-7b
ولی یه نکات خیلی مسخره ای داره، مثلا برای اینکه بتونید تجاری ازش استفاده کنید باید ازشون اجازه بگیرید و ۱۰٪ درآمد رو تو شرایط خاصی بهشون بدید 😂
اینم لایسنس:
https://huggingface.co/tiiuae/falcon-7b/blob/main/LICENSE.txt
یعنی کاری که این مدلهای زبانی بزرگ با دنیای هوش مصنوعی کرد سونامی با مردم نکرد!
https://huggingface.co/tiiuae/falcon-7b
ولی یه نکات خیلی مسخره ای داره، مثلا برای اینکه بتونید تجاری ازش استفاده کنید باید ازشون اجازه بگیرید و ۱۰٪ درآمد رو تو شرایط خاصی بهشون بدید 😂
اینم لایسنس:
https://huggingface.co/tiiuae/falcon-7b/blob/main/LICENSE.txt
یعنی کاری که این مدلهای زبانی بزرگ با دنیای هوش مصنوعی کرد سونامی با مردم نکرد!
Some recent news: 5 projects to appear at #RSS2023 and 1 at #ICML2023! 🥳🤖
1) RT-1: https://robotics-transformer.github.io
2) DIAL: https://instructionaugmentation.github.io
3) ROSIE: https://diffusion-rosie.github.io
4) RLS: https://rl-at-scale.github.io
5) JSRL: https://jumpstart-rl.github.io
6) LLM + Robotics Demos, TBA!
1) RT-1: https://robotics-transformer.github.io
2) DIAL: https://instructionaugmentation.github.io
3) ROSIE: https://diffusion-rosie.github.io
4) RLS: https://rl-at-scale.github.io
5) JSRL: https://jumpstart-rl.github.io
6) LLM + Robotics Demos, TBA!
robotics-transformer.github.io
RT-2
Project page for RT-2
Forwarded from حمید مسعودی | جامعهشناسی
✳️ دوره جامع و رایگان ده جلسهای کاربرد کامپیوتر (SPSS) در علوم اجتماعی
▫️ این دوره شش ساعت و پروژهمحور (انجام عملی توسط کاربر) است.
▫️ مدرس: حمید مسعودی
● جلسه اول: مقدمه، منابع، چیستی آمار، توصیف و استنباط، پیشفرضهای آماری، فرضیات و ...
● جلسه دوم: دانلود، نصب، راهاندازی و معرفی منوهای اصلی نرمافزار SPSS
● جلسه سوم: کدگذاری، انواع داده، ویرایش، نامگذاری و جابجایی دادهها در SPSS
● جلسه چهارم: دستهبندی یا کدگذاری مجدد و شناسایی دادههای پرت
● جلسه پنجم: تعریف، شرایط، مثال و انجام شاخصسازی یا مقیاسسازی
● جلسه ششم: انجام آمار توصیفی تک و چند متغیره و رسم بهینه نمودارها و جدولها
● جلسه هفتم: دستورهای جداسازی (Split)، انتخاب (Select)، وزندهی (Weight) به دادهها
● جلسه هشتم: آزمونهای آماری فرضیات رابطهای (کمی و کیفی)
● جلسه نهم: آزمونهای آماری فرضیات مقایسۀ میانگین و نسبت (کمی و کیفی)
● جلسه دهم: آزمونهای آماری علّی یا رگرسیون و تحلیل مسیر
بهتر است از جلسه اول، دوره را ببینید؛ در عین حال برای دانلود و تماشای هر جلسه بر روی آن کلیک کنید یا اگر لینکها کار نکرد از طریق کانال آپارات زیر اقدام کنید:
aparat.com/hmdmasoudi
امکان دریافت در فرمتهای مختلف در آپارات فراهم است.
اگر برای کسی مفید میدانید به اشتراک بگذارید. 🙏
سالم باشید. ❤️
@hmdsociology
▫️ این دوره شش ساعت و پروژهمحور (انجام عملی توسط کاربر) است.
▫️ مدرس: حمید مسعودی
● جلسه اول: مقدمه، منابع، چیستی آمار، توصیف و استنباط، پیشفرضهای آماری، فرضیات و ...
● جلسه دوم: دانلود، نصب، راهاندازی و معرفی منوهای اصلی نرمافزار SPSS
● جلسه سوم: کدگذاری، انواع داده، ویرایش، نامگذاری و جابجایی دادهها در SPSS
● جلسه چهارم: دستهبندی یا کدگذاری مجدد و شناسایی دادههای پرت
● جلسه پنجم: تعریف، شرایط، مثال و انجام شاخصسازی یا مقیاسسازی
● جلسه ششم: انجام آمار توصیفی تک و چند متغیره و رسم بهینه نمودارها و جدولها
● جلسه هفتم: دستورهای جداسازی (Split)، انتخاب (Select)، وزندهی (Weight) به دادهها
● جلسه هشتم: آزمونهای آماری فرضیات رابطهای (کمی و کیفی)
● جلسه نهم: آزمونهای آماری فرضیات مقایسۀ میانگین و نسبت (کمی و کیفی)
● جلسه دهم: آزمونهای آماری علّی یا رگرسیون و تحلیل مسیر
بهتر است از جلسه اول، دوره را ببینید؛ در عین حال برای دانلود و تماشای هر جلسه بر روی آن کلیک کنید یا اگر لینکها کار نکرد از طریق کانال آپارات زیر اقدام کنید:
aparat.com/hmdmasoudi
امکان دریافت در فرمتهای مختلف در آپارات فراهم است.
اگر برای کسی مفید میدانید به اشتراک بگذارید. 🙏
سالم باشید. ❤️
@hmdsociology
👍4❤1
دکتر انگ چندتا دوره رایگان به مدت محدود گذاشته اگه علاقمندین دنبال کنید
https://www.deeplearning.ai/short-courses/
https://www.deeplearning.ai/short-courses/
www.deeplearning.ai
Courses - DeepLearning.AI
Discover the best courses to build a career in AI | Whether you're a beginner or an experienced practitioner, our world-class curriculum and unique teaching methodology will guide you through every stage of your Al journey.
❤2👍1
❓ چرا سرویس گذر از تحریم F14
📌 دارای تیم فنی قوی و متخصص و نوآور
📌 ارائه بیش از 60 سرور از 15 کشور برای هر اشتراک (در حال افزایش🔼)
📌 ارائه سرویس موقت جایگزین در مواقع بحران برای حفظ ارتباط کاربران
📌 دارای پشتیبانی با دانش بالا و صبر و حوصله
📌 ارائه آموزشهای لازم بصورت تصویری برای کاربران
📌 ارائه سرویس برای تمامی سیستم عاملها با یک اشتراک
📌 ارائه سرویس برای تمامی ISPها
📌 ارائه کانکشنهای سازگار با هر ISP
📌 ارائه سرورهای VIP برای اینترنتهای دارای محدودیت بسیار بالا
📌 نمایش ریز مصرف کاربران
📌 امکان سفارش و تمدید بصورت کاملا خودکار در ۲۴ ساعت شبانه روز
📌 امکان سفارش و تمدید با رمز ارزها
☄️ اینها بخشی از ویژگیهای سرویس ما میباشد.
✔️ از نــظـر مـا فــروش پـایـان کــار نـیـسـت بـلـکه آغــاز یــک تـعـهد مـیبـاشـد.
🔸 https://yangx.top/F14PanelBot
پ.ن: پیشنهاد ویژه من به شما کیفیت پاسخگویی و پشتیبانی عالی برای کانکشنها
📌 دارای تیم فنی قوی و متخصص و نوآور
📌 ارائه بیش از 60 سرور از 15 کشور برای هر اشتراک (در حال افزایش🔼)
📌 ارائه سرویس موقت جایگزین در مواقع بحران برای حفظ ارتباط کاربران
📌 دارای پشتیبانی با دانش بالا و صبر و حوصله
📌 ارائه آموزشهای لازم بصورت تصویری برای کاربران
📌 ارائه سرویس برای تمامی سیستم عاملها با یک اشتراک
📌 ارائه سرویس برای تمامی ISPها
📌 ارائه کانکشنهای سازگار با هر ISP
📌 ارائه سرورهای VIP برای اینترنتهای دارای محدودیت بسیار بالا
📌 نمایش ریز مصرف کاربران
📌 امکان سفارش و تمدید بصورت کاملا خودکار در ۲۴ ساعت شبانه روز
📌 امکان سفارش و تمدید با رمز ارزها
☄️ اینها بخشی از ویژگیهای سرویس ما میباشد.
✔️ از نــظـر مـا فــروش پـایـان کــار نـیـسـت بـلـکه آغــاز یــک تـعـهد مـیبـاشـد.
🔸 https://yangx.top/F14PanelBot
پ.ن: پیشنهاد ویژه من به شما کیفیت پاسخگویی و پشتیبانی عالی برای کانکشنها
👍1
ده #ایده_جذاب که در یک ماه گذشته منتشر شد. قسمت ۱ از ۳
1) LLM explains neurons in LLMs - applies GPT-4 to automatically write explanations on the behavior of neurons in LLMs and even score those explanations; this offers a promising way to improve interpretability in future LLMs and potentially detect alignment and safety problems.
2) PaLM 2 - a new state-of-the-art language model integrated into AI features and tools like Bard and the PaLM API; displays competitive performance in mathematical reasoning compared to GPT-4; instruction-tuned model, Flan-PaLM 2, shows good performance on benchmarks like MMLU and BIG-bench Hard.
3) ImageBind - an approach that learns joint embedding data across six modalities at once; extends zero-shot capabilities to new modalities and enables emergent applications including cross-modal retrieval, composing modalities with arithmetic, cross-modal detection, and generation.
4) TidyBot - shows that robots can combine language-based planning and perception with the few-shot summarization capabilities of LLMs to infer generalized user preferences that are applicable to future interactions.
5. Unfaithful Explanations in Chain-of-Thought Prompting - demonstrates that CoT explanations can misrepresent the true reason for a model’s prediction; when models are biased towards incorrect answers, CoT generation explanations supporting those answers.
6) InstructBLIP - explores visual-language instruction tuning based on the pre-trained BLIP-2 models; achieves state-of-the-art zero-shot performance on 13 held-out datasets, outperforming BLIP-2 and Flamingo.
7) Active Retrieval Augmented LLMs - introduces FLARE, retrieval augmented generation to improve the reliability of LLMs; FLARE actively decides when and what to retrieve across the course of the generation; demonstrates superior or competitive performance on long-form knowledge-intensive generation tasks.
8) FrugalGPT - presents strategies to reduce the inference cost associated with using LLMs while improving performance.
9) StarCoder - an open-access 15.5B parameter LLM with 8K context length and is trained on large amounts of code spanning 80+ programming languages.
10) MultiModal-GPT - a vision and language model for multi-round dialogue with humans; the model is fine-tuned from OpenFlamingo, with LoRA added in the cross-attention and self-attention parts of the language model.
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
1) LLM explains neurons in LLMs - applies GPT-4 to automatically write explanations on the behavior of neurons in LLMs and even score those explanations; this offers a promising way to improve interpretability in future LLMs and potentially detect alignment and safety problems.
2) PaLM 2 - a new state-of-the-art language model integrated into AI features and tools like Bard and the PaLM API; displays competitive performance in mathematical reasoning compared to GPT-4; instruction-tuned model, Flan-PaLM 2, shows good performance on benchmarks like MMLU and BIG-bench Hard.
3) ImageBind - an approach that learns joint embedding data across six modalities at once; extends zero-shot capabilities to new modalities and enables emergent applications including cross-modal retrieval, composing modalities with arithmetic, cross-modal detection, and generation.
4) TidyBot - shows that robots can combine language-based planning and perception with the few-shot summarization capabilities of LLMs to infer generalized user preferences that are applicable to future interactions.
5. Unfaithful Explanations in Chain-of-Thought Prompting - demonstrates that CoT explanations can misrepresent the true reason for a model’s prediction; when models are biased towards incorrect answers, CoT generation explanations supporting those answers.
6) InstructBLIP - explores visual-language instruction tuning based on the pre-trained BLIP-2 models; achieves state-of-the-art zero-shot performance on 13 held-out datasets, outperforming BLIP-2 and Flamingo.
7) Active Retrieval Augmented LLMs - introduces FLARE, retrieval augmented generation to improve the reliability of LLMs; FLARE actively decides when and what to retrieve across the course of the generation; demonstrates superior or competitive performance on long-form knowledge-intensive generation tasks.
8) FrugalGPT - presents strategies to reduce the inference cost associated with using LLMs while improving performance.
9) StarCoder - an open-access 15.5B parameter LLM with 8K context length and is trained on large amounts of code spanning 80+ programming languages.
10) MultiModal-GPT - a vision and language model for multi-round dialogue with humans; the model is fine-tuned from OpenFlamingo, with LoRA added in the cross-attention and self-attention parts of the language model.
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍8❤2
۸۰۰ کلاس درس دانشگاهی، عموما از دانشگاه های Ivy League آمریکا و معتبر در زمینه Computer Science. فرصت خوبی برای یادگیری و یا آشنایی با نحوه تدریس و کلاس های دانشگاهی.
bit.ly/3472Iia
#منابع #منابع_پیشنهادی #فیلم #کلاس_آموزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
bit.ly/3472Iia
#منابع #منابع_پیشنهادی #فیلم #کلاس_آموزشی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
❤6
ده #ایده_جذاب که در یک ماه گذشته منتشر شد. قسمت ۲ از ۳
1) Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold - an approach for controlling GANs that allows dragging points of the image to precisely reach target points in a user-interactive manner.
2) Evidence of Meaning in Language Models Trained on Programs - argues that language models can learn meaning despite being trained only to perform next token prediction on text.
3) Towards Expert-Level Medical Question Answering with Large Language Models - a top-performing LLM for medical question answering; scored up to 86.5% on the MedQA dataset (a new state-of-the-art); approaches or exceeds SoTA across MedMCQA, PubMedQA, and MMLU clinical topics datasets.
4) MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers - a multi-scale decoder architecture enabling end-to-end modeling of sequences of over one million bytes; enables sub-quadratic self-attention and improved parallelism during decoding.
5. StructGPT: A General Framework for Large Language Model to Reason over Structured Data - improves the zero-shot reasoning ability of LLMs over structured data; effective for solving question answering tasks based on structured data.
6) TinyStories: How Small Can Language Models Be and Still Speak Coherent English? - uses a synthetic dataset of short stories to train and evaluate LMs that are much smaller than SoTA models but can produce fluent and consistent stories with several paragraphs, and demonstrate reasoning capabilities.
7) DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining - trains a small proxy model over domains to produce domain weights without knowledge of downstream tasks; it then resamples a dataset with the domain weights and trains a larger model; this enables using a 280M proxy model to train an 8B model (30x larger) more efficiently.
8) CodeT5+: Open Code Large Language Models for Code Understanding and Generation - supports a wide range of code understanding and generation tasks and different training methods to improve efficacy and computing efficiency; tested on 20 code-related benchmarks using different settings like zero-shot, fine-tuning, and instruction tuning; achieves SoTA on tasks like code completion, math programming, and text-to-code retrieval tasks.
9) Symbol tuning improves in-context learning in language models - an approach to finetune LMs on in-context input-label pairs where natural language labels are replaced by arbitrary symbols; boosts performance on unseen in-context learning tasks and algorithmic reasoning tasks.
10) Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability - shows that PaLM is exposed to over 30 million translation pairs across at least 44 languages; shows that incidental bilingualism connects to the translation capabilities of PaLM.
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
1) Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold - an approach for controlling GANs that allows dragging points of the image to precisely reach target points in a user-interactive manner.
2) Evidence of Meaning in Language Models Trained on Programs - argues that language models can learn meaning despite being trained only to perform next token prediction on text.
3) Towards Expert-Level Medical Question Answering with Large Language Models - a top-performing LLM for medical question answering; scored up to 86.5% on the MedQA dataset (a new state-of-the-art); approaches or exceeds SoTA across MedMCQA, PubMedQA, and MMLU clinical topics datasets.
4) MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers - a multi-scale decoder architecture enabling end-to-end modeling of sequences of over one million bytes; enables sub-quadratic self-attention and improved parallelism during decoding.
5. StructGPT: A General Framework for Large Language Model to Reason over Structured Data - improves the zero-shot reasoning ability of LLMs over structured data; effective for solving question answering tasks based on structured data.
6) TinyStories: How Small Can Language Models Be and Still Speak Coherent English? - uses a synthetic dataset of short stories to train and evaluate LMs that are much smaller than SoTA models but can produce fluent and consistent stories with several paragraphs, and demonstrate reasoning capabilities.
7) DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining - trains a small proxy model over domains to produce domain weights without knowledge of downstream tasks; it then resamples a dataset with the domain weights and trains a larger model; this enables using a 280M proxy model to train an 8B model (30x larger) more efficiently.
8) CodeT5+: Open Code Large Language Models for Code Understanding and Generation - supports a wide range of code understanding and generation tasks and different training methods to improve efficacy and computing efficiency; tested on 20 code-related benchmarks using different settings like zero-shot, fine-tuning, and instruction tuning; achieves SoTA on tasks like code completion, math programming, and text-to-code retrieval tasks.
9) Symbol tuning improves in-context learning in language models - an approach to finetune LMs on in-context input-label pairs where natural language labels are replaced by arbitrary symbols; boosts performance on unseen in-context learning tasks and algorithmic reasoning tasks.
10) Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability - shows that PaLM is exposed to over 30 million translation pairs across at least 44 languages; shows that incidental bilingualism connects to the translation capabilities of PaLM.
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍4
ده #ایده_جذاب که در یک ماه گذشته منتشر شد. قسمت 3 از 3
1) QLoRA - an efficient finetuning approach that reduces memory usage enough to finetune a 65B parameter model on a single 48GB GPU while preserving full 16-bit finetuning performance.
2) LIMA - a new 65B parameter LLaMa model fine-tuned on 1000 carefully curated prompts and responses; it doesn't use RLHF, generalizes well to unseen tasks not available in the training data, and generates responses equivalent or preferred to GPT-4 in 43% of cases, and even higher compared to Bard.
3) Voyager - an LLM-powered embodied lifelong learning agent in Minecraft that can continuously explore worlds, acquire skills, and make novel discoveries without human intervention.
4) Gorilla - a finetuned LLaMA-based model that surpasses GPT-4 on writing API calls. This capability can help identify the right API, boosting the ability of LLMs to interact with external tools to complete specific tasks.
5. The False Promise of Imitating Proprietary LLMs - provides a critical analysis of models that are finetuned on the outputs of a stronger model; argues that model imitation is a false premise and that the higher leverage action to improve open source models is to develop better base models.
6) Sophia - presents a simple scalable second-order optimizer that has negligible average per-step time and memory overhead; on language modeling, Sophia achieves 2x speed-up compared to Adam in the number of steps, total compute, and wall-clock time.
7) The Larger They Are, the Harder They Fail - shows that LLMs fail to generate correct Python code when default function names are swapped; they also strongly prefer incorrect continuation as they become bigger.
8) Model Evaluation for Extreme Risks - discusses the importance of model evaluation for addressing extreme risks and making responsible decisions about model training, deployment, and security.
9) LLM Research Directions - discusses a list of research directions for students looking to do research with LLMs.
10) Reinventing RNNs for the Transformer Era - proposes an approach that combines the efficient parallelizable training of Transformers with the efficient inference of RNNs; results show that the method performs on part with similarly sized Transformers.
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
1) QLoRA - an efficient finetuning approach that reduces memory usage enough to finetune a 65B parameter model on a single 48GB GPU while preserving full 16-bit finetuning performance.
2) LIMA - a new 65B parameter LLaMa model fine-tuned on 1000 carefully curated prompts and responses; it doesn't use RLHF, generalizes well to unseen tasks not available in the training data, and generates responses equivalent or preferred to GPT-4 in 43% of cases, and even higher compared to Bard.
3) Voyager - an LLM-powered embodied lifelong learning agent in Minecraft that can continuously explore worlds, acquire skills, and make novel discoveries without human intervention.
4) Gorilla - a finetuned LLaMA-based model that surpasses GPT-4 on writing API calls. This capability can help identify the right API, boosting the ability of LLMs to interact with external tools to complete specific tasks.
5. The False Promise of Imitating Proprietary LLMs - provides a critical analysis of models that are finetuned on the outputs of a stronger model; argues that model imitation is a false premise and that the higher leverage action to improve open source models is to develop better base models.
6) Sophia - presents a simple scalable second-order optimizer that has negligible average per-step time and memory overhead; on language modeling, Sophia achieves 2x speed-up compared to Adam in the number of steps, total compute, and wall-clock time.
7) The Larger They Are, the Harder They Fail - shows that LLMs fail to generate correct Python code when default function names are swapped; they also strongly prefer incorrect continuation as they become bigger.
8) Model Evaluation for Extreme Risks - discusses the importance of model evaluation for addressing extreme risks and making responsible decisions about model training, deployment, and security.
9) LLM Research Directions - discusses a list of research directions for students looking to do research with LLMs.
10) Reinventing RNNs for the Transformer Era - proposes an approach that combines the efficient parallelizable training of Transformers with the efficient inference of RNNs; results show that the method performs on part with similarly sized Transformers.
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍1
ده #ایده_جذاب که در هفته گذشته منتشر شد.
1) Let’s Verify Step by Step - achieves state-of-the-art mathematical problem solving by rewarding each correct step of reasoning in a chain-of-thought instead of rewarding the final answer; the model solves 78% of problems from a representative subset of the MATH test set.
2) No Positional Encodings - shows that explicit position embeddings are not essential for decoder-only Transformers; shows that other positional encoding methods like ALiBi and Rotary are not well suited for length generalization.
3) BiomedGPT - a unified biomedical generative pretrained transformer model for vision, language, and multimodal tasks. Achieves state-of-the-art performance across 5 distinct tasks with 20 public datasets spanning over 15 unique biomedical modalities.
4) Thought Cloning - introduces an imitation learning framework to learn to think while acting; the idea is not only to clone the behaviors of human demonstrators but also the thoughts humans have when performing behaviors.
5. Fine-Tuning Language Models with Just Forward Passes - proposes a memory-efficient zeroth-order optimizer and a corresponding SGD algorithm to finetune large LMs with the same memory footprint as inference.
6) MERT - an acoustic music understanding model with large-scale self-supervised training; it incorporates a superior combination of teacher models to outperform conventional speech and audio approaches.
7) Bytes Are All You Need - investigates performing classification directly on file bytes, without needing to decode files at inference time; achieves ImageNet Top-1 accuracy of 77.33% using a transformer backbone; achieves 95.42% accuracy when operating on WAV files from the Speech Commands v2 dataset.
8) Direct Preference Optimization - while helpful to train safe and useful LLMs, the RLHF process can be complex and often unstable; this work proposes an approach to finetune LMs by solving a classification problem on the human preferences data, with no RL required.
9) SQL-PaLM - an LLM-based Text-to-SQL adopted from PaLM-2; achieves SoTA in both in-context learning and fine-tuning settings; the few-shot model outperforms the previous fine-tuned SoTA by 3.8% on the Spider benchmark; few-shot SQL-PaLM also outperforms few-shot GPT-4 by 9.9%, using a simple prompting approach.
10) CodeTF - an open-source Transformer library for state-of-the-art code LLMs; supports pretrained code LLMs and popular code benchmarks, including standard methods to train and serve code LLMs efficiently.
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
1) Let’s Verify Step by Step - achieves state-of-the-art mathematical problem solving by rewarding each correct step of reasoning in a chain-of-thought instead of rewarding the final answer; the model solves 78% of problems from a representative subset of the MATH test set.
2) No Positional Encodings - shows that explicit position embeddings are not essential for decoder-only Transformers; shows that other positional encoding methods like ALiBi and Rotary are not well suited for length generalization.
3) BiomedGPT - a unified biomedical generative pretrained transformer model for vision, language, and multimodal tasks. Achieves state-of-the-art performance across 5 distinct tasks with 20 public datasets spanning over 15 unique biomedical modalities.
4) Thought Cloning - introduces an imitation learning framework to learn to think while acting; the idea is not only to clone the behaviors of human demonstrators but also the thoughts humans have when performing behaviors.
5. Fine-Tuning Language Models with Just Forward Passes - proposes a memory-efficient zeroth-order optimizer and a corresponding SGD algorithm to finetune large LMs with the same memory footprint as inference.
6) MERT - an acoustic music understanding model with large-scale self-supervised training; it incorporates a superior combination of teacher models to outperform conventional speech and audio approaches.
7) Bytes Are All You Need - investigates performing classification directly on file bytes, without needing to decode files at inference time; achieves ImageNet Top-1 accuracy of 77.33% using a transformer backbone; achieves 95.42% accuracy when operating on WAV files from the Speech Commands v2 dataset.
8) Direct Preference Optimization - while helpful to train safe and useful LLMs, the RLHF process can be complex and often unstable; this work proposes an approach to finetune LMs by solving a classification problem on the human preferences data, with no RL required.
9) SQL-PaLM - an LLM-based Text-to-SQL adopted from PaLM-2; achieves SoTA in both in-context learning and fine-tuning settings; the few-shot model outperforms the previous fine-tuned SoTA by 3.8% on the Spider benchmark; few-shot SQL-PaLM also outperforms few-shot GPT-4 by 9.9%, using a simple prompting approach.
10) CodeTF - an open-source Transformer library for state-of-the-art code LLMs; supports pretrained code LLMs and popular code benchmarks, including standard methods to train and serve code LLMs efficiently.
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍3
یک نقشه راهی برای یادگیری و ۹ دوره رایگان
Generative AI Learning Path
cloudskillsboost.google/paths/118
#هوش_مصنوعی #منابع #منابع_پیشنهادی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
Generative AI Learning Path
cloudskillsboost.google/paths/118
#هوش_مصنوعی #منابع #منابع_پیشنهادی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
❤5
اگر راجب گرافها در مدلهای زبانی دنبال منابع و دیتاستهای خوبی میگشتید اینو پیشنهاد میدم.
Graph-Related Large Language Models (LLMs).
https://github.com/XiaoxinHe/Awesome-Graph-LLM
#هوش_مصنوعی #منابع #منابع_پیشنهادی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
Graph-Related Large Language Models (LLMs).
https://github.com/XiaoxinHe/Awesome-Graph-LLM
#هوش_مصنوعی #منابع #منابع_پیشنهادی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔥4
دوره خوبی هست، خواستید یه سر بزنید و نگاه بکنید:
https://maktabkhooneh.org/course/%D8%A2%D9%85%D9%88%D8%B2%D8%B4-%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D9%85%D8%A7%D8%B4%DB%8C%D9%86-%DA%A9%D8%A7%D8%B1%D8%A8%D8%B1%D8%AF%DB%8C-mk2450/
دکتر تهرانیپور عزیز تهیه کردند.
#هوش_مصنوعی #منابع #منابع_پیشنهادی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
https://maktabkhooneh.org/course/%D8%A2%D9%85%D9%88%D8%B2%D8%B4-%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D9%85%D8%A7%D8%B4%DB%8C%D9%86-%DA%A9%D8%A7%D8%B1%D8%A8%D8%B1%D8%AF%DB%8C-mk2450/
دکتر تهرانیپور عزیز تهیه کردند.
#هوش_مصنوعی #منابع #منابع_پیشنهادی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
مکتبخونه
آموزش یادگیری ماشین با 10 پروژه کاربردی و نکات مهم کتابخانه ها
اگر به دنبال یادگیری ماشین لرنینگ به صورت کاربردی هستید و دنبال دوره ای هستید تا نکات بسیار مهم کتابخانههای کاربردی را به شما یاد دهد با ما در دوره یادگیری ماشین کاربردی همراه باشید تا با هم به حل 10 پروژه سنگین و خوب بپردازیم.
❤3
This media is not supported in your browser
VIEW IN TELEGRAM
دراین مقاله اومدن از مدل Segment Anything (SAM) استفاده کردن و یک ماژول سبک وزن Mask-to-Matte (M2M) را برای تطبیق عکسها و... استفاده کردند که به نظرم یک انقلابیه...!!
Matting everything (MAM)
https://huggingface.co/papers/2306.05399
پ.ن:در این مقاله به نظرم میشه صحبت دکتر عسگری رو تایید کرد که پردازش تصویر گیم اور شده پ!!
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
Matting everything (MAM)
https://huggingface.co/papers/2306.05399
پ.ن:در این مقاله به نظرم میشه صحبت دکتر عسگری رو تایید کرد که پردازش تصویر گیم اور شده پ!!
#مقاله #ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
❤7
نظرات دکتر علی شریفی زارچی استاد کامپیوتر دانشگاه شریف راجب مراحل یادگیری #هوش_مصنوعی
https://twitter.com/SharifiZarchi/status/1667131051104149505
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
https://twitter.com/SharifiZarchi/status/1667131051104149505
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
👍4👎2