Откуда появился самый влиятельный китайский стартап #DeepSeek? И как он связан одним из крупнейших квантовых хедж-фондов Китая? История и развитие компании.
В конце 2024 малоизвестная китайская компания #DeepSeek внезапно оказалась в центре внимания мирового ИИ-сообщества, выпустив модель, сравнимую по возможностям с продуктами OpenAI и Anthropic, но при этом значительно более эффективную по стоимости.
Телеграм-канал @blockchainrf разбирается, как небольшой стартап из 100 человек достиг таких результатов и почему его подход к развитию ИИ может поменять правила игры. #историяdeepseek
Происхождение капитала
История DeepSeek неразрывно связана с High-Flyer - одним из крупнейших квантовых хедж-фондов Китая. В 2015 три инженера - Сюй Цзинь, Чжэн Давэй и Лян Вэньфэн (CEO) - основали High-Flyer после 8 лет разработки алгоритмических торговых систем. К 2021 фонд управлял активами в $15 млрд и владел внушительной инфраструктурой, включающей 10,000 GPU NVIDIA A100.
Однако в 2022 ситуация резко изменилась. На фоне экономического спада китайское правительство начало ужесточать регулирование высокочастотной торговли. Фонды High-Flyer показали значительные убытки. Правительство ввело ряд ограничений, включая запреты на торговлю и требования раскрытия стратегий.
Трансформация в ИИ-компанию
Вместо сворачивания бизнеса руководство приняло неожиданное решение - в 2023 была создана DeepSeek. Компания унаследовала от материнской структуры не только технологическую инфраструктуру, но и уникальный подход к управлению и найму персонала.
Кадровая политика - ставка на молодых пока неизвестных инженеров
Команда DeepSeek состоит преимущественно из недавних выпускников ведущих китайских университетов, аспирантов и молодых специалистов с небольшим опытом работы. Компания намеренно избегает найма признанных экспертов, делая ставку на энтузиазм и свежий взгляд.
Организационная структура построена на принципах максимальной свободы: отсутствуют формальные иерархии, сотрудники самостоятельно формируют команды под проекты, а доступ к вычислительным ресурсам предоставляется без бюрократических согласований.
Особый интерес представляет фигура CEO компании - Лян Вэньфэна. В отличие от многих руководителей китайских фондов, он не имеет опыта работы в западных компаниях. Выпускник факультета электронной инженерии Чжэцзянского университета, он с самого начала фокусировался на ИИ. Коллеги отмечают его уникальное сочетание технических компетенций с организационными способностями.
Бизнес-модель будущего
DeepSeek отличается от других ИИ-стартапов принципиальным отказом от венчурного финансирования и фокусом на открытом исходном коде. Компания видит свою роль в создании базовой технологической инфраструктуры для экосистемы ИИ-приложений, а не в прямой конкуренции на рынке конечных продуктов.
Видение будущего ИИ
Лян Вэньфэн обозначает 3 ключевых направления развития ИИ:
- Математика и программирование как "полигон" для тестирования AI
- Мультимодальные модели
- Углубленное развитие обработки естественного языка
Он ожидает достижения AGI в горизонте 2-10 лет, хотя признает, что даже внутри компании нет единого мнения о точном пути к этой цели.
Хотя компания возникла как побочный эффект государственного регулирования финансового сектора, прямых свидетельств государственного участия в DeepSeek нет. Компания подчеркивает свою независимость и открытость, что нетипично для китайского технологического сектора.
В конце 2024 малоизвестная китайская компания #DeepSeek внезапно оказалась в центре внимания мирового ИИ-сообщества, выпустив модель, сравнимую по возможностям с продуктами OpenAI и Anthropic, но при этом значительно более эффективную по стоимости.
Телеграм-канал @blockchainrf разбирается, как небольшой стартап из 100 человек достиг таких результатов и почему его подход к развитию ИИ может поменять правила игры. #историяdeepseek
Происхождение капитала
История DeepSeek неразрывно связана с High-Flyer - одним из крупнейших квантовых хедж-фондов Китая. В 2015 три инженера - Сюй Цзинь, Чжэн Давэй и Лян Вэньфэн (CEO) - основали High-Flyer после 8 лет разработки алгоритмических торговых систем. К 2021 фонд управлял активами в $15 млрд и владел внушительной инфраструктурой, включающей 10,000 GPU NVIDIA A100.
Однако в 2022 ситуация резко изменилась. На фоне экономического спада китайское правительство начало ужесточать регулирование высокочастотной торговли. Фонды High-Flyer показали значительные убытки. Правительство ввело ряд ограничений, включая запреты на торговлю и требования раскрытия стратегий.
Трансформация в ИИ-компанию
Вместо сворачивания бизнеса руководство приняло неожиданное решение - в 2023 была создана DeepSeek. Компания унаследовала от материнской структуры не только технологическую инфраструктуру, но и уникальный подход к управлению и найму персонала.
Кадровая политика - ставка на молодых пока неизвестных инженеров
Команда DeepSeek состоит преимущественно из недавних выпускников ведущих китайских университетов, аспирантов и молодых специалистов с небольшим опытом работы. Компания намеренно избегает найма признанных экспертов, делая ставку на энтузиазм и свежий взгляд.
Организационная структура построена на принципах максимальной свободы: отсутствуют формальные иерархии, сотрудники самостоятельно формируют команды под проекты, а доступ к вычислительным ресурсам предоставляется без бюрократических согласований.
Особый интерес представляет фигура CEO компании - Лян Вэньфэна. В отличие от многих руководителей китайских фондов, он не имеет опыта работы в западных компаниях. Выпускник факультета электронной инженерии Чжэцзянского университета, он с самого начала фокусировался на ИИ. Коллеги отмечают его уникальное сочетание технических компетенций с организационными способностями.
Бизнес-модель будущего
DeepSeek отличается от других ИИ-стартапов принципиальным отказом от венчурного финансирования и фокусом на открытом исходном коде. Компания видит свою роль в создании базовой технологической инфраструктуры для экосистемы ИИ-приложений, а не в прямой конкуренции на рынке конечных продуктов.
Видение будущего ИИ
Лян Вэньфэн обозначает 3 ключевых направления развития ИИ:
- Математика и программирование как "полигон" для тестирования AI
- Мультимодальные модели
- Углубленное развитие обработки естественного языка
Он ожидает достижения AGI в горизонте 2-10 лет, хотя признает, что даже внутри компании нет единого мнения о точном пути к этой цели.
Хотя компания возникла как побочный эффект государственного регулирования финансового сектора, прямых свидетельств государственного участия в DeepSeek нет. Компания подчеркивает свою независимость и открытость, что нетипично для китайского технологического сектора.
Telegram
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
❗️Дорожная карта лучшего китайского ИИ-стартапа #DeepSeek акцентируется на 3 ключевых направлениях:
1. Математика и программирование как "чистая среда" для развития интеллекта
2. Мультимодальное восприятие мира
3. Глубокое понимание естественного языка…
1. Математика и программирование как "чистая среда" для развития интеллекта
2. Мультимодальное восприятие мира
3. Глубокое понимание естественного языка…
Ст.исследователь #NVIDIA: #DeepSeek доказал, что ИИ инфраструктура и базовые ИИ-модели станут товаром
Джим Фан,NVIDIA, говорит: «Нравится вам это или нет,
будущее ИИ - это его демократизация, каждый пользователь интернета сможет запускать продвинутые модели даже на слабых устройствах.
Это исторический тренд, против которого бессмысленно бороться».
О прорыве #DeepSeek:
1. #DeepSeek показала лучшие результаты в нескольких независимых тестах.
2. Особенно важно, что они достигли этого с гораздо меньшими вычислительными ресурсами.
#DeepSeek доказывает, что можно получить тот же уровень интеллекта при затратах в 10 раз меньше. Это означает, что с текущими вычислительными мощностями можно создать в 10 раз более мощный ИИ. Временная шкала развития ИИ сжимается.
Предложение Фана на 2025 год:
1. Прекратить распространение мифов об AGI/ASI
2. Прекратить нагнетание страха
3. Сосредоточиться на написании кода
4. Максимально поддерживать open source
5. Ускорение - единственный путь вперед
Все это сходится с нашим предыдущим постом.
Джим Фан,NVIDIA, говорит: «Нравится вам это или нет,
будущее ИИ - это его демократизация, каждый пользователь интернета сможет запускать продвинутые модели даже на слабых устройствах.
Это исторический тренд, против которого бессмысленно бороться».
О прорыве #DeepSeek:
1. #DeepSeek показала лучшие результаты в нескольких независимых тестах.
2. Особенно важно, что они достигли этого с гораздо меньшими вычислительными ресурсами.
#DeepSeek доказывает, что можно получить тот же уровень интеллекта при затратах в 10 раз меньше. Это означает, что с текущими вычислительными мощностями можно создать в 10 раз более мощный ИИ. Временная шкала развития ИИ сжимается.
Предложение Фана на 2025 год:
1. Прекратить распространение мифов об AGI/ASI
2. Прекратить нагнетание страха
3. Сосредоточиться на написании кода
4. Максимально поддерживать open source
5. Ускорение - единственный путь вперед
Все это сходится с нашим предыдущим постом.
Telegram
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Китайцы сделали 2 прорыва в ИИ-модели #DeepSeek-R1
Как пишут сами авторы, их текущие модели размером 7-70 млрд параметров даже близко не достигли своего максимума эффективности — и это без необходимости в новых данных для обучения.
"Мы даже близко не достигли…
Как пишут сами авторы, их текущие модели размером 7-70 млрд параметров даже близко не достигли своего максимума эффективности — и это без необходимости в новых данных для обучения.
"Мы даже близко не достигли…
Итоги уходящей недели, что имеет значение в России и мире
Текст недели: не ИТ-железо и не базовые ИИ-модели будут иметь долгосрочную ценность. А что? Читайте здесь.
1. Павел Дуров создает монополию вокруг Telegram и блокчейна TON. Подробности тут.
2. Китайский стартап #DeepSeek поднял на уши, выпустив ИИ-модель DeepSeek-R1. Команда сделала 2 важных прорыва.
Откуда появился вообще этот стартап, читайте тут.
3. На этом фоне OpenAI объявил, что делает свою модель о3 mini бесплатной.
4. Между тем, госкорпорации продолжают закупать иностранное ИТ-железо, причём закупки выросли до ₽28 млрд.
5. Свежий отчет о состоянии микроэлектроники в России.
6. Россети хотят получить контроль по размещению майнинг-центров и новые тарифные механизмы.
7. Разгорелся серьезный скандал вокруг одного из ключевых инструментов оценки математических способностей языковых моделей. Выяснилось, что OpenAI тайно финансировала его разработку и имела эксклюзивный доступ к данным.
Подробности тут.
8. Китайцы выпустили ИИ-модель #Kimi, и она превосходит GPT-4 и Claude 3.5 в некоторых задачах более чем на 550%.
9. Дарио Амодей, со-основатель Anthropic заявил, что к 2027 ИИ превзойдет интеллект человека. А также объявил о новых запусках.
10. Великобритания выделила проектам £69 млн на развитие нейротехнологий.
11. OpenAI+Softbank+Oracle создают СП Stargate с объемом инвестиций $500 млрд.
12. Что стоит на самом деле за проектом OpenAI - Stargate на $500млрд? Разбор проекта здесь.
13. Microsoft и OpenAI меняют условия эксклюзивности партнерства.
14. ByteDance представили ИИ-агента,который превзошел GPT-4 в работе с компьютерными интерфейсами.
15. Компания Трампа становится ключевым игроком на крипто рынке.
16. ИИ-агент от OpenAI выпущен. Все подробности здесь.
17. В Шанхае открылся 1-й в Китае центр подготовки роботов -гуманоидов.
18. Xanadu представила 1-й в мире модульный фотонный квантовый компьютер под названием Aurora.
19. 1-й в мире кейс, когда квантовые вычисления, машинное обучение создают реальных кандидатов в лекарства, подтвержденных экспериментально.
20. Трамп подписал указ о создании стратегического запаса биткоинов для США.
21. Какие страны владеют биткоинами? Карта.
22. DeepMind работает над проектом «Виртуальная клетка», позволяющая симуляцию биологических клеток с помощью ИИ.
23. Ст.исследователь NVIDIA: #DeepSeek доказал, что ИИ инфраструктура и базовые ИИ-модели станут товаром.
24. Маск внедряет блокчейн в правительстве США для повышения эффективности работы.
25. Обзор Agentic RAG.
26. Как создать хедж-фонд на базе ИИ, использующий множество агентов для принятия торговых решений. Ответ тут.
27. Google инвестировал $1млрд в Anthropic.
28. ByteDance выпустила конкурента Cursor IDE.
29. Свежая статья под названием Mona о безопасности ИИ от Google.
30. Perplexity запустил ИИ-ассистента для своего поисковика. Функционал работает пока для пользователей Android.
31. Mistral идет на IPO.
Текст недели: не ИТ-железо и не базовые ИИ-модели будут иметь долгосрочную ценность. А что? Читайте здесь.
1. Павел Дуров создает монополию вокруг Telegram и блокчейна TON. Подробности тут.
2. Китайский стартап #DeepSeek поднял на уши, выпустив ИИ-модель DeepSeek-R1. Команда сделала 2 важных прорыва.
Откуда появился вообще этот стартап, читайте тут.
3. На этом фоне OpenAI объявил, что делает свою модель о3 mini бесплатной.
4. Между тем, госкорпорации продолжают закупать иностранное ИТ-железо, причём закупки выросли до ₽28 млрд.
5. Свежий отчет о состоянии микроэлектроники в России.
6. Россети хотят получить контроль по размещению майнинг-центров и новые тарифные механизмы.
7. Разгорелся серьезный скандал вокруг одного из ключевых инструментов оценки математических способностей языковых моделей. Выяснилось, что OpenAI тайно финансировала его разработку и имела эксклюзивный доступ к данным.
Подробности тут.
8. Китайцы выпустили ИИ-модель #Kimi, и она превосходит GPT-4 и Claude 3.5 в некоторых задачах более чем на 550%.
9. Дарио Амодей, со-основатель Anthropic заявил, что к 2027 ИИ превзойдет интеллект человека. А также объявил о новых запусках.
10. Великобритания выделила проектам £69 млн на развитие нейротехнологий.
11. OpenAI+Softbank+Oracle создают СП Stargate с объемом инвестиций $500 млрд.
12. Что стоит на самом деле за проектом OpenAI - Stargate на $500млрд? Разбор проекта здесь.
13. Microsoft и OpenAI меняют условия эксклюзивности партнерства.
14. ByteDance представили ИИ-агента,который превзошел GPT-4 в работе с компьютерными интерфейсами.
15. Компания Трампа становится ключевым игроком на крипто рынке.
16. ИИ-агент от OpenAI выпущен. Все подробности здесь.
17. В Шанхае открылся 1-й в Китае центр подготовки роботов -гуманоидов.
18. Xanadu представила 1-й в мире модульный фотонный квантовый компьютер под названием Aurora.
19. 1-й в мире кейс, когда квантовые вычисления, машинное обучение создают реальных кандидатов в лекарства, подтвержденных экспериментально.
20. Трамп подписал указ о создании стратегического запаса биткоинов для США.
21. Какие страны владеют биткоинами? Карта.
22. DeepMind работает над проектом «Виртуальная клетка», позволяющая симуляцию биологических клеток с помощью ИИ.
23. Ст.исследователь NVIDIA: #DeepSeek доказал, что ИИ инфраструктура и базовые ИИ-модели станут товаром.
24. Маск внедряет блокчейн в правительстве США для повышения эффективности работы.
25. Обзор Agentic RAG.
26. Как создать хедж-фонд на базе ИИ, использующий множество агентов для принятия торговых решений. Ответ тут.
27. Google инвестировал $1млрд в Anthropic.
28. ByteDance выпустила конкурента Cursor IDE.
29. Свежая статья под названием Mona о безопасности ИИ от Google.
30. Perplexity запустил ИИ-ассистента для своего поисковика. Функционал работает пока для пользователей Android.
31. Mistral идет на IPO.
#DeepSeek вызвал раскол среди крупнейших инвест аналитиков: одни видят крах рынка ИИ, другие - новые возможности
Прорыв китайской ИИ-компании DeepSeek, сократившей стоимость обучения ИИ моделей в 20 раз и уменьшившей требования к GPU с 100,000 до 2,000, вызвал острые дебаты на Уолл-стрит.
Вот, что говорят аналитики.
1. Медведи - конец эпохи дорогого ИИ-железа
#JPMorgan предупреждает о возможной переоценке всего инвестиционного цикла в ИИ. DeepSeek показывает, что будущее за эффективностью, а не за наращиванием мощностей.
#Raymond James отмечает, что если инновации DeepSeek будут широко приняты, потребность в огромных GPU-кластерах может существенно снизиться. Это прямой удар по бизнес-модели NVIDIA и других производителей.
#Jefferies уже прогнозирует снижение капитальных затрат на ИИ к 2026 году и предлагает инвесторам выбирать между двумя стратегиями: продолжать инвестировать в вычислительные мощности или сделать ставку на эффективность.
2. Быки - новые возможности для роста
В противоположном лагере:
#Cantor утверждает, что разработки DeepSeek приведут к увеличению, а не уменьшению спроса на GPU. Они рекомендуют покупать акции NVIDIA на любых падениях.
#Bernstein считает панику преувеличенной и сохраняет позитивные рейтинги для NVIDIA и Broadcom.
#Citi, признавая вызов американскому доминированию, подчеркивает сохраняющееся преимущество в доступе к передовым чипам.
Такой раскол мнений среди ведущих аналитиков показывает, что рынок пока не может точно оценить последствия инноваций #DeepSeek. Это создает повышенную волатильность и неопределенность в секторе.
История показывает, что в таких случаях правы могут оказаться обе стороны - в краткосрочной перспективе мы можем увидеть коррекцию, но в долгосрочной - рост всего рынка за счет расширения доступности технологии.
Ключевым фактором станет скорость, с которой рынок сможет адаптироваться к новой реальности более эффективных ИИ-моделей. Возможно, мы стоим на пороге фундаментальной перестройки всей индустрии ИИ, где акцент сместится с железа на программные решения и эффективность использования ресурсов.
Прорыв китайской ИИ-компании DeepSeek, сократившей стоимость обучения ИИ моделей в 20 раз и уменьшившей требования к GPU с 100,000 до 2,000, вызвал острые дебаты на Уолл-стрит.
Вот, что говорят аналитики.
1. Медведи - конец эпохи дорогого ИИ-железа
#JPMorgan предупреждает о возможной переоценке всего инвестиционного цикла в ИИ. DeepSeek показывает, что будущее за эффективностью, а не за наращиванием мощностей.
#Raymond James отмечает, что если инновации DeepSeek будут широко приняты, потребность в огромных GPU-кластерах может существенно снизиться. Это прямой удар по бизнес-модели NVIDIA и других производителей.
#Jefferies уже прогнозирует снижение капитальных затрат на ИИ к 2026 году и предлагает инвесторам выбирать между двумя стратегиями: продолжать инвестировать в вычислительные мощности или сделать ставку на эффективность.
2. Быки - новые возможности для роста
В противоположном лагере:
#Cantor утверждает, что разработки DeepSeek приведут к увеличению, а не уменьшению спроса на GPU. Они рекомендуют покупать акции NVIDIA на любых падениях.
#Bernstein считает панику преувеличенной и сохраняет позитивные рейтинги для NVIDIA и Broadcom.
#Citi, признавая вызов американскому доминированию, подчеркивает сохраняющееся преимущество в доступе к передовым чипам.
Такой раскол мнений среди ведущих аналитиков показывает, что рынок пока не может точно оценить последствия инноваций #DeepSeek. Это создает повышенную волатильность и неопределенность в секторе.
История показывает, что в таких случаях правы могут оказаться обе стороны - в краткосрочной перспективе мы можем увидеть коррекцию, но в долгосрочной - рост всего рынка за счет расширения доступности технологии.
Ключевым фактором станет скорость, с которой рынок сможет адаптироваться к новой реальности более эффективных ИИ-моделей. Возможно, мы стоим на пороге фундаментальной перестройки всей индустрии ИИ, где акцент сместится с железа на программные решения и эффективность использования ресурсов.
#DeepSeek только что выпустили еще одну ИИ-модель, которая не хуже DaLLE-3 от OpenAI, бесплатна и с открытым исходным кодом для генерации изображений
И это все происходит на фоне того, что они сегодня ограничили регистрацию новых пользователей и на фоне хакерской атаки.
И это все происходит на фоне того, что они сегодня ограничили регистрацию новых пользователей и на фоне хакерской атаки.
Telegram
All about AI, Web 3.0, BCI
DeepSeek just dropped another open-source AI model, Janus-Pro-7B
It's multimodal (can generate images) and beats OpenAI's DALL-E 3 and Stable Diffusion across GenEval and DPG-Bench benchmarks.
This comes on top of all the R1 hype.
It's multimodal (can generate images) and beats OpenAI's DALL-E 3 and Stable Diffusion across GenEval and DPG-Bench benchmarks.
This comes on top of all the R1 hype.
Кому выгодно лидерство #DeepSeek? Какой ИТ-гигант помог ему и зачем?
В то время как технологическое сообщество пытается осмыслить прорыв DeepSeek, аналитики спорят о будущем #NVIDIA, а инвесторы переоценивают миллиардные вложения в ИИ-инфраструктуру, #Meta* сохраняет удивительное спокойствие. А Андрей Карпатый, со-основатель OpenAI может объяснить это спокойствие.
Мы @blockchainrf стараемся проанализировать все происходящее вокруг #DeepSeek, а также сопоставить с тем, что говорили и делали ИТ-гиганты в части open source. И отмечаем, что среди гигантов Meta первая продвигала открытый исходный код. Потом присоединились #Google, #Microsoft и др.
Только что Андрей #Карпатый написал большой пост про DeepSeek и отметил 2 ключевых момента:
1. Глубокое обучение имеет "ненасытный аппетит" к вычислениям
2. Существует два типа обучения:
- Имитационное (как текущие LLM)
- Обучение с подкреплением (RL) - значительно более мощное.
Анализируя хронологию событий и заявлений Meta за последние 2 года, мы видим признаки тщательно спланированной стратегии. Это наша @blockchainrf интерпретация, основанная на открытых данных.
Вот, на что мы обращаем внимание:
1. 2023: Первые намеки
Летом Ян #ЛеКун шокирует сообщество заявлением "Machine Learning sucks!"на симпозиуме в Гонконге. Он не критикует, он намекает на необходимость принципиально нового подхода.
В ноябре Meta представляет I-JEPA - альтернативу трансформерам. Это не эксперимент, а первый шаг к чему-то большему. Фокус на обучении с подкреплением вместо имитации.
2. 2024: Подготовка почвы.
ЛеКун методично формирует новую повестку:
- Март: "Не тратьте время на LLM"
- Май: Концепция "objective-driven" архитектуры
- Июль: Партнерство с Groq (новые LPU чипы)
- Октябрь: Детальное видение Objective-Driven AI
Неожиданный ход летом 2024 -
Meta делает то, чего никто не ожидал - открывает исходный код Llama и активно продвигает идею открытого ИИ. На первый взгляд, это кажется рискованным. Но был ли это риск?
- Открытие исходного кода Llama
- Активное продвижение открытого ИИ
- На первый взгляд - риск, на деле - расчет
Карты раскрываются (январь 2025).
DeepSeek, используя наработки Meta:
- Снижает стоимость обучения в 20 раз
- Работает на обычных GPU
- Достигает уровня закрытых моделей
Реакция ЛеКуна на работу DeepSeek - короткий твит: "Nice job! Open research / open source accelerates progress." За этой сдержанностью - триумф стратегии.
На прошлой неделе было заявление ЛеКуна в Давосе о "новой парадигме ИИ в ближайшие 3-5 лет" читается теперь совсем иначе. Meta не просто предсказывает будущее - она методично его создает.
Гениальная стратегия Meta:
1. Открыли код -> DeepSeek использовал и улучшил
2. Создали конкуренцию закрытым моделям
3. Сами готовят следующий прорыв.
Если объединить наблюдения Карпати о природе глубокого обучения, последовательные заявления ЛеКуна и действия Meta, складывается картина удивительно продуманной стратегии. Пока все обсуждают эффективность текущих подходов, Meta, похоже, готовит следующий ход в ИИ.
*Запрещенная организация в России.
В то время как технологическое сообщество пытается осмыслить прорыв DeepSeek, аналитики спорят о будущем #NVIDIA, а инвесторы переоценивают миллиардные вложения в ИИ-инфраструктуру, #Meta* сохраняет удивительное спокойствие. А Андрей Карпатый, со-основатель OpenAI может объяснить это спокойствие.
Мы @blockchainrf стараемся проанализировать все происходящее вокруг #DeepSeek, а также сопоставить с тем, что говорили и делали ИТ-гиганты в части open source. И отмечаем, что среди гигантов Meta первая продвигала открытый исходный код. Потом присоединились #Google, #Microsoft и др.
Только что Андрей #Карпатый написал большой пост про DeepSeek и отметил 2 ключевых момента:
1. Глубокое обучение имеет "ненасытный аппетит" к вычислениям
2. Существует два типа обучения:
- Имитационное (как текущие LLM)
- Обучение с подкреплением (RL) - значительно более мощное.
Анализируя хронологию событий и заявлений Meta за последние 2 года, мы видим признаки тщательно спланированной стратегии. Это наша @blockchainrf интерпретация, основанная на открытых данных.
Вот, на что мы обращаем внимание:
1. 2023: Первые намеки
Летом Ян #ЛеКун шокирует сообщество заявлением "Machine Learning sucks!"на симпозиуме в Гонконге. Он не критикует, он намекает на необходимость принципиально нового подхода.
В ноябре Meta представляет I-JEPA - альтернативу трансформерам. Это не эксперимент, а первый шаг к чему-то большему. Фокус на обучении с подкреплением вместо имитации.
2. 2024: Подготовка почвы.
ЛеКун методично формирует новую повестку:
- Март: "Не тратьте время на LLM"
- Май: Концепция "objective-driven" архитектуры
- Июль: Партнерство с Groq (новые LPU чипы)
- Октябрь: Детальное видение Objective-Driven AI
Неожиданный ход летом 2024 -
Meta делает то, чего никто не ожидал - открывает исходный код Llama и активно продвигает идею открытого ИИ. На первый взгляд, это кажется рискованным. Но был ли это риск?
- Открытие исходного кода Llama
- Активное продвижение открытого ИИ
- На первый взгляд - риск, на деле - расчет
Карты раскрываются (январь 2025).
DeepSeek, используя наработки Meta:
- Снижает стоимость обучения в 20 раз
- Работает на обычных GPU
- Достигает уровня закрытых моделей
Реакция ЛеКуна на работу DeepSeek - короткий твит: "Nice job! Open research / open source accelerates progress." За этой сдержанностью - триумф стратегии.
На прошлой неделе было заявление ЛеКуна в Давосе о "новой парадигме ИИ в ближайшие 3-5 лет" читается теперь совсем иначе. Meta не просто предсказывает будущее - она методично его создает.
Гениальная стратегия Meta:
1. Открыли код -> DeepSeek использовал и улучшил
2. Создали конкуренцию закрытым моделям
3. Сами готовят следующий прорыв.
Если объединить наблюдения Карпати о природе глубокого обучения, последовательные заявления ЛеКуна и действия Meta, складывается картина удивительно продуманной стратегии. Пока все обсуждают эффективность текущих подходов, Meta, похоже, готовит следующий ход в ИИ.
*Запрещенная организация в России.
Сэм Альтман обещает скорый релиз следующего поколения ИИ-моделей - это реакция на успех #DeepSeek
СЕО OpenAI признал впечатляющие результаты DeepSeek R1, особенно отмечая соотношение цена/качество.
Одновременно с этим он обещает представить лучшие модели от OpenAI в скором времени, ускоряет релизы.
Также Сэм заявил, что OpenAI делает ставку на масштаб вычислений. Они видят преимущество в количестве ресурсов и в их исследовательской работе. Это их ответ на эффективность #DeepSeek.
Он намекнул на появление следующего поколения моделей.
Мир будет поражен следующим поколением моделей
«Мы принесем вам AGI и даже больше», - написал Сэм Альтман.
СЕО OpenAI признал впечатляющие результаты DeepSeek R1, особенно отмечая соотношение цена/качество.
Одновременно с этим он обещает представить лучшие модели от OpenAI в скором времени, ускоряет релизы.
Также Сэм заявил, что OpenAI делает ставку на масштаб вычислений. Они видят преимущество в количестве ресурсов и в их исследовательской работе. Это их ответ на эффективность #DeepSeek.
Он намекнул на появление следующего поколения моделей.
Мир будет поражен следующим поколением моделей
«Мы принесем вам AGI и даже больше», - написал Сэм Альтман.
#ByteDance представили ИИ-модель #Doubao-1.5-pro, вот её характеристики и сравнение с DeepSeek-R1
Doubao-1.5-pro - закрытая ИИ-модель с акцентом на оптимальный баланс производительности и эффективности использования ресурсов.
1. Архитектурные характеристики :
- Использует разреженную MoE (Mixture of Experts) архитектуру
- Достигает 7-кратного увеличения эффективности параметров по сравнению с плотными моделями
- Требует значительно меньше активных параметров при сохранении высокой производительности
- Превосходит показатели Llama3.1-405B при меньших вычислительных затратах
2. Мультимодальные возможности:
- Встроенная поддержка обработки изображений и речи
- Оригинальная система динамического разрешения для работы с изображениями
- Улучшенное понимание визуального контекста
- Интеграция речевых возможностей на уровне архитектуры
3. Производительность:
- На MMLU: 88.6%
- GPQA: 65.0%
- Показывает сильные результаты в задачах рассуждения (BBH: 91.6)
Сравнение с DeepSeek-R1.
Ключевые различия в подходах:
1. Doubao-1.5-pro фокусируется на эффективности и мультимодальности, стремясь достичь максимальной производительности при минимальных ресурсах.
2. DeepSeek-R1 делает акцент на улучшении способностей к рассуждению через масштабное обучение с подкреплением.
Практические выводы:
- Doubao-1.5-pro может быть предпочтительнее для задач, требующих эффективного использования ресурсов и мультимодальных возможностей.
- #DeepSeek-R1 лучше подходит для сложных задач рассуждения и может быть легче интегрирован благодаря открытому исходному коду
Обе модели представляют собой значительный шаг вперёд в развитии языковых моделей, но с разными приоритетами в своей архитектуре и оптимизации.
Doubao-1.5-pro - закрытая ИИ-модель с акцентом на оптимальный баланс производительности и эффективности использования ресурсов.
1. Архитектурные характеристики :
- Использует разреженную MoE (Mixture of Experts) архитектуру
- Достигает 7-кратного увеличения эффективности параметров по сравнению с плотными моделями
- Требует значительно меньше активных параметров при сохранении высокой производительности
- Превосходит показатели Llama3.1-405B при меньших вычислительных затратах
2. Мультимодальные возможности:
- Встроенная поддержка обработки изображений и речи
- Оригинальная система динамического разрешения для работы с изображениями
- Улучшенное понимание визуального контекста
- Интеграция речевых возможностей на уровне архитектуры
3. Производительность:
- На MMLU: 88.6%
- GPQA: 65.0%
- Показывает сильные результаты в задачах рассуждения (BBH: 91.6)
Сравнение с DeepSeek-R1.
Ключевые различия в подходах:
1. Doubao-1.5-pro фокусируется на эффективности и мультимодальности, стремясь достичь максимальной производительности при минимальных ресурсах.
2. DeepSeek-R1 делает акцент на улучшении способностей к рассуждению через масштабное обучение с подкреплением.
Практические выводы:
- Doubao-1.5-pro может быть предпочтительнее для задач, требующих эффективного использования ресурсов и мультимодальных возможностей.
- #DeepSeek-R1 лучше подходит для сложных задач рассуждения и может быть легче интегрирован благодаря открытому исходному коду
Обе модели представляют собой значительный шаг вперёд в развитии языковых моделей, но с разными приоритетами в своей архитектуре и оптимизации.
Telegram
All about AI, Web 3.0, BCI
ByteDance unveils Doubao-1.5-pro that seems to be world class, comparable or better to GPT-4o, latest Gemini, DS & Claude.
Its MoE architecture explores balance bw model & reasoning.
It build highly autonomous data production system & not using data from…
Its MoE architecture explores balance bw model & reasoning.
It build highly autonomous data production system & not using data from…
О том, что #DeepSeek дизраптит развитие ИИ мы писали ещё в ноябре 2024 https://yangx.top/blockchainRF/10885
Все то, что вы видите сейчас, наш канал @blockchainrf написал прогноз 2 месяца назад.
Все посты с #DeepSeek теперь с хэштегами, так вам будет удобнее ориентироваться в релизах и их таймлайне.
Все то, что вы видите сейчас, наш канал @blockchainrf написал прогноз 2 месяца назад.
Все посты с #DeepSeek теперь с хэштегами, так вам будет удобнее ориентироваться в релизах и их таймлайне.
Telegram
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Открытый исходный код новой китайской модели может стать катализатором больших изменений в развитии ИИ.
Хронология событий:
В сентябре 2024 года OpenAI представила превью своих новых моделей o1-preview и o1-mini, демонстрирующих революционные способности…
Хронология событий:
В сентябре 2024 года OpenAI представила превью своих новых моделей o1-preview и o1-mini, демонстрирующих революционные способности…