AI LAB | Лаборатория ИИ
1.63K subscribers
549 photos
410 videos
23 files
840 links
Лаборатория ИИ
Эксперименты и интересные материалы на тему ИИ в архитектурном проектировании и не только.

По всем вопросам 24/7
@unrealartur

Вопросы сотрудничества и соучастия
@j_fede
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
3D-R1 на Hugging Face

3D-R1 — это универсальная модель с открытым исходным кодом, которая улучшает логику 3D VLM для унифицированного понимания сцены.
https://huggingface.co/papers/2507.23478
👍51
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Прорыв в зрительно-моторной политике через обучение на видеоданных

Можно ли обучить зрительно-моторную политику только на видеосъёмке? Новая статья показывает, что обучение созданию видео без данных о действиях обеспечивает мощное обобщение для новых задач!

* Зрительно-моторная политика — это алгоритм ИИ, который связывает визуальные данные (видео, изображения) с действиями, позволяя роботам или системам выполнять задачи, такие как движение или манипуляция объектами, на основе того, что они "видят".
https://arxiv.org/abs/2508.00795
👍21🔥1
#вкопилкуэрудита #unrealneural #пытаюсьпонять
Новый механизм внимания, Dynamic Sparse Attention.

Авторы провели обширную оценку, которая показала хорошую производительность. С помощью DSA модель генерирует маску внимания, а эффективное ядро экономит вычисления.
https://arxiv.org/pdf/2508.02124
22👍1
#unrealneural
Пообщался с GPT-5-nano и спросил что нового он умеет с пунктами применимости для задач девелопмента и архитектурного проектирования

1. Расширенный контекст и лучшее удержание информации в рамках одной сессии.
Применимость: держать требования, user stories и архитектурные решения в связной беседе, легче прослеживать связь между ними.
Примеры использования: сбор backlog, acceptance criteria и ADR в рамках одной встречи; быстрый доступ к контексту при дальнейшем обсуждении.

2. Улучшенная логика и планирование решений.
Применимость: чётче формулировать архитектурные паттерны, выбор технологий и trade-offs; улучшает обоснование в design docs.
Примеры использования: сравнение монолит vs микросервисы, выбор базы данных с аргументацией по масштабируемости и стоимости.

3. Улучшенная генерация кода и отладка.
Применимость: ускорение старта проекта, создание тестовой инфраструктуры, упрощение рефакторинга и объяснение логики.
Примеры использования: генерация каркасов REST/GraphQL сервисов, тестовых наборов, комментариев к сложным алгоритмам.

4. Мультимодальность: работа с изображениями и диаграммами.
Применимость: анализ UML/архитектурных диаграмм, мокапов и UI-скриншотов, сопоставление диаграмм с требованиями.
Примеры использования: конвертация диаграмм в спецификации API, верификация соответствия UI-решений требованиям.

5. Улучшенная работа с структурированными данными (JSON, YAML, OpenAPI/Swagger, SQL-схемы).
Применимость: работа с API-спецификациями, конфигурациями развёртывания, моделями данных и контрактами между сервисами.
Примеры использования: генерация OpenAPI из требований, валидация JSON-схем, автоматическое создание миграций.

6. Адаптация под стиль проекта и шаблоны документов.
Применимость: единый стиль кода и документации, ускоренная подготовка design docs и API-справок.
Примеры использования: настройка шаблонов ADR, API-документации и README; выравнивание форматов под команду.

7. Безопасность, приватность и этическая ответственность.
Применимость: безопасная разработка, соответствие политик приватности и комплаенсу, минимизация рисков.
Примеры использования: рекомендации по приватности по дизайну, аудит безопасности архитектурных решений, фильтры контента на стадии ревью.

8. Локализация и многоязычность.
Применимость: подготовка интернационализированной документации и интерфейсов, работа с локализованными требованиями.
Примеры использования: переводы требований и инструкций, подготовка локализованных UI-сообщений.

9. Точность и устойчивость к галлюцинациям.
Применимость: критические решения и верификация идей на ранних этапах; точные пояснения и примеры.
Примеры использования: проверки фактов в архитектурных вариациях, привязка предложений к источникам и чек-листам.

10. Планирование проектов и задач.
Применимость: создание roadmaps, планов спринтов и оценки трудозатрат.
Примеры использования: распланировать этапы проекта, распределение задач по спринтам, оценка времени и зависимостей.

11. Персонализация под проект.
Применимость: адаптация стиля коммуникации, форматов документов и уровня детализации под команду.
Примеры использования: настройка уровня технической детализации в доках, подбор подходящих форматов отчетности.
👍6🔥51
#unrealneural #AILAB #ЛабораторияИИ
GPT 5
Генератор планировок в svg

Тестирую на архитектурные способности новую модель.
"Создай планировку 2 комнатной квартиры с гардеробной, кухней-гостиной, спальней, прихожей и раздельным с/у. Подпиши везде площади и добавь маршрут перемещения внутри квартиры. Обозначь размеры, окна, двери и мебель."
5🤪5👍2🤯1
#unrealneural #AILAB #ЛабораторияИИ
GPT 5
Генерация изображений

Тестирую на архитектурные способности новую модель.
"Нарисуй 15 этажное здание с террасами. Фасад сделай параметричным, используй теплые и яркие цвета. День. Лето. Современное благоустройство."
👍542👎1
#unrealneural #AILAB #ЛабораторияИИ
GPT 5
Генерация геометрии в obj

Тестирую на архитектурные способности новую модель.
"Сгенерируй 5-этажное здание с террасами в стиле Ф. Л. Райта с окнами и деталями фасада."
😁6🤔21💩1🗿1
😁16🔥62💯2
#unrealneural
R-Zero

От лаборатория Tencent AI
Структура, позволяющая большим языковым моделям самостоятельно развивать свои способности к рассуждению без использования данных, отобранных человеком, через автономный цикл "Испытатель-Решатель".
https://github.com/Chengsong-Huang/R-Zero
👍3🔥31
#unrealneural
From GPT-2 to gpt-oss: Analyzing the Architectural Advances

Автор-исследователь анализирует новые открытые модели OpenAI — gpt-oss-120b и gpt-oss-20b, подчеркивая их архитектурные усовершенствования, включая оптимизацию памяти и механизмов внимания, по сравнению с GPT-2. Модели адаптированы для локального использования, что делает их доступными для разработчиков с ограниченными ресурсами. Информативный обзор, демонстрирующий стремительное развитие архитектуры моделей до нового уровня.

https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the?r=1csfkw
31👍1
Media is too big
VIEW IN TELEGRAM
#unrealneural
Одна из лучших визуализаций работы LLM
👍3🔥2😐21🏆1
#unrealneural #ЛабораторияИИ
GNN + BIM для генерирования планировок и автоматического формирования моделей

В статье "From Photons to Physics: Autonomous Indoor Drones and the Future of Objective Property Assessment"("От фотонов к физике: автономные дроны для помещений и будущее объективной оценки недвижимости") подробно отмечают тренд: обученные на тысячах проектов графовые нейросети могут генерировать планировки, сразу формируя соответствующие BIM‑объекты с корректной классификацией и связями по кодам. Это хороший маркер направления интеграции ИИ в BIM. Таким образом, связка GNN и BIM открывает путь к полностью автоматизированному проектированию, где архитектурная логика и нормативные требования соблюдаются уже на этапе генерации. В перспективе это позволит объединить проектирование, контроль и управление зданием в единую интеллектуальную систему, минимизируя человеческий фактор и ускоряя весь жизненный цикл объекта.
https://arxiv.org/html/2508.01965v1?
3👍21
#unrealneural
CAD-Judge — верифицируемый text2CAD генератор

Описывается система с верифицируемым модулем оценки качества text2CAD моделей. Архитектура сочетает быстрый прямой сигнал вознаграждения (Compiler-as-a-Judge) и проверку результатов (Compiler-as-a-Review), а также агентный цикл для исправления ошибок генерации. Эксперименты подтверждают высокую точность и эффективность метода.
https://arxiv.org/html/2508.04002v1
🔥3👍21
#unrealneural
"Неравный брак. Продолжение."

Сходил в Третьяковскую галерею и не удержался пофантазировать на тему продолжения картины «Неравный брак» (Василий Пукирев, 1862).

Насколько же умны сейчас мультимодальные модели, что способны не только распознавать сюжет, придумывать оригинальное продолжение 😃 и детали, но и сохранять стилистику, передавая эмоции.
😁17🔥5
#unrealneural
Bifrost-1

Объединение мультимодальных моделей LLM и моделей диффузии с латентными элементами CLIP на уровне патчей

https://huggingface.co/papers/2508.05954
21👍1
#unrealneural
MolmoAct

Модели действий, которые могут рассуждать в пространстве.

Через восприятие, планирование и управление создаются точные действия, превосходя конкурентов в симуляциях и реальных задачах. Модель легко адаптируется к новым условиям и демонстрирует выдающиеся результаты в сложных операциях.

https://huggingface.co/papers/2508.07917
2👍2🔥1
#unrealneural #пытаюсьпонять
Registration beyond Points: General Affine Subspace Alignment via Geodesic Distance on Grassmann Manifold

Статья представляет новый метод для точного выравнивания объектов (прямых и плоскостей) в компьютерном зрении с использованием геодезического расстояния на многообразии Грассмана. Авторы разработали формулу, которая явно измеряет расстояние между подпространствами с учетом поворотов и смещений, используя базисы подпространств. Метод избегает неоднозначностей, находит глобально оптимальное решение и превосходит существующие подходы в задачах компьютерного зрения, улучшая сходимость и производительность.

Проще говоря, этот метод позволяет точно выравнивать объекты в компьютерном зрении, вычисляя оптимальное расстояние между подпространствами с учетом их поворотов и смещений, обеспечивая более эффективное решение по сравнению с предыдущими подходами.

* Многообразие Грассмана — это пространство всех ( k )-мерных линейных подпространств в ( n )-мерном векторном пространстве.

https://www.arxiv.org/abs/2507.17998
2👍1😢1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Matrix-Game 2.0

Интерактивная модель мира с открытым исходным кодом в реальном времени с большой продолжительностью действия.

На прошлой неделе Genie 3 от DeepMind выпустил интерактивные модели мира, работающие в режиме realtime.

Но они не были в открытом доступе.

25 кадров в секунду. Интерактивное взаимодействие длится несколько минут. Полностью открытый исходный код.

https://matrix-game-v2.github.io/
https://huggingface.co/Skywork/Matrix-Game-2.0
2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
VertexRegen
Вместо типичных неполных меш моделей, которые получаются при их генерации с помощью авторегрессии, VertexRegen генерирует всё более подробные сетки по мере увеличения длины генерируемой последовательности.

vertexregen.github.io
2👍21
#unrealneural
GLEAM: развитие 3D-картографирования

На ICCV 2025 представлена GLEAM — универсальная модель исследования для автономного картографирования сложных помещений.

GLEAM-Bench - Датасет из 1152 сцен для обучения и тестирования

https://github.com/zjwzcx/GLEAM
👍31🔥1