Серия постов «Новости»

4

Вышла новая модель Ornith-1.0⁠⁠

17 часов назад

Предоставлено новое семейство самообучающихся моделей Ornith-1.0 (https://huggingface.co/collections/deepreinforce-ai/ornith-1...) для агентного кодирования (9B-397B, на базе Gemma 4 и Qwen 3.5).

В процессе RL модель училась решать задачу и генерировать для неё вспомогательные структуры, динамически создавая стратегии, направляющие процесс решения. На каждом шаге RL модель сначала предлагала улучшенный каркас, затем на его основе генерировала траекторию, при этом награда оптимизировала оба этапа совместно.

Борясь со взломом системы вознаграждения, защиту разбили на три уровня. Внешние границы (окружение, инструменты, изоляция тестов) сделали неизменяемыми. Попытки чтения запрещённых файлов или модификации скриптов отсекли детерминированным монитором, обнуляя награду. Скрытые манипуляции, не нарушающие формальные правила, отсеивали замороженным LLM-судьёй.

Для длинных траекторий применяли конвейерный RL с экспоненциальным затуханием весов токенов по их возрасту, чтобы смягчить проблему генерации вне политики.

В результате Ornith-1.0-397B показывает state-of-the-art среди open-source, набрав 77.5 на Terminal-Bench 2.1 и 82.4 на SWE-Bench Verified, превосходя Claude Opus 4.7 и сравнимые открытые модели (MiniMax M3, DeepSeek-V4-Pro). Компактная 9B-версия обошла гораздо более крупные модели (Gemma 4-31B), обеспечив сильные агентные способности на периферийных устройствах.

Показать полностью 3

1

2

user4740118

Вышла новая модель для обучения общих агентов Qwen-AgentWorld⁠⁠

Серия Новости

1 день назад

Описана первая нативная модель мира Qwen-AgentWorld (https://huggingface.co/collections/Qwen/qwen-agentworld), охватывающая 7 доменов (MCP, Search, Terminal, SWE, Android, Web, OS) через длинные цепочки рассуждений для общих агентов, позволяющая предсказывать состояние среды по истории взаимодействий и действию агента, дополняя политику.

Первая стадия обучения CPT ввела знания о динамике сред и предметных областях (более 10 млн траекторий и спецкорпуса), вторая стадия SFT активировала явное предсказание следующего состояния как шаблона мышления, третья стадия RL повысила точность симуляции с помощью гибридной награды (рубрики ИИ-судьи и детерминированные правила).

Симуляцию сред успешно масштабировали, воспроизведя тысячи сред (например, 4k реальных OpenClaw) без инфраструктуры. Выполненное на симулированных средах RL агента дало прирост на реальных бенчмарках (Claw-Eval +4.3, QwenClawBench +7.1). Контроль целевыми инъекциями возмущений (ошибки, неполные ответы) в процессе тренировки агента позволил превзойти обучение только на реальных средах (MCPMark +12.3, WideSearch +16.3), а реалистичные вымышленные миры для поискового RL предотвратили утечку параметрических знаний.

LWM-тренировка, применённая как основа агента, послужила разогревом перед прикладными задачами, улучшая показатели на 7 агентных бенчмарках (Terminal-Bench 2.0, SWE-Bench, WideSearch, Claw-Eval и других) за счёт способности мысленно моделировать реакцию среды до совершения действия.

В результате оценки 5 измерений (формат, фактологичность, согласованность, реалистичность и качество) бенчмарк AgentWorldBench, состоящий из реальных взаимодействий 5 передовых моделей на 9 классических задачах, продемонстрировал превосходство Qwen-AgentWorld-397B-A17B над всеми передовыми моделями (средний балл 58.71 против 58.25 у GPT-5.4).

Показать полностью 3

[моё] Искусственный интеллект Нейронные сети Генерация Генерация текста Чат-бот Qwen Длиннопост

0

1

user4740118

Вышла новая модель для генерации изображений Krea 2⁠⁠

Серия Новости

2 дня назад

Сделана новая модель Krea 2 (https://huggingface.co/krea/Krea-2-Raw) для творческой генерации с эстетическим разнообразием и гибким контролем.

Собирая данные, исключили AI-изображения, удалили дубликаты, изображения с плохой связкой текста и картинки, а также источники артефактов. Аннотирование выполняли через OCR, детальное VLM-описание и переформатирование в варианты длины (основной упор на длинные подписи).

Поэтапное обучение подразумевало претрейн (с 256 до 512 и до 1024 px) с прогрессивной очисткой и iREPA, Midtraining на целевых источниках с семантической кластеризацией и покрытием редких концептов, SFT с малым высокоэстетичным набором и слияние чекпоинтов, оптимизацию предпочтений, содержащую синтетические и ручные пары вкупе с авторским DPO-вариантом (STPO) против расхождения, RL путём GRPO с несколькими наградами (эстетика, следование промту, текст, артефакты), а ещё промт-специфичные рубрики без CFG и динамический отбор промтов. Финишная TDM дистилляция помогла многошаговому быстрому сэмплированию.

Однопоточную DiT-архитектуру объединили с GQA и независимо взвешивающим вниманием. Использовали SwiGLU, RMSNorm (с нулевым центром) и QKNorm. Применяли 3D осевой RoPE, а Qwen3-VL работал с послойной агрегацией признаков (UniFusion). Лёгкую временную модуляцию получили смещением вместо MLP. Автокодировщик Qwen Image VAE заменили на FLUX 2 VAE.

Пользователи могут контролировать Prompt Expander (SFT и RL), превращающий короткие запросы в детализированные, и Style Reference, переносящий стиль изображений с контролем силы и минимальной утечкой контента.

В результате модель входит в топ-10 лидерборда Artificial Analysis, занимая 2-е место среди независимых лабораторий.

Показать полностью 4

[моё] Искусственный интеллект Нейронные сети Арты нейросетей Арт Картинки Генерация Генерация изображений Длиннопост

1

2

user4740118

Вышла новая модель для оцифровки изображений Unlimited OCR⁠⁠

Серия Новости

3 дня назад

У одноэтапных OCR-моделей с LLM-декодером при длинных выводах линейно растёт KV-кеш, замедляя генерацию и увеличивая расход памяти, в отличие от человека.

Unlimited OCR (https://huggingface.co/baidu/Unlimited-OCR) работает по-другому, заменяя все слои внимания декодера на предложенное референтное внимание со скользящим окном (R-SWA).

Базой выбрали DeepSeek OCR, включающий DeepEncoder с высокой компрессией и MoE-архитектуру с 3B параметров, из которых 0.5B активны.

Архитектура R-SWA даёт каждому токену видеть все референс-токены (визуальные и промт) и лишь последние n выходных токенов (по умолчанию 128), поэтому KV-кеш постоянен и визуальные признаки не "размываются", так как исключены из переходов состояний.

Сейчас истинно неограниченный парсинг упирается в длину входной обработки, хотя в будущем планируют удлинить контекст и встроить механизм динамической подгрузки этих данных. Притом R-SWA перспективно для ASR, перевода и других задач с длинным горизонтом.

В результате общая оценка набрала 93% на OmniDocBench v1.5 (+6% к базовому DeepSeek OCR). Была реализована возможность однопроходного парсинга десятков страниц документа при фиксированном KV-кеше и постоянной скорости декодирования, а при 6K токенов вывода скорость (TPS) на 35% выше, чем у DeepSeek OCR, за счёт устранения линейного роста затрат.

Показать полностью 2

[моё] Искусственный интеллект Нейронные сети Генерация Генерация текста Ocr Оцифровка

1

0

user4740118

Вышла новая модель LFM2.5-Embedding-350M и LFM2.5-ColBERT-350M⁠⁠

Серия Новости

4 дня назад

Запущены первые двунаправленные модели LFM2.5-Embedding-350M (https://huggingface.co/LiquidAI/LFM2.5-Embedding-350M) и LFM2.5-ColBERT-350M (https://huggingface.co/LiquidAI/LFM2.5-ColBERT-350M) от Liquid AI на основе LFM2.5-350M-Base, предназначенные для быстрого мультиязычного и кросс‑язычного поиска (11 языков) в коротких контекстах, таких как каталоги, FAQ и техподдержка.

Версия Embedding создаёт один плотный вектор на документ, стремясь получить максимальную скорость при минимальном размере индекса, а версия ColBERT генерирует по одному вектору на токен, используя позднее взаимодействие (MaxSim) и обеспечивая повышенную способность к обобщению, хотя индекс становится больше.

Архитектуру модифицировали, и каузальную маску заменили на двунаправленную, что позволило каждому токену видеть левый и правый контекст. Короткие свёртки LFM2 сделали некаузальными (симметричное локальное смешивание). Из общего двунаправленного энкодера достают либо CLS‑пулинг (Embedding), либо токенные эмбеддинги (ColBERT).

На первой стадии обучения проходило крупномасштабное сопоставительное предобучение на английском. Затем следовала стадия мультиязычной и кросс‑язычной дистилляции с сильного учителя (все 11 языков). Конечной стадией была тонкая настройка на сложных негативных примерах. Для всего процесса потребовались данные, извлечённые из курируемых внутренних и открытых английских датасетов, LLM‑перевод запросов и документов, чтобы расширить мультиязычность.

В результате обе модели имеют лучшие в классе показатели с 350M параметров по всем 11 языкам (арабский, немецкий, английский, испанский, французский, итальянский, японский, корейский, норвежский, португальский и шведский), пройдя мультиязычный поиск NanoBEIR, где NanoBEIR English признан подходящим заменителем для полного BEIR (корреляция, сдвиг около 15%), и кросс‑язычные ответы на вопросы MKQA‑11.

Показать полностью 4

[моё] Искусственный интеллект Нейронные сети Генерация Генерация текста Чат-бот Длиннопост

1

3

user4740118

Представлен новый фреймворк MotionBricks от NVIDIA⁠⁠

Серия Новости

5 дней назад

Презентован новый фреймворк MotionBricks (https://nvlabs.github.io/motionbricks/) для синтеза движений в реальном времени, единый для анимации и робототехники.

Существующие генеративные методы не масштабируются под требования продакшена (низкая скорость, нет тонкого контроля), а традиционные графы анимации чрезмерно трудоёмки.

Проблему смогли решить, применив модульное латентное нейросетевое ядро с multi-head токенизатором и прогрессивной генерацией (от траектории корня к позе), достигающей 15 000 FPS при задержке 2 мс. Его совместили с интерфейсом "умных примитивов" Smart Primitives (передвижение, взаимодействие с объектами), который преобразует команды пользователя в целевые ключевые кадры для ядра без файнтюнинга или тегов (zero-shot).

В результате получено качество уровня SOTA на датасетах до 350k клипов, подготовлено демо в UE5 с разнообразным передвижением, акробатикой и взаимодействием с объектами, а также осуществлено развёртывание на роботе Unitree G1 для полнотельного управления.

Показать полностью 3

[моё] Искусственный интеллект Нейронные сети Генерация Робот Робототехника Исследования Nvidia Длиннопост

0

1

user4740118

Вышла новая модель FastContext-1.0⁠⁠

Серия Новости

6 дней назад

Реализована новая модель FastContext-1.0 (https://huggingface.co/collections/microsoft/swe-fastcontext), обученная эффективно исследовать репозитории для программирующих агентов.

LLM-агенты сталкиваются с проблемой избыточного потребления токенов и засорения контекста при поиске релевантного кода в репозитории, поскольку обычно исследование и решение задачи выполняет одна модель.

Решением стал специализированный под-агент FastContext для разведки репозитория, отделённый от основного решающего агента, который вызывается по запросу, выполняет параллельные вызовы инструментов (Read, Glob, Grep) и возвращает компактный контекст с путями к файлам и диапазонами строк.

Исследовательские модели размером 4B-30B параметров обучались в два этапа. На первом этапе метод SFT (имитация) использовал траектории сильной модели для широкого поиска, сбора улик за несколько шагов и точного цитирования. На втором этапе пошёл метод RL с наградой, привязанной к релевантным строкам из эталонного патча.

В результате в составе Mini-SWE-Agent (бенчмарки SWE-bench Multilingual, Pro, SWE-QA) доля решённых задач повысилась до +5,5%, а расходы токенов основного агента сократились до 60% при минимальных накладных расходах на исследователя.

Показать полностью 4

[моё] Искусственный интеллект Нейронные сети Генерация Генерация текста Чат-бот Длиннопост

1

0

user4740118

Вышла новая модель VibeThinker-3B⁠⁠

Серия Новости

7 дней назад

Озвучена новая модель VibeThinker-3B (https://huggingface.co/WeiboAI/VibeThinker-3B), показывающая, что компактная версия с 3 млрд параметров способна достичь уровня флагманских LLM на задачах с проверяемой логикой (математика, код, STEM).

Пайплайн развивали от "Спектра" к "Сигналу", проходя через SFT и двухэтапное обучение по учебному плану, когда сначала шло широкое покрытие предметов, а затем фокус на трудных длинноцепочечных рассуждениях с финальной дистилляцией, которая сохраняла разнообразие решений. Дальнейший RL представлял собой мультидоменное (математика, код, STEM) обучение с алгоритмом MGPO, единым длинным контекстом (64K) и этапом "Long2Short" для повышения эффективности токенов без потери точности. Отбором и интеграцией лучших траекторий из разных доменов занималась офлайн-самодистилляция. Instruct RL настраивал строгое следование инструкциям без ущерба для рассуждений.

Гипотеза параметрического сжатия-покрытия утверждает, что способности моделей можно разделить на два типа. Способности первого типа, называемые параметрически плотными (верифицируемые рассуждения), могут быть "сжаты" в компактное ядро, не требуя гигантского объёма памяти. Способности второго типа, известные как параметрически экспансивные (открытые знания, общая эрудиция), нуждаются в широком покрытии фактов и длинном хвосте, что приводит к разрыву на GPQA-Diamond (70.2).

В результате её математические умения составляют 94.3 на AIME26 (97.1 с тест-тайм стратегией CLR), 89.3 (95.4) на HMMT25, 80.2 при Pass@1 на LiveCodeBench v6 и 76.4 (80.6) на IMO-AnswerBench, а принятые 96.1% на LeetCode (с апреля по май 2026 года) решения на новых соревнованиях сравнимы с GPT-5.2 и Gemini 3 Flash. На верифицируемых бенчмарках она сопоставима или превосходит модели масштаба DeepSeek V3.2 (671B), Kimi K2.5 (1T) и Gemini 3 Pro, при этом сохраняя инструкционную управляемость (IFEval 93.4).

Показать полностью 2

[моё] Искусственный интеллект Нейронные сети Генерация Генерация текста Чат-бот

1

Серия «Новости»

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества