Серия «Новости»

4

Вышла новая модель Ornith-1.0

Серия Новости

Предоставлено новое семейство самообучающихся моделей Ornith-1.0 (https://huggingface.co/collections/deepreinforce-ai/ornith-1...) для агентного кодирования (9B-397B, на базе Gemma 4 и Qwen 3.5).

В процессе RL модель училась решать задачу и генерировать для неё вспомогательные структуры, динамически создавая стратегии, направляющие процесс решения. На каждом шаге RL модель сначала предлагала улучшенный каркас, затем на его основе генерировала траекторию, при этом награда оптимизировала оба этапа совместно.

Борясь со взломом системы вознаграждения, защиту разбили на три уровня. Внешние границы (окружение, инструменты, изоляция тестов) сделали неизменяемыми. Попытки чтения запрещённых файлов или модификации скриптов отсекли детерминированным монитором, обнуляя награду. Скрытые манипуляции, не нарушающие формальные правила, отсеивали замороженным LLM-судьёй.

Для длинных траекторий применяли конвейерный RL с экспоненциальным затуханием весов токенов по их возрасту, чтобы смягчить проблему генерации вне политики.

В результате Ornith-1.0-397B показывает state-of-the-art среди open-source, набрав 77.5 на Terminal-Bench 2.1 и 82.4 на SWE-Bench Verified, превосходя Claude Opus 4.7 и сравнимые открытые модели (MiniMax M3, DeepSeek-V4-Pro). Компактная 9B-версия обошла гораздо более крупные модели (Gemma 4-31B), обеспечив сильные агентные способности на периферийных устройствах.

Показать полностью 3
2

Вышла новая модель для обучения общих агентов Qwen-AgentWorld

Серия Новости

Описана первая нативная модель мира Qwen-AgentWorld (https://huggingface.co/collections/Qwen/qwen-agentworld), охватывающая 7 доменов (MCP, Search, Terminal, SWE, Android, Web, OS) через длинные цепочки рассуждений для общих агентов, позволяющая предсказывать состояние среды по истории взаимодействий и действию агента, дополняя политику.

Первая стадия обучения CPT ввела знания о динамике сред и предметных областях (более 10 млн траекторий и спецкорпуса), вторая стадия SFT активировала явное предсказание следующего состояния как шаблона мышления, третья стадия RL повысила точность симуляции с помощью гибридной награды (рубрики ИИ-судьи и детерминированные правила).

Симуляцию сред успешно масштабировали, воспроизведя тысячи сред (например, 4k реальных OpenClaw) без инфраструктуры. Выполненное на симулированных средах RL агента дало прирост на реальных бенчмарках (Claw-Eval +4.3, QwenClawBench +7.1). Контроль целевыми инъекциями возмущений (ошибки, неполные ответы) в процессе тренировки агента позволил превзойти обучение только на реальных средах (MCPMark +12.3, WideSearch +16.3), а реалистичные вымышленные миры для поискового RL предотвратили утечку параметрических знаний.

LWM-тренировка, применённая как основа агента, послужила разогревом перед прикладными задачами, улучшая показатели на 7 агентных бенчмарках (Terminal-Bench 2.0, SWE-Bench, WideSearch, Claw-Eval и других) за счёт способности мысленно моделировать реакцию среды до совершения действия.

В результате оценки 5 измерений (формат, фактологичность, согласованность, реалистичность и качество) бенчмарк AgentWorldBench, состоящий из реальных взаимодействий 5 передовых моделей на 9 классических задачах, продемонстрировал превосходство Qwen-AgentWorld-397B-A17B над всеми передовыми моделями (средний балл 58.71 против 58.25 у GPT-5.4).

Показать полностью 3
1

Вышла новая модель для генерации изображений Krea 2

Серия Новости

Сделана новая модель Krea 2 (https://huggingface.co/krea/Krea-2-Raw) для творческой генерации с эстетическим разнообразием и гибким контролем.

Собирая данные, исключили AI-изображения, удалили дубликаты, изображения с плохой связкой текста и картинки, а также источники артефактов. Аннотирование выполняли через OCR, детальное VLM-описание и переформатирование в варианты длины (основной упор на длинные подписи).

Поэтапное обучение подразумевало претрейн (с 256 до 512 и до 1024 px) с прогрессивной очисткой и iREPA, Midtraining на целевых источниках с семантической кластеризацией и покрытием редких концептов, SFT с малым высокоэстетичным набором и слияние чекпоинтов, оптимизацию предпочтений, содержащую синтетические и ручные пары вкупе с авторским DPO-вариантом (STPO) против расхождения, RL путём GRPO с несколькими наградами (эстетика, следование промту, текст, артефакты), а ещё промт-специфичные рубрики без CFG и динамический отбор промтов. Финишная TDM дистилляция помогла многошаговому быстрому сэмплированию.

Однопоточную DiT-архитектуру объединили с GQA и независимо взвешивающим вниманием. Использовали SwiGLU, RMSNorm (с нулевым центром) и QKNorm. Применяли 3D осевой RoPE, а Qwen3-VL работал с послойной агрегацией признаков (UniFusion). Лёгкую временную модуляцию получили смещением вместо MLP. Автокодировщик Qwen Image VAE заменили на FLUX 2 VAE.

Пользователи могут контролировать Prompt Expander (SFT и RL), превращающий короткие запросы в детализированные, и Style Reference, переносящий стиль изображений с контролем силы и минимальной утечкой контента.

В результате модель входит в топ-10 лидерборда Artificial Analysis, занимая 2-е место среди независимых лабораторий.

Показать полностью 4
2

Вышла новая модель для оцифровки изображений Unlimited OCR

Серия Новости

У одноэтапных OCR-моделей с LLM-декодером при длинных выводах линейно растёт KV-кеш, замедляя генерацию и увеличивая расход памяти, в отличие от человека.

Unlimited OCR (https://huggingface.co/baidu/Unlimited-OCR) работает по-другому, заменяя все слои внимания декодера на предложенное референтное внимание со скользящим окном (R-SWA).

Базой выбрали DeepSeek OCR, включающий DeepEncoder с высокой компрессией и MoE-архитектуру с 3B параметров, из которых 0.5B активны.

Архитектура R-SWA даёт каждому токену видеть все референс-токены (визуальные и промт) и лишь последние n выходных токенов (по умолчанию 128), поэтому KV-кеш постоянен и визуальные признаки не "размываются", так как исключены из переходов состояний.

Сейчас истинно неограниченный парсинг упирается в длину входной обработки, хотя в будущем планируют удлинить контекст и встроить механизм динамической подгрузки этих данных. Притом R-SWA перспективно для ASR, перевода и других задач с длинным горизонтом.

В результате общая оценка набрала 93% на OmniDocBench v1.5 (+6% к базовому DeepSeek OCR). Была реализована возможность однопроходного парсинга десятков страниц документа при фиксированном KV-кеше и постоянной скорости декодирования, а при 6K токенов вывода скорость (TPS) на 35% выше, чем у DeepSeek OCR, за счёт устранения линейного роста затрат.

Показать полностью 2
0

Вышла новая модель LFM2.5-Embedding-350M и LFM2.5-ColBERT-350M

Серия Новости

Запущены первые двунаправленные модели LFM2.5-Embedding-350M (https://huggingface.co/LiquidAI/LFM2.5-Embedding-350M) и LFM2.5-ColBERT-350M (https://huggingface.co/LiquidAI/LFM2.5-ColBERT-350M) от Liquid AI на основе LFM2.5-350M-Base, предназначенные для быстрого мультиязычного и кросс‑язычного поиска (11 языков) в коротких контекстах, таких как каталоги, FAQ и техподдержка.

Версия Embedding создаёт один плотный вектор на документ, стремясь получить максимальную скорость при минимальном размере индекса, а версия ColBERT генерирует по одному вектору на токен, используя позднее взаимодействие (MaxSim) и обеспечивая повышенную способность к обобщению, хотя индекс становится больше.

Архитектуру модифицировали, и каузальную маску заменили на двунаправленную, что позволило каждому токену видеть левый и правый контекст. Короткие свёртки LFM2 сделали некаузальными (симметричное локальное смешивание). Из общего двунаправленного энкодера достают либо CLS‑пулинг (Embedding), либо токенные эмбеддинги (ColBERT).

На первой стадии обучения проходило крупномасштабное сопоставительное предобучение на английском. Затем следовала стадия мультиязычной и кросс‑язычной дистилляции с сильного учителя (все 11 языков). Конечной стадией была тонкая настройка на сложных негативных примерах. Для всего процесса потребовались данные, извлечённые из курируемых внутренних и открытых английских датасетов, LLM‑перевод запросов и документов, чтобы расширить мультиязычность.

В результате обе модели имеют лучшие в классе показатели с 350M параметров по всем 11 языкам (арабский, немецкий, английский, испанский, французский, итальянский, японский, корейский, норвежский, португальский и шведский), пройдя мультиязычный поиск NanoBEIR, где NanoBEIR English признан подходящим заменителем для полного BEIR (корреляция, сдвиг около 15%), и кросс‑язычные ответы на вопросы MKQA‑11.

Показать полностью 4
3

Представлен новый фреймворк MotionBricks от NVIDIA

Серия Новости

Презентован новый фреймворк MotionBricks (https://nvlabs.github.io/motionbricks/) для синтеза движений в реальном времени, единый для анимации и робототехники.

Существующие генеративные методы не масштабируются под требования продакшена (низкая скорость, нет тонкого контроля), а традиционные графы анимации чрезмерно трудоёмки.

Проблему смогли решить, применив модульное латентное нейросетевое ядро с multi-head токенизатором и прогрессивной генерацией (от траектории корня к позе), достигающей 15 000 FPS при задержке 2 мс. Его совместили с интерфейсом "умных примитивов" Smart Primitives (передвижение, взаимодействие с объектами), который преобразует команды пользователя в целевые ключевые кадры для ядра без файнтюнинга или тегов (zero-shot).

В результате получено качество уровня SOTA на датасетах до 350k клипов, подготовлено демо в UE5 с разнообразным передвижением, акробатикой и взаимодействием с объектами, а также осуществлено развёртывание на роботе Unitree G1 для полнотельного управления.

Показать полностью 3
1

Вышла новая модель FastContext-1.0

Серия Новости

Реализована новая модель FastContext-1.0 (https://huggingface.co/collections/microsoft/swe-fastcontext), обученная эффективно исследовать репозитории для программирующих агентов.

LLM-агенты сталкиваются с проблемой избыточного потребления токенов и засорения контекста при поиске релевантного кода в репозитории, поскольку обычно исследование и решение задачи выполняет одна модель.

Решением стал специализированный под-агент FastContext для разведки репозитория, отделённый от основного решающего агента, который вызывается по запросу, выполняет параллельные вызовы инструментов (Read, Glob, Grep) и возвращает компактный контекст с путями к файлам и диапазонами строк.

Исследовательские модели размером 4B-30B параметров обучались в два этапа. На первом этапе метод SFT (имитация) использовал траектории сильной модели для широкого поиска, сбора улик за несколько шагов и точного цитирования. На втором этапе пошёл метод RL с наградой, привязанной к релевантным строкам из эталонного патча.

В результате в составе Mini-SWE-Agent (бенчмарки SWE-bench Multilingual, Pro, SWE-QA) доля решённых задач повысилась до +5,5%, а расходы токенов основного агента сократились до 60% при минимальных накладных расходах на исследователя.

Показать полностью 4
0

Вышла новая модель VibeThinker-3B

Серия Новости

Озвучена новая модель VibeThinker-3B (https://huggingface.co/WeiboAI/VibeThinker-3B), показывающая, что компактная версия с 3 млрд параметров способна достичь уровня флагманских LLM на задачах с проверяемой логикой (математика, код, STEM).

Пайплайн развивали от "Спектра" к "Сигналу", проходя через SFT и двухэтапное обучение по учебному плану, когда сначала шло широкое покрытие предметов, а затем фокус на трудных длинноцепочечных рассуждениях с финальной дистилляцией, которая сохраняла разнообразие решений. Дальнейший RL представлял собой мультидоменное (математика, код, STEM) обучение с алгоритмом MGPO, единым длинным контекстом (64K) и этапом "Long2Short" для повышения эффективности токенов без потери точности. Отбором и интеграцией лучших траекторий из разных доменов занималась офлайн-самодистилляция. Instruct RL настраивал строгое следование инструкциям без ущерба для рассуждений.

Гипотеза параметрического сжатия-покрытия утверждает, что способности моделей можно разделить на два типа. Способности первого типа, называемые параметрически плотными (верифицируемые рассуждения), могут быть "сжаты" в компактное ядро, не требуя гигантского объёма памяти. Способности второго типа, известные как параметрически экспансивные (открытые знания, общая эрудиция), нуждаются в широком покрытии фактов и длинном хвосте, что приводит к разрыву на GPQA-Diamond (70.2).

В результате её математические умения составляют 94.3 на AIME26 (97.1 с тест-тайм стратегией CLR), 89.3 (95.4) на HMMT25, 80.2 при Pass@1 на LiveCodeBench v6 и 76.4 (80.6) на IMO-AnswerBench, а принятые 96.1% на LeetCode (с апреля по май 2026 года) решения на новых соревнованиях сравнимы с GPT-5.2 и Gemini 3 Flash. На верифицируемых бенчмарках она сопоставима или превосходит модели масштаба DeepSeek V3.2 (671B), Kimi K2.5 (1T) и Gemini 3 Pro, при этом сохраняя инструкционную управляемость (IFEval 93.4).

Показать полностью 2
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества