Ключевые моменты
Исследования показывают, что Qwen QwQ 32B, несмотря на меньший размер, показывает результаты, сопоставимые с DeepSeek 671B в стандартных тестах, но в нарративных тестах, таких как анализ сюжета «Звёздных войн», допускает ошибки. Это делает DeepSeek 671B предпочтительным для критически важных задач, где точность важна, например, в юриспруденции или медицине.
О моделях
Qwen QwQ 32B — это модель с 32 миллиардами параметров от Alibaba, которая хорошо справляется с задачами рассуждения. DeepSeek 671B — модель с 671 миллиардом параметров от DeepSeek AI, известная своей надёжностью в сложных сценариях.
Сравнение в тестах
На тестах, таких как AIME24 (математическое мышление) и BFCL (вызов функций), Qwen QwQ 32B иногда превосходит DeepSeek 671B, например, 79,5 против 79,8 на AIME24 и 66,4 против 60,3 на BFCL. Однако в нарративных тестах, где требуется понимание контекста, Qwen допускает ошибки, например, путает локации в «Звёздных войнах».
Почему это важно
В профессиональных сферах, таких как право или медицина, даже мелкие ошибки могут быть опасны. Например, в юриспруденции AI однажды сгенерировал вымышленные судебные решения, что привело к штрафам для адвокатов (Forbes).
Неожиданный аспект
Интересно, что меньшие модели, как Qwen QwQ 32B, используют методы, такие как обучение с подкреплением, чтобы конкурировать с большими моделями, но всё же не достигают их надёжности в сложных задачах.
Отчёт: Подробный анализ разрыва между DeepSeek 671B и иллюзорной мощью Qwen QwQ 32B
Введение
В мире искусственного интеллекта разгораются споры: могут ли сравнительно небольшие модели, такие как Qwen QwQ 32B, превзойти или хотя бы заменить гигантов, таких как DeepSeek 671B, в задачах, требующих высокой точности? Недавний пример — противостояние между Qwen QwQ 32B (32 миллиарда параметров от Alibaba) и DeepSeek 671B (671 миллиард параметров). QwQ 32B привлекла внимание тем, что при меньшем размере показывает результаты, сопоставимые с DeepSeek, в ряде стандартных тестов. Однако в профессиональных задачах, где цена ошибки высока, выбор компактной модели может быть рискованным.
Описание моделей
Qwen QwQ 32B — это модель, разработанная командой Qwen от Alibaba, с 32 миллиардами параметров, предназначенная для сложных задач рассуждения. Она доступна на платформах, таких как Hugging Face и DataCamp, и использует методы, такие как обучение с подкреплением (RL), чтобы улучшить свои способности. DeepSeek 671B, с другой стороны, — модель от DeepSeek AI с 671 миллиардом параметров, известная своей надёжностью в задачах рассуждения. Она доступна на Ollama и требует значительных вычислительных ресурсов, таких как серверы с сотнями гигабайт памяти GPU, в отличие от Qwen, которую можно запустить на одном высокопроизводительном настольном ПК.
Сравнение на стандартных тестах
На стандартных бенчмарках, таких как AIME24 (тест на математическое мышление) и BFCL (оценка вызова функций), Qwen QwQ 32B показывает впечатляющие результаты. Например, на AIME24 Qwen набрала 79,5 баллов против 79,8 у DeepSeek, а на BFCL — 66,4 против 60,3 у DeepSeek, что указывает на её конкурентоспособность (Papers with Code, Berkeley Function Calling Leaderboard). Эти тесты включают задачи, такие как решение математических задач и вызов функций в различных языках программирования, что делает их популярными для оценки моделей.
Однако автор статьи подчёркивает, что такие тесты могут быть узконаправленными и не отражать реальных сценариев. Например, модели могут быть оптимизированы под формат тестов, что приводит к завышенным оценкам, особенно если часть тестовых данных попала в обучающую выборку. Исследования, такие как Leaders Opinion: The Problems with LLM Benchmarks, указывают на риск загрязнения данных и ограниченную обобщающую способность моделей.
Нарративные тесты: Глубокий анализ
Для более тщательной оценки интеллектуальных способностей моделей используются нарративные тесты — задания в форме связных историй или сценариев. Они требуют от модели удерживать в памяти множество деталей и правил, как это происходит в реальной жизни. В качестве примера был выбран мир «Звёздных войн», богатый персонажами, событиями и связями. Обе модели получили вопрос: «Опишите отношения между Люком Скайуокером и Дартом Вейдером, учитывая их взаимодействие в фильме “Империя наносит ответный удар” и последующие события в “Возвращении джедая”. Объясните, как эти отношения развивались и какие ключевые моменты повлияли на их динамику.»
DeepSeek 671B ответил связно и корректно, упомянув, например, драматичное признание Вейдера («Я твой отец») в «Империи…» и его финальную жертву в «Возвращении джедая». Qwen QwQ 32B, хотя и дала структурированный ответ, допустила ошибки:
- Упомянула первую битву в ангаре Death Star II, хотя она произошла на Беспине в «Империи…», а Death Star II появляется только в «Возвращении джедая».
- Неправильно процитировала Вейдера, сказав «Скайуокер, твой отец был уничтожен ядом — ты!», вместо классической фразы «Нет, я твой отец».
- Использовала неточные имена, например, «Вейд» вместо «Вейдер», и добавила вымышленные детали, такие как упоминание яда, отсутствующее в каноне.
Эти ошибки показывают, что Qwen QwQ 32B может терять точность в задачах, требующих глубокого понимания контекста и последовательности событий.
Таблица: Сравнение результатов на тестах
Тест | Qwen QwQ 32B | DeepSeek 671B | Примечания |
---|---|---|---|
AIME24 | 79,5 | 79,8 | Математическое мышление |
BFCL | 66,4 | 60,3 | Вызов функций |
Нарративный тест | Ошибки | Корректно | Анализ сюжета «Звёздных войн» |
Значение точности в профессиональных сферах
В профессиональных задачах, таких как юриспруденция, программирование и медицина, даже небольшие ошибки могут иметь серьёзные последствия. Например, в 2023 году адвокаты были оштрафованы за использование AI, которая сгенерировала вымышленные судебные решения, что привело к потере дела (Forbes). В программировании ошибка в коде, созданном AI, может привести к сбоям системы или уязвимостям безопасности. В медицине неверная интерпретация симптомов может угрожать жизни пациента.
Эти примеры подчёркивают, почему для критически важных задач предпочтительнее модели, такие как DeepSeek 671B, которые демонстрируют меньшую вероятность ошибок. Qwen QwQ 32B, хотя и экономична, может быть менее надёжной, особенно в сценариях, требующих глубокого контекста.
Будущее и компромиссы
Исследования показывают, что с развитием методов обучения, таких как RLHF, меньшие модели могут улучшить свои способности. Однако на данный момент, как отмечает статья, «улучшенные алгоритмы помогают “малышам” подтянуться, но не могут полностью заменить простую силу масштаба» (The Register). Это указывает на то, что для задач, где ошибка недопустима, выбор в пользу больших моделей, таких как DeepSeek 671B, остаётся оправданным, несмотря на их высокую стоимость.
Заключение
Qwen QwQ 32B — впечатляющий прорыв, предлагающий 80–90% возможностей топ-моделей по более низкой цене. Она найдет применение в задачах, где допустим небольшой риск ошибки. Однако для критически важных профессиональных областей экономить на качестве AI слишком опасно. DeepSeek 671B остаётся выбором, который оправдывает себя, когда ошибаться нельзя.