Anthropic представила Claude 3.7 Sonnet
Официальный релиз состоялся 24 февраля, но так и не был представлен долгожданный поисковой агент, зато представили адаптированную рассуждающую модель.
Anthropic смещает приоритеты в сторону программирования и пользовательских агентов – именно на этом была построена большая часть презентации.
🔘Anthropic представила Claude Code, инструмент командной строки для кодирования, который находится в ограниченном предварительном исследовании. Этот инструмент может искать, читать и редактировать код, писать и запускать тесты, а также взаимодействовать с GitHub, поддерживая разработку на основе тестов, отладку и рефакторинг.
🔘Одной из ключевых особенностей является гибридный режим, позволяющий пользователям выбирать между стандартным режимом для быстрых ответов и расширенным режимом для углубленного, пошагового мышления.
🔘Новая версия демонстрирует лучшую производительность в решении многошаговых задач, включая математику, финансовый анализ, юридические запросы и даже прохождение сложных игровых сценариев. Это делает её особенно полезной (потенциально, на практике не так все хорошо, как в презентациях) для бизнес-приложений и научных исследований, где требуется высокая надёжность и прозрачность работы модели.
🔘Расширенный режим мышления значительно улучшает результаты в математике, программировании и науке.
🔘Внутренние тесты Anthropic показали, что новая модель уменьшает количество необоснованных отказов в ответах примерно на 45% по сравнению с предыдущей версией. Снижено количество ошибок в генерации (галлюцинации).
🔘Модель поддерживает контекст до 200K токенов и может генерировать до 128K выходных токенов.
По тестам от Anthropic выглядит впечатляюще, но не революционно. Плюс-минус сопоставимо с GPT o1/o3-high, DeepSeek R1 и Grok 3 в зависимости от тестов, но интегрально претендует на лучшую в мире LLM, конкурируя с Grok 3.
Качественного прорыва не произошло, справедливо говорить о выравнивании конкуренции.
Таким образом, на 25 февраля в мире существуют только 5 передовых рассуждающих моделей:
• Claude 3.7 Sonnet Thinking
• Grok 3 Reasoner
• GPT o1/o3-high
• DeepSeek R1
• Gemini 2.0 Thinking mode.
Anthropic ожидаемо врывается в группу лидеров, но нужны более полные тесты. Мне удалось познакомиться с Grok 3 и соглашусь с утверждением, что это одна из лучших LLM в мире, а с Claude 3.7 Sonnet ознакомлюсь позже.
Для профессиональных пользователей приоритетным является прямой доступ к платным моделям под тонкую настройку, но большая часть текущих задач решается без углубленных модификаций моделей.
Напомню, что одним из лучших в мире агрегаторов LLM является проект российских разработчиков – Syntx, объединяющий на данный момент доступ к полным моделям GPT o1 PRO/o1/o3-high, Claude 3.7 Sonnet (уже внедрили), Grok 3 Deep Search + Grok 3 Reasoner, DeepSeek R1, Gemini 2.0, Perplexity, Qwen 2.5 Max и другие.
Плюс генераторы изображений (Midjourney с редактором, FLUX, Ideogram 2, Recraft и другие), генераторы видео (SORA, Kling 1.6, MiniMax, Pika 2, RunWay Gen 3, Luma DM и другие) в совокупности с редакторами аудио, фото и видео.
Из преимуществ: стабильность и надежность, оперативное внедрение и обновление новых LLM, лучшая ценовая политика в сравнении с конкурентами и сохранение неиспользованных токенов, если они не были использованы за активный период.
Пока лучшей связкой с точки зрения отдачи на инвестиции продолжаю считать прямой доступ к ChatGPT + Syntx, а далее уже в зависимости от спецификации задач и требований.
Темп инноваций запредельный: DeepSeek R1 в середине января, GPT-o3 в начале февраля, спустя неделю Gemini 2.0, на днях Илон Маск порадовал с Grok 3, а теперь Claude 3.7 Sonnet и возможно в ближайшие недели ожидается прорывной GPT 4.5 Orion.
Планирую сделать собственное обширное тестирование передовых LLM в контексте научно-исследовательских и бизнес-проектов (опубликую результаты в канале), но тут по мере готовности. Мировой порядок стремительно рушится, пока приоритеты немного другие.