Прогресс за год в языковых моделях
Все, что касается ГИИ/языковых моделей (LLM) устаревает в момент публикации, но тем не менее фиксировать актуальную диспозицию весьма полезно и интересно.
Большая часть из критических замечаний, которые я публиковал на протяжении всего 2024 года уже не являются в полной мере актуальными, хотя большая часть фундаментальных ограничений так и не решена. Подробная расшифровка всех слабых и сильных сторон займет слишком много времени – слишком масштабный и комплексный анализ потребуется.
Остановлюсь для начала на списке/реестре наиболее сильных моделей.
Ниже сводная информация о товых языковых моделях:
1. ChatGPT o1: США, OpenAI, сентябрь 2024, контекстное окно 128 тыс токенов.
2. Google Gemini 2 flash: США, Google, декабрь 2024, 2 млн токенов.
3. Claude 3.5 Sonnet: США, Anthropic, октябрь 2024, 200 тыс токенов.
4. Amazon Nova Pro: США, Amazon, декабрь 2024, 300 тыс токенов.
5. Llama 3.3 70B: США, Meta Platforms, декабрь 2024, 128 тыс токенов.
6. xAI Grok: США, xAI, ноябрь 2024, 8 тыс токенов.
7. Phi-3 Medium: США, Microsoft, апрель 2024, 128 тыс токенов.
8. Reka Flash: США, Reka AI, февраль 2024, 128 тыс токенов.
9. Command R+: Канада, Cohere, апрель 2024, 128 тыс токенов.
10. Mistral Large 2: Франция, Mistral AI, июль 2024, 128 тыс токенов.
11. Qwen 2.5: Китай, Alibaba, декабрь 2024, 131 тыс токенов.
12. DeepSeek V3: Китай, DeepSeek, декабрь 2024, 128 тыс токенов.
13. Jamba 1.5 Large: Израиль, AI21 Labs, август 2024, 256 тыс токенов.
14. YandexGPT 4: Россия, Яндекс, октябрь 2024 года, 32 тыс токенов.
15. GigaChat: Россия, Сбербанк, май 2024, 32 тыс токенов.
16. T-Pro: Россия, Т-банк, декабрь 2024, 8 тыс токенов.
Попробовал все, за исключением T-Pro. Мой рейтинг самых мощных по совокупности факторов: OpenAI o1, Claude 3.5 Sonnet, DeepSeek V3, Qwen 2.5 и Google Gemini 2 flash.
Примерно сопоставимы плюс-минус во втором эшелоне: Llama 3.3 70B, Amazon Nova Pro и Mistral Large 2. Все остальные в третьем эшелоне с учетом достаточно слабой модели от Илона Маска.
LLM от Google на протяжении всего 2024 были полным дерьмом, но относительный прогресс наступил только в сентябре с внедрением обновленной модели Gemini 1.5 pro и закрепление успеха в декабре с Gemini 2 flash.
Очень удивили китайцы (DeepSeek V3 и Qwen 2.5) – вполне тянут на открытие года и самый значимый прогресс. DeepSeek V3 уже точно сильнее GPT-4o, но уступает последней модификации GPT o1.
Конкуренция невероятная. Всего два года назад в это время была на рынке только одна модель GPT 3.5 и как все изменилось.
OpenAI пока вне конкуренции по совокупности факторов, но разрыв уже не такой значительный, как в 2023 (была целая пропасть) и даже, как в середине 2024.
В декабре 2024 вышло очень много обновлений LLM и даже изначально слабая и вечно отстающая Llama смогла сократить отставание с модификацией 3.3 70b, показывая неплохие результаты. В начале 2025 будет модификация 3.3 405b, которая закрепит успех. Также ожидается релиз полной версии Gemini 2, Open AI o3 и Claude 4.0.
Нет универсальной LLM, здесь скорее правильно говорить о комбинациях под конкретные задачи. Например, с текстом хорошо работает Claude 3.5 Sonnet, а с математическими вычислениями сейчас в лидерах OpenAI, DeepSeek и Google.
Удалось ли мне что-либо из представленных LLM внедрить в свои рабочие проекты? НЕТ! Не удалось.
Количество ошибок настолько критически высоко. Время и ресурсы, затраченные на коррекцию ошибок, перекрывают любую потенциальную выгоду. Ни одна из моделей не пригодна для научно-исследовательских проектов в данный момент.
Пока способны закрывать очень узкие локальных задачи в генерации кода и решении математических задач. Уже успех, но до автоматизации и полноценного внедрения очень далеко.
Однако, я верю в будущий успех (1, 2 и 3). Темпы развития ГИИ невероятны, так что впереди много интересного, как и циклы статей, посвященных прогрессу и проблемам во внедрении.