Какие большие языковые модели сейчас лучшие на рынке?
Сжатая квинтэссенция двух лет работы с LLM и попытки их адаптировать в рабочие процессы.
Так все быстро меняется, что текущий срез окажется неактуальным практически сразу после выхода.
Я пока опущу аудио, фото и видео генерацию, т.к. не являются художником, монтажером, режиссером, дизайнером или музыкантом, чтобы делать профессиональный и компетентные выводы.
При этом я разрабатываю и внедряю передовые аналитические и информационные решения и в этом контексте есть, что сказать.
С точки зрения внедрения в LLM непосредственно в собственные рабочие проекты – прогресса нет никакого за два года, весьма специфические и сложные задачи (здесь требуется серия отдельных материалов, чтобы обосновать все проблемы и ограничения внедрения LLM в бизнес и/или научные проекты).
Сейчас очень краткий разбор того, какие наиболее сильные LLM присутствуют на рынке, т.к. я их пробовал все. Полноценный обзор потребует серии статьей на 5-7 материалов, но пока нет времени на это.
▪️Главные разочарования 2024 года: Perplexity и … Claude!
● Perplexity был очень крут в 2023, представив революционный на тот момент инструмент умного поиска, но они застыли на уровне 2023, не представив ничего существенного за год при сильном прогрессе конкурентов. Perplexity потерял гибкость в глубокой настройке выходного результата и плохо следует инструкциям в разделе «Spaces». Сейчас Perplexity выдает посредственные результаты в сравнении с возможностями конкурентов, не оправдывая стоимость подписки.
● Claude хорош во всем, за исключением того, что нет выхода в сеть. LLM без актуальной инфы – это архаика в 2025. Claude по сути теряет смысл в платной подписке при всех своих преимуществах, не позволяя актуализировать и верифицировать выходную генерацию токенов.
▪️Главные открытия или успех в 2024 году: феерический взлет DeepSeek, прогресс Google и инновации OpenAI.
● DeepSeek – феноменален, это за гранью понимания того, как можно было сделать в ограниченном бюджете и ресурсе настолько волшебную LLM. DeepSeek вне всяких сомнений вызывает восторг и удивление. Прорыв китайцев, который не просто сократил отставание от ведущих американских LLM, но вполне конкурирует и даже опережает их. DeepSeek R1 однозначно намного сильнее, быстрее и лучше, чем последние разработки Anthropic, Google или даже OpenAI, за исключением o1 и o1 pro.
Китайцы в декабре 2024 вызвали настоящую панику среди технологического сегмента США, никто не понимал, как им удалось сделать такой эффективный проект. Ожидаю новых чудес от китайцев.
● Google – это история о том, как очень мощное инженерное подразделение оказалось в тени безумных маркетологов и подразделения, ответственного за публичное внедрение и адаптацию LLM. Суть в том, что основа LLM от Google очень хороша (прогресс за год сильный), но в публичной версии так много ограничений и цензуры, что просто неприемлема для работы.
Я использую исключительно среду для разработчиков Google AI Studio и бета версии непубличных моделей типа Gemini 2.0 Flash Experimental и Gemini 2.0 Flash Thinking. Сильное преимущество Google над всеми остальными – очень четкое следование инструкциям. Если в начале 2024 эффективность LLM от Google была не выше 1% (1 из 100 вопросов был на уровне или выше конкурентов), сейчас ближе к 25%, что уже приемлемо для работы.
● OpenAI – все еще остается неоспоримым лидером по совокупности факторов. Да, ChatGPT 4o безнадежно устарел и архаичен сейчас, но в конце 2024 они выпустили мощные модели o1 и o1 pro, которые снова вырвались в лидеры.
В 4кв24 OpenAI внедрили много полезного – холст, концепцию проектов, куда можно интегрировать окружение контекста (файлы, инструкции, материалы и т.д.), они наконец то внедрили вполне функциональный и работающий поиск.
Гибкость ChatGPT вне конкуренции. Ни одна LLM не предполагает настолько проработанной и гибкой среды, где можно настраивать собственные GPT по инструкциям, имея при этом инструменты верификации результатов через доступ к сети.
Продолжение следует.