Оценка качества технологического прогресса в LLMЧастота презентаций новых масштабных LLM невероятна

Оценка качества технологического прогресса в LLM

Частота презентаций новых масштабных LLM –
невероятна, но каждый релиз имеет схожий паттерн презентации, т.к речь идет об улучшении примерно схожих конфигураций, но каких?

▪️Раньше чаще всего говорилось о количестве параметров, например, 32 млрд, 70 млрд или 400 млрд. Параметры — это веса (или коэффициенты) в нейронной сети, из которой состоит модель. Эти веса определяют, как входные данные (например, текст) преобразуются в выходные данные.

Не всегда увеличение количества параметров приводит к пропорциональному росту эффективности LLM. Во-первых, все определяет качество данных. Модели обученные на мусорных данных получат треш результат на выходе, т.е. исходные данные определяют вообще все, а во-вторых, ключевое значение имеют алгоритмы и архитектура (дестиляция, квантизация, обрезка, оптимизация трансферного обучения и многие другие приемы позволяют урезать модели без потери эффективности).

▪️Ширина контекстного окна (внутренняя память, т.е как глубоко модель помнит текущий диалог в количестве токенов – единица измерения информации, которую LLM «проглатывает» за раз)

В 2023 начинали с 2-8 тыс токенов, сейчас флагманские модели имеют 1 млн и больше (у Llama 4 доходит до 10 млн токенов). Номинальное контекстное окно очень далеко от реального контекстного окна. Практически все модели начинают рассыпаться при определенном пороге насыщения или сложности воспроизведения информации. Это проявляется в виде забывчивости, самопроизвольном отсечении важных деталей в исходной информации.

Практически все LLM так или иначе теряют способность связывать информацию из начала текста с его концом при обработке длинных последовательностей. Одним из преимуществ недавно представленной GPT-4.1 является как раз стабильность воспроизведения информации в широком контекстном окне.

▪️Мультимодальность (способность понимать разную структуру и виды информации, такие как текст, аудио, изображение и видео). Причем даже в рамках текста есть большие различия – одно дело «обычный текст» в виде набора символов, а другое дело сложная структура текста, изъятая из финансовых или макроэкономических отчетов или физико-математических, химических публикациях.

Сейчас разработчики бравируют тем, что новые LLM способны понимать сложные диаграммы, графические схемы и рисунки от руки.

▪️Минимизация галлюцинаций – врожденная и до сих пор неисправимая проблема всех LLM, что не позволяет их использовать в сложных проектах и чувствительных к точности областях (юриспруденция, бизнес-аналитика, финансовый консалтинг, медицина, точные науки и так далее).

Механизмы самопроверки и самооценки, т.е. другими словами внутренний фактчекинг и методы внутренней проверки достоверности ответа пока слабо развиты. Больше пиара пока.

▪️Четкость следования инструкциям и глубина персонализации. Способность к персонализации LLM напрямую зависит от того, как точно LLM способна следовать заданному шаблону представления выходной информации и методах анализа входной информации. Обычно с этим все очень плохо, но релизы LLM в 2025 году делают акцент на четкости следованию инструкциям и возможностям персонализации.

▪️Интеграция с внешними источниками информации. Изначально все LLM были «черными ящиками» с предобученными параметрами и знаниями, которые изначально сильно устарели. Теперь практически все LLM имеют доступ к поиску в сети, а через среду разработчиков позволяют подхватывать внешние базы данных.

▪️Агентские системы — настраиваемость и кастомизация. Создание сценариев, шаблонов, подключение внешних плагинов и инструментов для работы в узкоспециализированных задачах и сценариях.

▪️Механизмы рассуждения. Впервые появились в сентябре 2024 с релизом OpenAI o1 и теперь активно развиваются у всех ведущих разработчиков. Тема сложная и обширная, т.к. очень много алгоритмов глубоких и сложных рассуждений.

▪️Гибкость в обучении. Новые модели могут выполнять задачи с минимальным количеством примеров (few-shot) или вообще без примеров (zero-shot), что позволяет им адаптироваться к новым задачам без переобучения.

Моя стратегия (пароль: INFO) как анализировать российский рынок с помощью анализа объемов и фундаментального анализа.

Добавить комментарий