Открытый бенчмарк 13 моделей на 31 задаче из доменов Sports, HR и Sales. Двухфазная методология, двойной судья. До 77% решений возвращают верное число. Только 22–34% используют логику Set Analysis, эквивалентную эталону. Полные данные и код — на GitHub.
Полный отчёт длиной ~12 минут чтения. Если торопитесь — вот суть.
13 LLM на 31 задаче Qlik Set Analysis из 3 доменов (Sports, HR, Sales) с обучающей платформы qata.datanomix.pro.
Двухфазная методология + проверка стабильности + двойная проверка правильности (число + логика выражения).
Лояльная оценка: 65–77% у топ-моделей. Строгая (эквивалентность логики): 22–34%. Значит много «правильных» ответов получено через альтернативные/неточные выражения.
Использовать LLM только с человеческим ревью или Qlik runtime-валидацией. Лучшая модель — GPT-5 — даёт ~34% строго-правильных. Бюджет: $17.35 из $20.
До 77% решений возвращают верное число — лояльный судья V1 их засчитывает. Но только 22–34% используют логику Set Analysis, эквивалентную эталону. GPT-5 — единственный явный лидер по строгой оценке с 34%.
V1 (лояльный, Opus-судья): засчитан результат, если число совпало с эталонным KPI. V2 (строгий, Sonnet-судья): засчитано, если Set Analysis выражение семантически эквивалентно эталону с qata.datanomix.pro. Из 868 ответов нашли 114 случаев «coincidental correctness» — верное число из неэквивалентного выражения.
Gemini 2.5 Pro, GPT-5, Claude Opus 4.7 — итоговое число совпало с эталоном.
Те же модели — логика эквивалентна референсу. GPT-5 в Phase 2 даёт 34%.
В датасете Sports поле ID уникально per-athlete, поэтому
Count(DISTINCT ID) случайно совпадает с
Count(DISTINCT Name). На датасете с многими ID на спортсмена
та же модель даст другой результат. Это типичный паттерн А из 114
обнаруженных случаев.
Count(DISTINCT {<Sex={"M"}>} Name)
/ Count(DISTINCT Name)
Count({<Sex={'M'}>} DISTINCT ID)
/ Count(DISTINCT ID)
Не брали устаревшие версии (Llama 2, GPT-3.5), variant fine-tunes (roleplay/медицина), мелкие модели (≤8B параметров).
| Категория | Модели | Обоснование |
|---|---|---|
| Топ-премиум | Claude Opus 4.7 · GPT-5 · Gemini 2.5 Pro | Флагманы. Проверить оправданность цены. |
| Средние | Sonnet 4.6 · GPT-5 mini · Gemini 2.5 Flash · Mistral Large · Grok 3 | Sweet spot для production. |
| Бюджетные | Haiku 4.5 · Llama 3.3 70B · Qwen 2.5 72B | Экономия при сохранении качества. |
| Спец. для кода | DeepSeek Coder V3 · Qwen 2.5 Coder 32B | Может ли специализация на коде дать преимущество? |
Задачи — с обучающей платформы qata.datanomix.pro, с эталонными выражениями и автопроверкой. Никаких выдуманных исследователем кейсов.
Отбор: каждая из 13 моделей решает все 31 задачу с одним стандартным промптом. На выходе — leaderboard по V1 и V2.
Топ-5 моделей × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель — проверить эффект промпт-инжиниринга.
V1 (Opus): «число совпало?». V2 (Sonnet): «выражение эквивалентно эталону?». Разница — логический разрыв и есть фокус исследования.
Главное открытие — coincidental correctness, разобран выше. Остальные пять — про reasoning-модели, промпты и стабильность.
Первый прогон: GPT-5 = 0/31,
Gemini 2.5 Pro = 2/31.
Reasoning-модели тратят токены на скрытое размышление; при
max_tokens=500 бюджет уходит на reasoning, ответ
обрезается или пустой.
После max_tokens=4000 + reasoning_effort=low:
GPT-5 → 24/31 (77%),
Gemini 2.5 Pro → 24/31 (77%).
Часть coincidental случаев — легитимные альтернативные решения,
которые на этих данных дают тот же результат и могут считаться
допустимыми в production. Например, если ID гарантированно уникален
per-athlete — Count(distinct ID) = Count(distinct Name) всегда.
Реалистичная оценка — между V1 и V2 интерпретациями.
В Phase 2 тестировали 3 уровня промпта: минимальный, стандартный, обогащённый (примеры + best practices + CoT).
Обогащённый промпт ухудшил 3 из 5 моделей: Sonnet, Gemini Pro, DeepSeek V3. Выиграли только премиум reasoning (Opus, GPT-5).
Средние модели «слепо копируют» структуру из few-shot, теряют гибкость на нестандартных задачах.
DeepSeek V3 с обогащённым промптом показал ниже, чем со стандартным:
V1: 45% → 36% V2: 15%
Промпт-инжиниринг не сокращает разрыв между бюджетными и премиум моделями.
На одинаковых задачах с temperature=0:
Утверждения «X лучше Y на 3-5 п.п.» не доказываются — это шум.
Phase 1: один стандартный промпт, 31 задача. Колонка Coincidental — сколько раз модель «угадала» число при неверной логике.
| # | Model | Provider | V1 (loyal) | V2 (strict) | Coincidental |
|---|---|---|---|---|---|
| 01 | Gemini 2.5 Pro | 77% | 42% | 6 Top | |
| 02 | GPT-5 | OpenAI | 77% | 29% | 9 Top |
| 03 | Claude Opus 4.7 | Anthropic | 68% | 29% | 4 Top |
| 04 | Claude Sonnet 4.6 | Anthropic | 61% | 29% | 5 Mid |
| 05 | Grok 3 | xAI | 55% | 26% | 6 Mid |
| 06 | Claude Haiku 4.5 | Anthropic | 45% | 19% | 6 Mid |
| 07 | DeepSeek V3 | DeepSeek | 42% | 19% | 3 Mid |
| 08 | Mistral Large | Mistral | 35% | 23% | 3 Mid |
| 09 | Gemini 2.5 Flash | 26% | 6% | 5 Low | |
| 10 | GPT-5 mini | OpenAI | 19% | 13% | 2 Low |
| 11 | Qwen 2.5 72B | Alibaba | 19% | 10% | 5 Low |
| 12 | Llama 3.3 70B | Meta | 10% | 6% | 2 Low |
| 13 | Qwen 2.5 Coder 32B | Alibaba | 13% | 3% | 2 Low |
* DeepSeek Coder V3 исключён из таблицы (API broken: 0/31). Полные данные по Phase 2 (5 финалистов × 3 промпта) — в репозитории.
Топ-5 моделей × 31 задача × 3 уровня промпта = 93 ответа на модель. Ранжировано по V2.
| Модель | V2 strict | V1 loyal | Тренд |
|---|---|---|---|
| GPT-5 | 32/93 (34%) | 51/93 (55%) | Единственный явный лидер |
| Gemini 2.5 Pro | 30/93 (32%) | 43/93 (46%) | Close 2nd |
| Claude Opus 4.7 | 24/93 (26%) | 45/93 (48%) | Top tier |
| Claude Sonnet 4.6 | 20/93 (22%) | 43/93 (46%) | Sweet spot |
| DeepSeek V3 | 14/93 (15%) | 27/93 (29%) | Budget |
70% бюджета съел LLM-as-judge (Claude Opus в V1). При повторе с Sonnet (V2) стоимость в 14 раз ниже за то же количество ответов.
| Модель · Роль | Spend | Requests | Tokens |
|---|---|---|---|
| Claude Opus 4.7 · судья V1 | $12.30 | 1,980 | 1.81M |
| Gemini 2.5 Pro · кандидат | $1.91 | 253 | 247K |
| GPT-5 · кандидат | $1.46 | 253 | 199K |
| Sonnet 4.6 · кандидат + судья V2 | $0.85 | 870 | ~150K |
| Остальные 9 моделей | $0.83 | 950 | 320K |
| Итого | $17.35 | ~4,300 | ~2.7M |
Лучшая модель даёт 34% строго-правильных. Это значит: никогда не использовать без человеческого ревью или Qlik runtime-валидации.
| Сценарий | Модель | Промпт | Точность* | $/1000 запросов |
|---|---|---|---|---|
| Базовый ассистент | Claude Sonnet 4.6 | стандартный | ~30–50% | ~$2 |
| Премиум (критические задачи) | GPT-5 | стандартный | ~35–55% | ~$20 |
| Прототипирование | DeepSeek V3 | стандартный | ~15–30% | ~$0.30 |
* С обязательным человеческим ревью. Reasoning-модели (GPT-5, Gemini 2.5 Pro)
требуют max_tokens=4000
+
reasoning_effort=low,
иначе результаты обрезаются.
max_tokens=4000 + reasoning_effort=low. Иначе систематически заниженные результаты.LLM могут генерировать корректный Qlik Set Analysis — но только в режиме ассистента для человека, с обязательной валидацией. 34% строго-правильных у лучшей модели — это «каждый третий ответ работает», а не «можно генерировать и применять автоматически».
Четыре главных вопроса и ответ на каждый.
| Критерий | Рекомендованная модель | Инсайт |
|---|---|---|
| Лучшая для строгой генерации (V2) | GPT-5 | Лидер по строгой оценке (эквивалентность логики эталону) — 34%. |
| Оптимальная для базового ассистента | Claude Sonnet 4.6 | Sweet spot для production — реалистичная точность ~30–50% (с ревью). |
| Стоимость Sonnet 4.6 на 1000 запросов | ~$2 | Экономия до 14× по сравнению с Opus. |
| Ключевая причина выбора Sonnet | Баланс точности и стоимости | Приемлемая точность 30–50% при очень низкой стоимости. |