LLM × Qlik Set Analysis — Research Report

TL;DR

Резюме в четырёх пунктах.

Полный отчёт длиной ~12 минут чтения. Если торопитесь — вот суть.

01 · Scope

13 LLM на 31 задаче Qlik Set Analysis из 3 доменов (Sports, HR, Sales) с обучающей платформы qata.datanomix.pro.

02 · Method

Двухфазная методология + проверка стабильности + двойная проверка правильности (число + логика выражения).

03 · Finding

Оценка по числу: 65–77% у топ-моделей. Строгая (эквивалентность логики): 22–34%. Значит много «правильных» ответов получено через альтернативные/неточные выражения.

04 · Production

Использовать LLM только с человеческим ревью или Qlik runtime-валидацией. Лучшая модель — GPT-5 — даёт ~34% логически-корректных. Бюджет: $17.35 из $20.

Goals

Четыре цели исследования.

Понять — какие LLM-модели реально справляются с генерацией Qlik Set Analysis.
Сравнить модели по точности, стоимости, скорости и стабильности.
Проверить гипотезу: можно ли промпт-инжинирингом дешёвую модель довести до уровня дорогой.
Сформировать data-driven рекомендации для возможной интеграции LLM в продукт.

Methodology

Двухфазная схема, двойной судья.

Задачи — с обучающей платформы qata.datanomix.pro, с эталонными выражениями и автопроверкой. Никаких выдуманных исследователем кейсов.

01 · PHASE 1

13 × 31 × 1 промпт

Отбор: каждая из 13 моделей решает все 31 задачу с одним стандартным промптом. На выходе — leaderboard оценкой по числу и оценкой по логике.

02 · PHASE 2

5 финалистов × 3 промпта

Топ-5 моделей × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель — проверить эффект промпт-инжиниринга.

Как мы проверяли ответы

Двойная оценка: число и логика.

Каждый ответ модели прогоняли через двух независимых LLM-судей. Один смотрел что получилось, второй — как это написано. Когда расходятся — появляется «логический разрыв».

Проверка №1 · Claude Opus 4.7

«Совпало ли итоговое число с эталонным KPI?»

Судья запускает выражение модели в Qlik и сверяет полученное число с эталонным KPI из тренинговой платформы. Если число совпало — засчитано, логика выражения не анализируется.

На этой проверке топ-модели показали 65–77%. Дальше по тексту это «совпадение по числу».

Проверка №2 · Claude Sonnet 4.6

«Эквивалентно ли выражение эталонной формуле?»

Судья читает Set Analysis-выражение и сравнивает его с эталонным с qata.datanomix.pro. Засчитано только если выражения семантически эквивалентны. Совпало число «случайно» через другую логику — не засчитано.

На этой проверке топ-модели показали лишь 22–34%. Дальше — «совпадение по логике».

Candidates

Кандидаты: 13 моделей в 4 категориях.

Не брали устаревшие версии (Llama 2, GPT-3.5), variant fine-tunes (roleplay/медицина), мелкие модели (≤8B параметров).

Категория	Модели	Обоснование
Топ-премиум	Claude Opus 4.7 · GPT-5 · Gemini 2.5 Pro	Флагманы. Проверить оправданность цены.
Средние	Sonnet 4.6 · GPT-5 mini · Gemini 2.5 Flash · Mistral Large · Grok 3	Sweet spot для production.
Бюджетные	Haiku 4.5 · Llama 3.3 70B · Qwen 2.5 72B	Экономия при сохранении качества.
Спец. для кода	DeepSeek Coder V3 · Qwen 2.5 Coder 32B	Может ли специализация на коде дать преимущество?

The Finding

На проверке №1 (число совпало с эталонным KPI) топ-модели выдают 65–77%. На проверке №2 (выражение эквивалентно эталонной формуле) — лишь 22–34%. Эту разницу мы и называем «логическим разрывом».

Часть решений возвращает верное число через выражение, не совпадающее с эталоном — на тестовых данных совпадение «случайное», на других данных результат может разойтись. Часть этих случаев — допустимые альтернативы, но мы их специально отделяем.

Лучшая модель по логике эквивалентности — GPT-5: 34%.

Подробности про обе проверки и судей — выше в блоке «Как мы проверяли ответы». Из 868 ответов нашли 114 случаев «coincidental correctness» — верное число из неэквивалентного выражения.

Проверка №1: число

65–77%

У Gemini 2.5 Pro, GPT-5, Claude Opus 4.7 итоговое число совпадает с эталоном в 65–77% задач.

Проверка №2: логика

22–34%

Те же модели, но теперь засчитано только если само выражение эквивалентно эталонной формуле. GPT-5 в Phase 2 — 34%.

★ Главное открытие финального ревью

Coincidental correctness: верное число из неверной логики.

В датасете Sports поле ID уникально per-athlete, поэтому Count(DISTINCT ID) случайно совпадает с Count(DISTINCT Name). На датасете с многими ID на спортсмена та же модель даст другой результат. Это типичный паттерн А из 114 обнаруженных случаев.

Эталон

Count(DISTINCT {<Sex={"M"}>} Name)
/ Count(DISTINCT Name)

LLM · loyal pass, strict fail

Count({<Sex={'M'}>} DISTINCT ID)
/ Count(DISTINCT ID)

More findings

Пять побочных открытий.

Главное открытие — coincidental correctness, разобран выше. Остальные пять — про reasoning-модели, промпты и стабильность.

⚠ Reasoning trap

Reasoning-модели нужно настраивать.

Первый прогон: GPT-5 = 0/31, Gemini 2.5 Pro = 2/31. Reasoning-модели тратят токены на скрытое размышление; при max_tokens=500 бюджет уходит на reasoning, ответ обрезается или пустой.

После max_tokens=4000 + reasoning_effort=low: GPT-5 → 24/31 (77%), Gemini 2.5 Pro → 24/31 (77%).

◆ Nuance

Не все 114 случаев — строго неправильные.

Часть coincidental случаев — легитимные альтернативные решения, которые на этих данных дают тот же результат и могут считаться допустимыми в production. Например, если ID гарантированно уникален per-athlete — Count(distinct ID) = Count(distinct Name) всегда.

Реалистичная оценка — между двумя оценками — по числу и по логике интерпретациями.

⚠ Prompt effect

Обогащённый промпт ухудшает результаты.

В Phase 2 тестировали 3 уровня промпта: минимальный, стандартный, обогащённый (примеры + best practices + CoT).

Обогащённый промпт ухудшил 3 из 5 моделей: Sonnet, Gemini Pro, DeepSeek V3. Выиграли только премиум reasoning (Opus, GPT-5).

Средние модели «слепо копируют» структуру из few-shot, теряют гибкость на нестандартных задачах.

✗ Hypothesis rejected

Умный промпт не превращает дешёвую модель в дорогую.

DeepSeek V3 с обогащённым промптом показал ниже, чем со стандартным:

По числу: 45% → 36% · по логике: 15%

Гипотеза «дешёвая модель + умный промпт = премиум» не подтвердилась. Промпт-инжиниринг не сокращает разрыв между бюджетными и премиум моделями.

∿ Stability ±5–15 п.п.

Повторный прогон даёт другие числа.

На одинаковых задачах с temperature=0:

GPT-523 → 24+1 Claude Opus 4.719 → 23+4 Gemini 2.5 Pro19 → 22+3 Claude Sonnet 4.620 → 20±0 · стабильная DeepSeek V314 → 12−2

Утверждения «X лучше Y на 3-5 п.п.» не доказываются — это шум.

On-prem / Local deployment

Какую open-source модель развернуть локально?

Отдельный вопрос: если LLM в облаке нельзя по политике безопасности — что брать on-prem.

★ Local deployment

Из локальных моделей, которые мы протестировали, лучший — DeepSeek V3 с ~19% точности по логике (когда сгенерированное выражение совпадает с эталоном). Qwen 2.5 72B заметно хуже — около 10%. Qwen 2.5 Coder 32B вообще слабо — 3%: для длинных цепочек CALCULATE/SUMX в set analysis 32B параметров не хватает. GLM мы не тестировали.

Один важный нюанс: даже у лидера правильная логика выражения — в 1 из 5 случаев. То есть в продакшене любую open-source модель надо обязательно использовать с валидацией. Без неё пока сыровато.

Models · Leaderboard

13 моделей, ранжированных по «по числу» (по числу).

Phase 1: один стандартный промпт, 31 задача. Колонка Coincidental — сколько раз модель «угадала» число при неверной логике.

#	Model	Provider	Число OK	Логика OK	Coincidental
01	Gemini 2.5 Pro	Google	77%	42%	6 Top
02	GPT-5	OpenAI	77%	29%	9 Top
03	Claude Opus 4.7	Anthropic	68%	29%	4 Top
04	Claude Sonnet 4.6	Anthropic	61%	29%	5 Mid
05	Grok 3	xAI	55%	26%	6 Mid
06	Claude Haiku 4.5	Anthropic	45%	19%	6 Mid
07	DeepSeek V3	DeepSeek	42%	19%	3 Mid
08	Mistral Large	Mistral	35%	23%	3 Mid
09	Gemini 2.5 Flash	Google	26%	6%	5 Low
10	GPT-5 mini	OpenAI	19%	13%	2 Low
11	Qwen 2.5 72B	Alibaba	19%	10%	5 Low
12	Llama 3.3 70B	Meta	10%	6%	2 Low
13	Qwen 2.5 Coder 32B	Alibaba	13%	3%	2 Low

* DeepSeek Coder V3 исключён из таблицы (API broken: 0/31). Полные данные по Phase 2 (5 финалистов × 3 промпта) — в репозитории.

Phase 2 · 5 finalists × 3 prompts

Кто держится при варьировании промпта.

Топ-5 моделей × 31 задача × 3 уровня промпта = 93 ответа на модель. Ранжировано по совпадению с эталонной формулой.

Модель	Логика OK	Число OK	Тренд
GPT-5	32/93 (34%)	51/93 (55%)	Единственный явный лидер
Gemini 2.5 Pro	30/93 (32%)	43/93 (46%)	Close 2nd
Claude Opus 4.7	24/93 (26%)	45/93 (48%)	Top tier
Claude Sonnet 4.6	20/93 (22%)	43/93 (46%)	Sweet spot
DeepSeek V3	14/93 (15%)	27/93 (29%)	Budget

Cost breakdown

$17.35 на весь бенчмарк.

70% бюджета съел LLM-as-judge (Claude Opus в роли судьи по числу). При повторе с Sonnet (по логике) стоимость в 14 раз ниже за то же количество ответов.

Модель · Роль	Spend	Requests	Tokens
Claude Opus 4.7 · судья по числу	$12.30	1,980	1.81M
Gemini 2.5 Pro · кандидат	$1.91	253	247K
GPT-5 · кандидат	$1.46	253	199K
Sonnet 4.6 · кандидат + судья по логике	$0.85	870	~150K
Остальные 9 моделей	$0.83	950	320K
Итого	$17.35	~4,300	~2.7M

Production guidance

Если LLM пойдёт в продукт — только в режиме ассистента.

Лучшая модель даёт 34% логически-корректных. Это значит: никогда не использовать без человеческого ревью или Qlik runtime-валидации.

Сценарий	Модель	Промпт	Точность*	$/1000 запросов
Базовый ассистент	Claude Sonnet 4.6	стандартный	~30–50%	~$2
Премиум (критические задачи)	GPT-5	стандартный	~35–55%	~$20
Прототипирование	DeepSeek V3	стандартный	~15–30%	~$0.30

* С обязательным человеческим ревью. Reasoning-модели (GPT-5, Gemini 2.5 Pro) требуют max_tokens=4000 + reasoning_effort=low, иначе результаты обрезаются.

Production requirements

Четыре правила, без которых не идти в прод.

Никогда без ревью. Никогда не использовать без человеческого ревью или Qlik runtime-валидации. Лучшая модель даёт ~34% логически-корректных — каждый второй ответ требует проверки.
Настроить reasoning-модели. GPT-5, Gemini 2.5 Pro требуют max_tokens=4000 + reasoning_effort=low. Иначе систематически заниженные результаты.
Не перегружать few-shot. Для большинства моделей обогащённый промпт снижает точность. Простой промпт + по логике валидация работают лучше.
Sonnet/Haiku в роли судьи. Не Opus. Экономия 5–14× без потери качества оценки — проверено на 868 ответах.

Summary

Краткое резюме по моделям.

Четыре главных вопроса и ответ на каждый.

Критерий	Рекомендованная модель	Инсайт
Лучшая для генерации по логике (по логике)	GPT-5	Лидер по оценке по логике (эквивалентность логики эталону) — 34%.
Оптимальная для базового ассистента	Claude Sonnet 4.6	Sweet spot для production — реалистичная точность ~30–50% (с ревью).
Стоимость Sonnet 4.6 на 1000 запросов	~$2	Экономия до 14× по сравнению с Opus.
Ключевая причина выбора Sonnet	Баланс точности и стоимости	Приемлемая точность 30–50% при очень низкой стоимости.

13 LLM написали Set Analysis. Только треть — правильно по логике.