Составим PROMPT для генерирования промпта для составления тренировачного Датасета, который будет использоваться для дообучения Fine-Tuning локальной ИИ модели Qwen2.5 с использованием QLoRA
Тема - маркетинговые исследования продаж молочных продуктов. Есть "сырые" данные продаж за год по каждой категории, по каждому производителю, по каждому наименованию (артикулу), по каждой торговой точке (магазину) области. Нужно дообучить локальную модель ИИ Qwen2.5 для поиска закономерностей в продажах, чтобы оптимизировать планирование, ассортимент, логистику. Напиши детальный структурированный Prompt с указанием категорий, подкатегорий, для которых надо генерировать датасеты для AI Qwen fine tuning (QLoRA) и количество примеров по категориям.

PROMPT для генерации тренировочного датасета (Qwen2.5 + QLoRA)

Тема: Маркетинговые исследования продаж молочных продуктов




ОСНОВНОЙ PROMPT

============================================================
PROMPT ДЛЯ ГЕНЕРАЦИИ ТРЕНИРОВОЧНОГО ДАТАСЕТА
Дообучение модели Qwen2.5 методом QLoRA
Домен: Маркетинговые исследования продаж молочных продуктов
============================================================

РОЛЬ
Ты — эксперт-генератор синтетических данных для дообучения 
LLM-моделей. Твоя задача — создать структурированный датасет 
в формате instruction-input-output (Alpaca-style) и/или 
в формате диалога (multi-turn conversations), который будет 
использоваться для fine-tuning модели Qwen2.5 через QLoRA.
Примеры должны охватывать разные ключевые метрики маркетинга 
(ROMI, LTV, Churn Rate, Когортный анализ) и содержать жесткую 
математическую логику без допущений.

КОНТЕКСТ ДОМЕНА
Имеются «сырые» данные о продажах молочных продуктов за 12 
месяцев. Структура данных включает:
- Временной срез: каждый день (365 записей на артикул-магазин)
- Категории: молоко, кефир, ряженка, сметана, творог, йогурты, 
  сыры, масло сливочное, мороженое, молочные десерты, 
  детские молочные продукты, сгущённое молоко, сухое молоко
- Производители: 15–30 брендов (федеральные, региональные, 
  СТМ — собственные торговые марки)
- Артикулы (SKU): 200–500 наименований
- Торговые точки: 50–200 магазинов области (разные форматы: 
  гипермаркеты, супермаркеты, магазины у дома, специализированные 
  молочные лавки, дискаунтеры)
- Метрики: продажи (шт./руб.), возвраты (шт./руб.), списания 
  (шт./руб.), остатки на конец дня, закупочные и розничные цены, 
  промо-флаги, температура хранения (для скоропорта)

ЦЕЛЬ ДОБУЧЕНИЯ
Модель после fine-tuning должна уметь:
1. Находить скрытые закономерности в продажах, возвратах, списаниях
2. Формулировать аналитические выводы на языке бизнес-рекомендаций
3. Оптимизировать планирование закупок, ассортимент, логистику
4. Снижать издержки (списания, логистические расходы, излишки)

ФОРМАТ ВЫХОДНЫХ ДАННЫХ
Для каждого примера генерируй JSON-объект:
{
  "instruction": "<Задача/вопрос к модели>",
  "input": "<Контекст: фрагмент данных, таблица, описание ситуации>",
  "output": "<Развёрнутый ответ: анализ, вывод, рекомендация>",
  "category": "<Категория задачи>",
  "subcategory": "<Подкатегория>",
  "difficulty": "<easy|medium|hard>"
}

ТРЕБОВАНИЯ К КАЧЕСТВУ
- Ответы должны быть конкретными, с числами, процентами, 
  сравнениями (не общие фразы)
- Использовать профессиональную терминологию: ABC/XYZ-анализ, 
  оборачиваемость, out-of-stock, share-of-shelf, каннибализация, 
  эластичность спроса, сезонный коэффициент
- Включать причинно-следственные связи
- Рекомендации должны быть actionable (применимыми на практике)
- Вариативность: разные стили ответов (краткий/развёрнутый, 
  табличный/текстовый, с маркированными списками)
- Реалистичность данных: молочные продукты — скоропорт, 
  сезонность, зависимость от температуры, школьный календарь, 
  праздники

============================================================
КАТЕГОРИИ И ПОДКАТЕГОРИИ ДЛЯ ГЕНЕРАЦИИ ДАТАСЕТА
============================================================

--------------------------------------------------------------¬
¦ КАТЕГОРИЯ 1: АНАЛИЗ ПРОДАЖ (Sales Analysis)                ¦
¦ Примеров: 500                                              ¦
+-------------------------------------------------------------+
¦ 1.1 Динамика продаж по категориям (daily/weekly/monthly)   ¦ 80 ¦
¦ 1.2 ABC-анализ ассортимента (80/20 правило)                ¦ 60 ¦
¦ 1.3 XYZ-анализ стабильности спроса                         ¦ 50 ¦
¦ 1.4 ABC/XYZ-матрица и стратегии для каждой ячейки          ¦ 50 ¦
¦ 1.5 Анализ продаж по производителям (доли, рейтинги)       ¦ 60 ¦
¦ 1.6 Сравнение форматов магазинов (гипер-/супер-/у дома)    ¦ 50 ¦
¦ 1.7 Анализ продаж по дням недели (паттерны потребления)    ¦ 50 ¦
¦ 1.8 Топ-N артикулов: драйверы и аутсайдеры                 ¦ 50 ¦
¦ 1.9 Каннибализация внутри категории (новый SKU vs старый)  ¦ 50 ¦
L--------------------------------------------------------------

--------------------------------------------------------------¬
¦ КАТЕГОРИЯ 2: АНАЛИЗ ВОЗВРАТОВ (Returns Analysis)           ¦
¦ Примеров: 350                                              ¦
+-------------------------------------------------------------+
¦ 2.1 Структура возвратов по причинам (брак, истёкший срок,  ¦ 70 ¦
¦     повреждение упаковки, нарушение холодовой цепи)        ¦    ¦
¦ 2.2 Доля возвратов по производителям (рейтинг качества)    ¦ 70 ¦
¦ 2.3 Корреляция возвратов с условиями транспортировки       ¦ 50 ¦
¦ 2.4 Сезонность возвратов                                   ¦ 50 ¦
¦ 2.5 Анализ возвратов по категориям (скоропорт vs длительн.)¦ 60 ¦
¦ 2.6 Экономический ущерб от возвратов (в рублях, %)         ¦ 50 ¦
L--------------------------------------------------------------

--------------------------------------------------------------¬
¦ КАТЕГОРИЯ 3: АНАЛИЗ СПИСАНИЙ (Write-offs Analysis)         ¦
¦ Примеров: 400                                              ¦
+-------------------------------------------------------------+
¦ 3.1 Уровень списаний по категориям (% от оборота)          ¦ 70 ¦
¦ 3.2 Связь срока годности и уровня списаний                 ¦ 70 ¦
¦ 3.3 Списание по магазинам (проблемные точки)               ¦ 60 ¦
¦ 3.4 Влияние размера партии на списания                     ¦ 60 ¦
¦ 3.5 Списание vs промо-активности (не продали по акции)     ¦ 70 ¦
¦ 3.6 Benchmarking: сравнение списаний с отраслевыми нормами ¦ 70 ¦
L--------------------------------------------------------------

--------------------------------------------------------------¬
¦ КАТЕГОРИЯ 4: ПРОГНОЗИРОВАНИЕ И ПЛАНИРОВАНИЕ                ¦
¦ (Forecasting & Planning)                                   ¦
¦ Примеров: 500                                              ¦
+-------------------------------------------------------------+
¦ 4.1 Прогноз продаж на 7/14/30 дней (по категории)          ¦ 80 ¦
¦ 4.2 Прогноз спроса с учётом сезонности                     ¦ 70 ¦
¦ 4.3 Прогноз влияния промо-акций на продажи (+lift)         ¦ 70 ¦
¦ 4.4 Расчёт оптимального размера заказа (EOQ-модель)        ¦ 60 ¦
¦ 4.5 Расчёт страхового запаса (safety stock)                ¦ 60 ¦
¦ 4.6 Прогноз для новых SKU (аналогии, look-alike)           ¦ 60 ¦
¦ 4.7 Планирование потребности в холодильном оборудовании    ¦ 50 ¦
¦ 4.8 Бюджетирование закупок на месяц/квартал                ¦ 50 ¦
L--------------------------------------------------------------

--------------------------------------------------------------¬
¦ КАТЕГОРИЯ 5: ОПТИМИЗАЦИЯ АССОРТИМЕНТА                      ¦
¦ (Assortment Optimization)                                  ¦
¦ Примеров: 400                                              ¦
+-------------------------------------------------------------+
¦ 5.1 Рекомендации по вводу/выводу SKU                       ¦ 80 ¦
¦ 5.2 Оптимизация матрицы по формату магазина                ¦ 70 ¦
¦ 5.3 Анализ пустых ниш (gap-анализ категории)               ¦ 60 ¦
¦ 5.4 Оптимизация фасовки (объём, упаковка)                  ¦ 60 ¦
¦ 5.5 Баланс федеральных брендов vs СТМ vs локальных         ¦ 60 ¦
¦ 5.6 Рекомендации по планограммам (share-of-shelf)          ¦ 70 ¦
L--------------------------------------------------------------

--------------------------------------------------------------¬
¦ КАТЕГОРИЯ 6: ЛОГИСТИКА И ЦЕПОЧКА ПОСТАВОК                  ¦
¦ (Logistics & Supply Chain)                                 ¦
¦ Примеров: 350                                              ¦
+-------------------------------------------------------------+
¦ 6.1 Оптимизация частоты доставок (?? — ежедневно,        ¦ 70 ¦
¦     сыр — 2-3 раза в неделю)                               ¦    ¦
¦ 6.2 Маршрутизация с учётом срока годности                  ¦ 60 ¦
¦ 6.3 Анализ уровня сервиса (fill rate, on-shelf availability¦ 70 ¦
¦ 6.4 Оптимизация распределения между РЦ и магазинами        ¦ 70 ¦
¦ 6.5 Снижение логистических расходов (% от выручки)         ¦ 80 ¦
L--------------------------------------------------------------

--------------------------------------------------------------¬
¦ КАТЕГОРИЯ 7: ЦЕНОВОЙ АНАЛИЗ И ПРОМО (Pricing & Promo)      ¦
¦ Примеров: 400                                              ¦
+-------------------------------------------------------------+
¦ 7.1 Ценовая эластичность спроса по категориям              ¦ 80 ¦
¦ 7.2 Эффективность промо-механик (скидка vs 1+1 vs подарок)¦ 80 ¦
¦ 7.3 Анализ маржинальности (gross margin по SKU/категории)  ¦ 70 ¦
¦ 7.4 Ценовое позиционирование vs конкуренты                 ¦ 70 ¦
¦ 7.5 Оптимальная глубина скидки (ROMI промо)                ¦ 50 ¦
¦ 7.6 Post-promotion dip (провал после акции)                ¦ 50 ¦
L--------------------------------------------------------------

--------------------------------------------------------------¬
¦ КАТЕГОРИЯ 8: СЕЗОННОСТЬ И ТРЕНДЫ                           ¦
¦ (Seasonality & Trends)                                     ¦
¦ Примеров: 300                                              ¦
+-------------------------------------------------------------+
¦ 8.1 Сезонные паттерны по категориям (мороженое — лето,     ¦ 60 ¦
¦     творог — сентябрь, сыр — Новый год)                    ¦    ¦
¦ 8.2 Влияние праздников и школьных каникул                  ¦ 60 ¦
¦ 8.3 Влияние температуры на продажи (корреляция)            ¦ 50 ¦
¦ 8.4 Долгосрочные тренды (ЗОЖ, безлактозное, растительное)  ¦ 60 ¦
¦ 8.5 Тренды потребления по демографии района магазина       ¦ 70 ¦
L--------------------------------------------------------------

--------------------------------------------------------------¬
¦ КАТЕГОРИЯ 9: СЕГМЕНТАЦИЯ МАГАЗИНОВ                         ¦
¦ (Store Segmentation)                                       ¦
¦ Примеров: 300                                              ¦
+-------------------------------------------------------------+
¦ 9.1 Кластеризация магазинов по профилю продаж              ¦ 70 ¦
¦ 9.2 Benchmarking внутри кластера                           ¦ 70 ¦
¦ 9.3 Выявление аномалий (резкий рост/падение)               ¦ 80 ¦
¦ 9.4 Рекомендации по ассортименту для кластера              ¦ 80 ¦
L--------------------------------------------------------------

--------------------------------------------------------------¬
¦ КАТЕГОРИЯ 10: КОМПЛЕКСНЫЕ БИЗНЕС-КЕЙСЫ                     ¦
¦ (Complex Business Cases — multi-turn)                      ¦
¦ Примеров: 200                                              ¦
+-------------------------------------------------------------+
¦ 10.1 «Директор спрашивает: почему упала прибыль?»          ¦ 50 ¦
¦      (многошаговый анализ: продажи > списания > возвраты)  ¦    ¦
¦ 10.2 «Запуск нового продукта: план на 3 месяца»            ¦ 50 ¦
¦ 10.3 «Оптимизация затрат: найти 10% экономии»              ¦ 50 ¦
¦ 10.4 «Подготовка отчётности для совета директоров»         ¦ 50 ¦
L--------------------------------------------------------------

============================================================
ИТОГО: ~3 700 примеров
============================================================

РАСПРЕДЕЛЕНИЕ ПО СЛОЖНОСТИ
- easy   (30%): прямые вопросы, простые расчёты, описательная аналитика
- medium (50%): сравнения, корреляции, интерпретация трендов
- hard   (20%): комплексные кейсы, multi-step reasoning, 
                стратегические рекомендации

РАСПРЕДЕЛЕНИЕ ПО ФОРМАТУ
- Одиночный диалог (instruction + input + output): 70%
- Multi-turn диалог (уточняющие вопросы): 20%
- Chain-of-Thought (пошаговое рассуждение): 10%

ДОПОЛНИТЕЛЬНЫЕ ТРЕБОВАНИЯ К ГЕНЕРАЦИИ
1. Данные в поле "input" должны быть РЕАЛИСТИЧНЫМИ:
   - Молочные продукты: срок годности от 7 до 90 дней
   - Сезонность: мороженое ?3 летом, творог — пики в сентябре
   - Цены: молоко 2,5% — 70-120 руб/л, сыр — 600-1200 руб/кг
   - Списания скоропорта: норма 1-3%, плохой магазин — до 8%
2. В ответах указывать КОНКРЕТНЫЕ метрики:
   - «Списания творога в магазине №42 составляют 7.3% от оборота,
      что в 2.4 раза выше среднего по сети (3.1%)»
3. Включать СРАВНЕНИЯ:
   - « vs прошлый месяц», «vs аналогичный период прошлого года»,
     «vs средний показатель по категории»
4. Использовать ФОРМУЛИРОВКИ бизнес-рекомендаций:
   - «Рекомендуем сократить заказ на 15%...»
   - «Целесообразно вывести из матрицы 3 SKU...»
   - «Перенести промо с понедельника на четверг...»

============================================================





ВАРИАНТЫ РАЗВИТИЯ И УЛУЧШЕНИЯ PROMPT'а

Вариант 1: Добавить «Negative Examples» (антипаттерны)

Добавить в промпт категорию "BAD_EXAMPLES" — примеры того, как модель НЕ должна отвечать:
- Общие фразы без цифр: «Продажи выросли»
- Ошибки в логике: путаница между маржой и наценкой
- Галлюцинации: несуществующие метрики
- Игнорирование контекста: рекомендации без учёта формата магазина

Это критически важно для QLoRA — модель учится не только на правильных, но и на контрастных примерах.



Вариант 2: Multi-Turn диалоги с «User Pushback»

Генерировать сценарии, где «пользователь» не согласен с первым ответом модели и задаёт уточняющие вопросы:

User: «Почему вы рекомендуете убрать этот сыр?»
AI:   «Потому что оборачиваемость 45 дней при сроке годности 30...»
User: «Но это премиум-сегмент, маржа 60%!»
AI:   «Согласен. Пересматриваю: оставляем, но сокращаем заказ...»



Вариант 3: Генерация «Tool-use» примеров

Добавить примеры, где модель должна вызывать внешние инструменты:
- SQL-запросы к базе данных
- Python-код для расчёта ABC/XYZ
- Обращение к API прогнозной модели

Формат: `function_call` + `tool_response` + `final_answer`.



Вариант 4: Дифференциация по ролям пользователей

Генерировать ответы в разных стилях для разных ролей:
- Директор по закупкам > краткие KPI, деньги, действия
- Категорийный менеджер > детали по SKU, тренды, матрица
- Аналитик > методология, формулы, доверительные интервалы
- Директор магазина > простые рекомендации «что делать завтра»



Вариант 5: Few-shot примеры внутри промпта

Добавить 3-5 готовых примеров (gold standard) прямо в промпт, чтобы генератор понимал ожидаемый уровень детализации и стиль.



Вариант 6: Контроль качества через «Self-Critique»

Для каждого сгенерированного примера добавлять поле:


json
"self_critique": "Что может быть не так в этом ответе? 
                  Какие допущения сделаны?"

Это улучшает reasoning-способность модели.




Вариант 7: Генерация «Edge Cases»

Специально создать сложные/редкие ситуации (5–10% датасета):
- Вспышка заболевания на молочном заводе (массовый отзыв)
- Аномальная жара +40°C — скачок продаж мороженого
- Бойкот бренда потребителями
- Вход нового федерального игрока в регион
- Дефицит сырья (рост закупочных цен ?2)




Вариант 8: Языковая вариативность

Генерировать примеры на:
- Русском (основной)
- С профессиональным жаргоном («листинг», «делisting», «out-of-stock»)
- С разговорным стилем («Почему у нас творог залеживается?»)
- С формальным стилем («Прошу предоставить аналитическую записку»)




Вариант 9: Валидация и балансировка

Добавить инструкцию для пост-обработки:
- Проверка на дубликаты (cosine similarity > 0.92)
- Баланс по категориям (не более 20% перекос)
- Проверка реалистичности чисел (script-валидатор)



Вариант 10: Curriculum Learning

Структурировать датасет по нарастанию сложности:
1. Stage 1 (1000 примеров): базовая аналитика, простые расчёты
2. Stage 2 (1500 примеров): интерпретация, сравнения
3. Stage 3 (1200 примеров): комплексные кейсы, стратегии

QLoRA можно дообучать поэтапно — это улучшает сходимость.



РЕКОМЕНДАЦИИ ПО ТЕХНИЧЕСКОЙ РЕАЛИЗАЦИИ

| Параметр 		| Рекомендация 				|
|			|					|
| Формат датасета 	| JSONL (одна строка = один пример) 	|
| Кодировка 		| UTF-8 				|
| Разделение 		| train / validation / test = 85% / 10% / 5% |
| Максимальная длина 	| instruction+input+output ? 2048 токенов |
| Токенизатор 		| Qwen2.5 tokenizer (проверить special tokens) |
| QLoRA параметры 	| r=16, alpha=32, dropout=0.05, target_modules=[q_proj, v_proj] |
| Batch size 		| 4–8 (с gradient accumulation) 	|
| Epochs 		| 3–5 (следить за переобучением на validation) |
| Learning rate 	| 2e-4 с cosine scheduler 		|



Этот промпт покрывает 10 категорий > 57 подкатегорий > ~3700 примеров и даёт чёткую структуру для генерации качественного датасета. 
Варианты развития позволяют адаптировать его под конкретные бизнес-задачи и улучшить качество дообучения.

https://oflameron.com
Valery Shmelev (Deutsce: Valery Shmeleff)