Составим PROMPT для генерирования промпта для составления тренировачного Датасета, который будет использоваться для дообучения Fine-Tuning локальной ИИ модели Qwen2.5 с использованием QLoRA Тема - маркетинговые исследования продаж молочных продуктов. Есть "сырые" данные продаж за год по каждой категории, по каждому производителю, по каждому наименованию (артикулу), по каждой торговой точке (магазину) области. Нужно дообучить локальную модель ИИ Qwen2.5 для поиска закономерностей в продажах, чтобы оптимизировать планирование, ассортимент, логистику. Напиши детальный структурированный Prompt с указанием категорий, подкатегорий, для которых надо генерировать датасеты для AI Qwen fine tuning (QLoRA) и количество примеров по категориям. Для эффективного дообучения модели Qwen2.5 через метод QLoRA сырые данные продаж необходимо преобразовать в формат «инструкция — ответ» (Instruction-Following). Модель должна научиться сопоставлять контекст рынка с правильными аналитическими выводами. Ниже представлен детальный, готовый к использованию промпт-шаблон для генератора датасета, а также структура самого набора данных. Шаблон промпта для генерации датасета (Fine-tuning Prompt)Скопируйте и настройте этот промпт для вашего скрипта генерации (например, на базе GPT-4) или ETL-системы, которая превращает сырые таблицы в текстовые пары. markdown### РОЛЬ И ЗАДАЧА Ты — эксперт по анализу данных (Data Scientist) в ритейле и AI-инженер. Твоя задача — сгенерировать синтетический обучающий датасет для дообучения (fine-tuning) LLM Qwen2.5 методом QLoRA. Цель дообучения — научить модель анализировать продажи молочной продукции, находить скрытые закономерности и оптимизировать планирование поставок. ### ВХОДНАЯ СТРУКТУРА ДАННЫХ (КОНТЕНТ ДЛЯ АНАЛИЗА) Каждый пример должен опираться на сырые агрегированные данные со следующими переменными: - Временной срез: год, месяц, день недели, сезон, праздники. - География: ID торговой точки (магазина), формат (дискаунтер, супермаркет, гипермаркет), локация (город, село). - Товарная матрица: Категория (Молоко, Кисломолочные, Сыры и т.д.), Подкатегория, Бренд/Производитель, Артикул (SKU), Объем/Вес, Жирность. - Метрики продаж: Выручка, Объем в шт/кг, Цена, Скидка (промо-%), Списание/Просрочка, Out-of-Stock (дефицит). ### ФОРМАТ ВЫХОДНЫХ ДАННЫХ (JSON-L) Каждый сгенерированный пример должен строго соответствовать формату: { "instruction": "[Конкретный аналитический вопрос или бизнес-задача с указанием вводных данных]", "input": "[Контекст: сырые или агрегированные данные продаж, тренды, метаданные магазинов/товаров]", "output": "[Глубокий экспертный ответ модели: выявление закономерности, точный математический/логический вывод и рекомендация по планированию]" } ### ПРАВИЛА ГЕНЕРАЦИИ ОТВЕТОВ (OUTPUT) 1. Никакой «воды». Ответ должен содержать конкретные цифры, проценты и бизнес-термины (эластичность спроса, каннибализация, упущенная выручка, страховой запас). 2. Модель должна уметь связывать внешние факторы (погода, пост, праздники) с поведением категорий. 3. Ответы должны содержать четкое управленческое решение (например: "Увеличить заказ SKU_X на 25% в пятницу", "Снизить глубину промо на Бренд_Y"). Структура датасета по категориям и объемам Для качественного обучения QLoRA под узкую задачу требуется от 3 000 до 5 000 качественных примеров. Ниже приведено распределение по бизнес-категориям задач. 1. Анализ сезонности и внешних факторов (900 примеров) Цель: научить модель предсказывать пики и спады. Подкатегории: Влияние погоды (жара = рост продаж кваса/тан/айран, спад жирного молока) — 300 шт. Календарные периоды (Великий пост = спад всей категории на 30-40%, Масленица = пик молока/сметаны/масла) — 350 шт. Дни недели (пятничный закуп в гипермаркетах vs ежедневный спрос у дома) — 250 шт. 2. Ценовая эластичность и Промо-эффекты (1200 примеров) Цель: оптимизация маржинальности и расчет эффекта скидок. Подкатегории: Оценка глубины скидки (эффективность промо 15% vs 30%) — 400 шт. Эффект каннибализации внутри категории (промо на Бренд А убило продажи Бренда Б того же производителя) — 400 шт. Эффект «Переключения» (Switching) и остаточный спрос после промо — 400 шт. 3. Логистика: Борьба со списаниями и Out-of-Stock (1100 примеров) Цель: минимизация потерь скоропортящейся продукции (ультрасвежесть/Ultra-Fresh). Подкатегории: Расчет упущенной выручки из-за дефицита (Out-of-Stock) популярных SKU — 400 шт. Оптимизация квантов поставок для молока/кефира со сроком годности до 7-10 дней (минимизация списаний) — 450 шт. Анализ аномальных остатков на складах торговых точек — 250 шт. 4. Кросс-анализ торговых точек и кластеризация (1000 примеров) Цель: адаптация матрицы под тип магазина. Подкатегории: Магазины в спальных районах vs Магазины в деловых центрах (разница в спросе на семейные упаковки 1л и порционные йогурты) — 400 шт. Региональная специфика (Доля местных локальных производителей vs Федеральные бренды в сельских точках) — 350 шт. Анализ SKU-дублеров (замена неходовых позиций для оптимизации полки) — 250 шт. 5. Анализ лояльности и структуры чека (800 примеров) Цель: поиск скрытых ассоциаций (Market Basket Analysis). Подкатегории: Совместные покупки (Творог + Сметана, Сырок + Кофе) для кросс-маркетинга — 400 шт. Продажи категорий-драйверов (молоко как маркер привлечения трафика в магазин) — 400 шт. Итоговый объем датасета: ~5 000 высококачественных пар (JSON-L).