大模型应用-期末

大模型时代所提出的 AI 开发新模式可以概括成两步
1. 预训练
  - 目标：让模型从海量无标注文本中学习语言的通用规律、知识和世界模式。
  - 方法：采用“自监督学习”。例如，掩码语言模型或“预测下一个词”的任务。通过在海量数据上进行这个基础训练，模型学会了语法、事实、逻辑推理等通用能力。
  - 结果：得到一个“基础模型”（如GPT、BERT）。它知识渊博，但尚未对齐任何具体任务，像一个刚完成通识教育的毕业生
2. 微调：
  - 目标：让基础模型适应特定的下游任务
  - 方法：在预训练好的“基础模型”上，使用高质量、有标注的小规模任务数据继续训练。模型参数会根据新任务进行小幅、精准的调整
  - 常见技术：
    - 全量微调：调整模型所有参数，效果好但成本高。
    - 高效微调：如LoRA，只调整少量新增参数，高效且节省资源。
  - 结果：得到一个“专家模型”。它在特定任务上表现优异，同时保留了预训练阶段学到的全部通用知识。
涌现能力：大模型的涌现能力是指当模型规模（参数量、数据量、计算量）达到一定阈值时，突然出现的一些在较小模型中不存在的新能力。这些能力并非通过显式编程或专门训练获得，而是随着规模增长"自然涌现"出来的。典型涌现能力包括：
1. 复杂推理：小模型只能做简单问答，大模型突然能进行多步逻辑推理、数学计算、代码生成等复杂任务。
2. 上下文学习：仅通过几个示例就能理解新任务，无需额外训练（few-shot learning）。
3. 指令遵循：能理解并执行自然语言指令，完成各种开放域任务。
微调的优缺点
1. 优点
  - 高效利用预训练知识：微调在预训练模型基础上进行，继承了模型从海量数据中学到的通用语言能力、世界知识和推理能力，避免了从零训练的巨大成本。
  - 任务适应性强：通过少量高质量标注数据，就能让通用模型快速适应特定领域或任务，如医疗问答、法律咨询、代码生成等，实现"举一反三"。
  - 训练成本相对较低：相比预训练需要海量计算资源，微调只需调整部分参数，计算成本和时间都大幅降低。
2. 缺点
  - 灾难性遗忘风险：微调过程中，模型可能过度拟合新任务数据，导致遗忘预训练阶段学到的通用知识，影响在其他任务上的表现。
  - 数据质量要求高：微调效果严重依赖标注数据的质量和数量，数据偏差或噪声会直接影响模型性能。
  - 过拟合风险：当微调数据量较小时，模型容易过拟合到训练数据，在测试集上表现不佳。
LoRA 微调为什么能达到了和全参微调相似的效果：核心原因在于低秩假设。大模型微调过程中的参数更新矩阵具有低秩特性，即虽然全参微调需要更新数十亿参数，但实际有效的更新信息可以用一个低维空间来近似表示。LoRA将参数更新ΔW分解为两个小矩阵的乘积BA，其中 r 远小于原始维度。这样既大幅减少了参数量（通常仅为全参微调的0.1%-1%），又保持了信息表达能力。
大语言模型的定义：大语言模型 (Large Language Model, LLM) 是一种基于深度学习的人工智能模型,它能够从海量的文本数据中学习并理解人类语言的模式和规则.它包含数千亿(或更多)参数,通过复杂的神经网络结构来模拟人类的语言处理能力
RAG (检索增强生成)是一种结合信息检索和文本生成的大模型技术，通过从外部知识库检索相关信息来增强大模型的生成能力。RAG将传统的大语言模型生成过程分为两个阶段：
1. 检索阶段
  - 根据用户查询，从外部知识库（如文档数据库、网页、知识图谱）中检索最相关的信息片段
  - 使用向量检索技术，将查询和文档都转换为向量表示，通过相似度计算找到最匹配的内容
2. 增强生成阶段
  - 将检索到的相关信息与用户查询一起输入给大语言模型
  - 模型基于检索内容生成更准确、更可靠的回答
数据库小助手，怎么做，怎么进一步增强
用户提示词的系统提示词区别
1. 系统提示词是开发者或管理员设置的，用于定义AI的角色定位、行为准则和对话风格
2. 用户提示词是用户每次输入的具体问题或指令，用于触发AI的即时响应。它决定了单次对话的内容方向，可以是问题、命令、续写请求等。用户提示词是动态的，每次对话都会变化
大模型的问题
1. 幻觉问题：大模型会生成看似合理但实际错误或不存在的信息，即"一本正经地胡说八道"。
2. 时效性问题：大模型的知识存在时间滞后，无法获取训练截止日期后的最新信息。
3. 数据安全问题：大模型可能泄露训练数据中的敏感信息，或生成有害内容。
外挂和内挂的区别
- 外挂：在模型推理时实时检索外部知识库，将检索到的信息与用户查询一起输入给模型。
  - 实时性：知识库可以随时更新，模型能获取最新信息
  - 灵活性：可以连接多个知识源（数据库、API、网页等）
  - 可解释性：可以展示检索到的来源文档
  - 代表技术：RAG（检索增强生成）
- 内挂：通过微调或继续训练，将知识直接编码到模型参数中。
  - 离线性：知识在训练阶段就固化到模型权重中
  - 速度快：推理时无需外部检索，响应更快
  - 稳定性：不受网络或外部服务影响
  - 代表技术：全参微调、LoRA、Adapter等
Agent 有哪些功能，结合案例描述
1. 感知：Agent通过多模态输入（文本、图像、语音等）理解用户意图和环境状态，包括解析用户查询、识别文件内容、理解上下文等。
2. 记忆（短期，长期）：Agent具备短期记忆（对话上下文）和长期记忆（知识库、历史记录），能够记住用户偏好、任务状态和过往经验。
3. 决策规划：Agent 根据目标制定执行计划，分解复杂任务为可执行的子任务，并动态调整策略。
4. 行动：Agent通过调用工具（API、代码执行、文件操作等）执行具体任务，并验证执行结果。
一个完整的智能客服Agent工作流程：
1. 感知：接收用户问题"我的订单为什么还没发货？"
2. 记忆：调取用户历史订单信息、物流规则
3. 决策规划：判断需要查询订单状态、检查物流信息、解释延迟原因
4. 行动：调用订单系统API获取状态，查询物流信息，生成回复"您的订单已打包，预计明天发货，请耐心等待"
Agent 的自主性：Agent的自主性是指智能体在无人干预的情况下，能够独立感知环境、制定目标、规划任务并执行行动的能力。这种自主性体现在多个层面，从简单的任务执行到复杂的战略规划。
LangChain是一个用于开发大语言模型应用的框架，它通过链式调用将多个组件连接起来，构建复杂的AI应用。
1. 模型地址和api_key
  - 在LangChain中，配置模型地址和API密钥是连接大语言模型服务的基础步骤。以OpenAI为例，配置方式如下：
  - openai_api_key：必填，用于身份验证
  - model_name：指定使用的模型，如"gpt-3.5-turbo"、"gpt-4"等
  - base_url：如果需要使用代理或自定义API地址
temperature参数（0-2）
- temperature=0：确定性最高，模型每次都会生成相同或非常相似的输出。适合需要可重复结果、事实性回答的场景，如代码生成、数学计算。
- temperature=0.5-0.8：平衡性，在创造性和准确性之间取得平衡。适合大多数对话和内容生成任务，既有一定创造性又不会过于随机。
- temperature=1.0：默认值，保持模型训练时的原始随机性。
- temperature=1.5-2.0：高度随机，模型会生成更具创造性、多样性的内容，但可能包含不准确或离题的内容。适合创意写作、头脑风暴等需要发散思维的场景。
ReAct Agent
- ReAct（Reasoning + Acting）是一种结合推理和行动的Agent框架，让大语言模型能够通过思维链（Chain-of-Thought）进行推理，并调用外部工具执行具体操作。
- ReAct将Agent的工作流程分为两个交替进行的阶段：
  1. 推理（Reasoning）
    - 模型生成思考过程，分析当前情况
    - 确定下一步需要做什么
    - 评估可用的工具和资源
  2. 行动（Acting）
    - 调用外部工具执行具体操作
    - 获取执行结果
    - 观察环境变化
Coze 常用节点
1. 选择器
2. 大模型
3. 循环
4. 知识库检索
  1. 按行切割
  2. Coze知识库，火山知识库
5. 图像生成
6. 变量聚合
7. 意图识别
MaxKB 工作流程一般可以分成三步
1. 添加模型
2. 创建知识库
3. 创建应用