AI Agent 技术核心概念学习路线
LLM应用技术核心概念学习路线
这条路线遵循从“基础构件”到“核心能力”再到“高级模式”的逻辑。
第一阶段:理解基石——让计算机“懂得”含义(Embedding)
- 核心问题:计算机只认识数字,我们如何让它们理解文字、图片、视频的“意思”?
- 什么是 Embedding(嵌入)? 比喻:想象一个“语义地图”。每个词(或句子、图片)都是这个地图上的一个点。含义相近的词(如“国王”和“皇帝”)在地图上的位置会非常接近;含义相反的词(如“国王”和“平民”)则相距甚远。 本质:Embedding 就是一套算法,将非结构化的数据(文字、图片等)转换成一串有意义的数字向量。这个向量就是数据点在“语义地图”上的坐标。 **为什么需要?**只有把数据变成数字坐标,计算机才能进行数学计算,从而比较相似性、进行分类、聚类等操作。这是后续所有技术的基础。
第二阶段:实现检索——构建“外部记忆库”(向量数据库)
- 核心问题:有了“语义地图”,但当数据量极其庞大时(比如整个公司知识库),如何快速找到与问题最相关的信息?
- 为什么需要向量数据库? 传统数据库的局限:它们擅长精确匹配(如“找到id=1的用户”),但不擅长模糊查询(如“找到意思最接近‘可持续发展’的文档”)。 向量数据库的强项:它就是为“语义地图”量身定制的数据库。它专门做一件事——近似最近邻搜索。你给它一个问题的坐标(问题本身的向量),它能以极快的速度在整个海量向量库中,找到坐标最接近的几个点(即语义最相关的文本片段)。 本质:向量数据库是LLM的“外部记忆库”或“知识索引系统”,负责高效、精准地检索信息。
第三阶段:衡量相关性——定义“相似”的标准(Cosine Similarity)
- 核心问题:在“语义地图”上,如何数学地定义两个点“相似”?是看它们的直线距离吗?
- Cosine Similarity(余弦相似度)到底在算个啥? 比喻:不比“距离”,比“方向”。想象两个从原点出发的箭头。我们不关心箭头的长短(向量的绝对大小,比如文档的长短),只关心两个箭头指向的方向是否一致。 计算什么:它计算的是两个向量之间夹角的余弦值。夹角为0度(方向完全一致),余弦值为1,表示完全相似;夹角为90度(方向垂直),余弦值为0,表示不相关。 为什么在NLP中常用:因为它更关注语义上的方向性,而忽略文本长度的影响,这更符合我们判断“意思是否相似”的直觉。
👉 至此,你已经掌握了RAG的“检索”部分的核心技术栈:文本 -> Embedding -> 向量数据库 -> 余弦相似度检索。
第四阶段:构建应用——给LLM“开小灶”(RAG)
- 核心问题:LLM内部知识老旧、会产生幻觉(胡说八道),如何让它能回答未知的、专业领域的问题?
- RAG(检索增强生成)的本质是什么? 不只是“喂知识库”:你的理解非常到位。它的本质是将LLM的推理能力与外部知识源的动态检索能力相结合。 工作流程: 检索:当用户提出问题时,不直接将问题扔给LLM。而是先用上面的技术栈(Embedding+向量数据库+相似度计算),从外部知识库中“精准地检索”出与问题最相关的几段信息(上下文)。 增强:将“原始问题 + 检索到的精准上下文”一起打包,作为一个新的、信息更丰富的提示词(Prompt)交给LLM。 生成:LLM基于这个包含了“标准答案”线索的Prompt来生成回答。 核心挑战与你的思考一致:如何“精准地检索”?如果检索到的信息不相关,LLM的回答就会跑偏。因此,检索器的质量(Embedding模型、向量数据库、排序算法)直接决定了RAG的天花板。 它解决了:知识更新问题(改知识库即可)、幻觉问题(答案有据可查)、溯源问题(可以注明答案来源)。
第五阶段:升级交互——让LLM“学会使用工具”(Function Calling & ReAct)
- 核心问题:LLM无法感知实时信息(天气、股价),无法执行具体动作(发邮件、查数据库)。如何让它与外部世界互动?
- Function Calling(函数调用)的工作流程是怎样的? 比喻:给LLM一个“工具清单”,上面列出了每个工具的名称、功能和用法说明(这就是所谓的“函数模式”或“工具模式”)。 工作流程: 用户请求:用户提出一个需要工具的请求,如“今天北京天气怎么样?” LLM分析:LLM不会直接回答,而是分析请求,然后从“工具清单”中选择最合适的工具(如
get_weather(location))。 输出调用指令:LLM不执行,而是返回一个结构化的调用请求,如{"name": "get_weather", "arguments": {"location": "北京"}}。 程序执行:你的外部程序收到这个结构化请求,代为执行真正的函数调用(比如调用天气API)。 返回结果:将执行结果(如{"city": "北京", "temperature": "25°C"})再交回给LLM。 LLM组织回答:LLM将API返回的原始数据组织成自然语言回答用户:“今天北京天气晴朗,气温25摄氏度。” 本质:一个决策-执行的单次回合。LLM负责“思考”该用什么工具、传入什么参数,外部系统负责“执行”。 - ReAct(Reasoning and Acting)模式是怎么让交互更进一步的? 比喻:Function Calling 是LLM下达一个命令。而ReAct是LLM在模拟一个人解决复杂问题的完整思考过程,这个过程可能包含多个“思考-行动-观察”的循环。 工作流程:对于复杂问题(如“我们公司今年销售额最高的产品是什么,它的主要客户画像是什么?”): Reason(思考):LLM会先产生一段内部推理,例如:“要回答这个问题,我需要两步。首先,需要查询数据库找到销售额最高的产品ID。然后,再根据这个产品ID去查询客户画像数据。” Act(行动):根据推理,LLM决定下一步行动,比如调用
query_database(sql="SELECT ...")函数。这一步类似Function Calling。 Observe(观察):外部系统执行函数,返回结果(如产品ID是P-1001)。这个结果被反馈给LLM。 循环:LLM接收到观察结果,再次进行Reasoning:“好的,我已经拿到了产品ID是P-1001。接下来,我需要查询客户表…” 然后再次 Act,调用另一个函数… 本质:一个多步推理的循环框架。它通过强制LLM展示“思维链”,使其规划能力更强,更能处理需要多步骤工具调用的复杂任务。
总结:你的学习路径图
- 从Embedding开始:理解一切是如何从“将信息转化为语义空间坐标”开始的。
- 学习向量数据库和相似度计算:理解如何在这个空间里进行高效、精准的检索。这是RAG的基石。
- 深入理解RAG:掌握如何通过检索外部知识来增强LLM,解决其核心痛点。
- 学习Function Calling:理解LLM与外部工具交互的基本单元。
- 最终掌握ReAct模式:理解如何利用LLM的推理能力,串联多个Function Calling来解决复杂问题。
这条路线清晰地展示了现代LLM应用是如何一步步被构建起来的:从静态的知识检索(RAG),到动态的工具使用(Function Calling),再到复杂的任务分解与规划(ReAct)。祝你学习顺利!
