面试官别再问 AI 应用啦,我是真没招了
我们是如何走到这一步的
人工智能这一词出现,依然有几十年的历史,差不多每过十年就会经历一次 AI 浪潮。抛开那些繁杂的概念,只说大模型,起源可以追溯到 2017 年发布的《Attention is All Need》论文,论文提出了Transformer,给现在的 LLM(大语言模型) 奠定了理论基础。
理论到落地通常需要很久的时间。所以直到2022年,才有第一个应用诞生,至今AI应用访问量上都占据着榜首。
模型 & 应用
如何理解LLM
一个发光二极管,亮与暗代表1和0,这样电信号与数字信号便有了转换方式,硬件与软件有了初步合作。不过0101代码的还是不够让人类方便的理解,于是人们将一组01抽象成指令,就有了汇编。但是汇编还是有点不够直观,逐渐抽象有了更高级的语言。
可以让计算机直接与人类沟通吗?有的兄弟,有的
NLP(自然语言处理,Natural Language Processing)是 AI 人工智能的核心分支,目标是通过算法让计算机理解、处理、生成人类语言。
LLM呢,就是NLP的一个子集。也是为了能够听懂并与人类交流。
AI & NLP & LLM 关系
简单原理
当我们描述描述两个物体时,可以给他很多属性。每个属性又有一定的值,所以由各个属性维度组成的数据可以抽象在一个n维坐标系上。每一个物品,都算做一个向量。以前我们说,万物皆对象,现在也可以说,万物皆向量。
在文字上说两个物体相似,可以说属性接近。而在n维坐标系中,可以使用数学公式,求出两个向量的余弦相似度(0到1之间)。
在你向 DeepSeek 提问时,他便根据你的问题,开始推测下一个字或词(token)。用一个复杂的技术(开头所述的论文),取出下一个的概率比较大的token。直到到达最大上下文或者意图识别到很弱的信号才会终止输出。
开发应用基础
当大模型有了足够多的向量(存在于网络的知识),我们便实现了知识平权,当你想要快速了解任何领域公开的知识都很方便。这便是第一类应用,智能对话助手。
当你问他你们企业私有的知识,这就有点难为他了。不过这也很快被检索增强生成(RAG, Retrieval-augmented Generation)解决。
先将企业知识pdf、word等文档通过Embeding模型转为向量,存到向量数据库中,当提问时,会去数据库中检索,拼接完整的提问和背景,还有大模型回答
那现在,你有了更商业版的助手,它可以在客服,企业知识库等场景发挥很大作用。
但这还远远不够,如果你想将它真正嵌入业务中的一环,比如动动嘴就能填一张请假单。这时候,需要强调他的回答格式。
一个结构化的JSON,就可以将此作为一个请求,转发给对应系统,于是你完成了初级的应用开发。
但并不是所有人都懂代码,不过所有人都会懂业务,所以一些程序员之外的人也可以通过Agent(智能体)工作流来组成自己的应用的产品(coze,dify)。
更多的现代技术
以下是写Agent会用到的,比较专业,可跳过本部分。
- MCP 模型上下文协议
大多数时候,我们还在扮演一个上下文的搬运工,有时希望在对话过程中都可以将信息传达给他。于是,便有了这样的技术,赋予大模型眼睛,手与脚。让它在运行过程中可以自由的看浏览器,查找官方文档,查看本地代码空间等。
- A2A 智能体对智能体协议
任何接口都可以改造成MCP,但问题也随之而来。有时会无法管控他上下文的长度,造成了大量的上下文浪费。也有时怕他太过全能,在数据库MCP上删库跑路。于是,便诞生了此,有着更完善的Agent调用链的协议。
- Skills
这是Claude对MCP副作用的一个回答。优化了 A2A 的繁重,弥补了MCP的莽撞。通过简单文字描述的流程与模型的Agent支持,让大模型的能力更为强大。
现在的 LLM 应用什么样子
背景
如今,我们看到常用的App都或多或少的上线了LLM功能。
比如,他们可以分析你的数据,给你提供更全的建议的健身App;
你可以随时向客服提问,并得到专业知识的的智能客服应用,有的甚至你可以直接让他们帮你完成某个购买商品操作;
亦或者,一个贾维斯一样的助手,可以帮你联网搜索,整理,汇报等一连串的任务。
在早期,我们还在讨论怎样使用Prompt(提示词)让大模型更聪明。后来我们为了让大模型更准确的执行某个流程,还专注去学搭建Agent 工作流。不过随着这种不确定性的工作越来越确定性,一些Prompt,Agent工作流的规范确立,这些手动提示的操作,变成了规范的Agent、应用流程。BTW,提示词还是要学一下的,有时候现有的不够满足你的一些场景。
搭建应用通解
像Coze Space和Gemini的生图功能,已不再是直接调用模型,而是有一定流程的自规划智能体。根据ReAct,CodeAct等论文的介绍,我觉得大致可以分为下面流程:
- 思考
用户的问题或许是个很复杂的任务,我们需要拆解,这时会出现第一次调用大模型。
- 规划
拆解子问题逐个解决,或是子计划交给其他智能体(SubAgent or multi Agent)。
- 行动
拿到最小可执行的任务后,开始执行自己的任务。
- 反思
这里可能会造成大模型自循环,检查是否规划的全部完成,检查最开始的任务是否解决。
ReAct 模式
未来的 AI 应用什么样子
这里没再用LLM,而是改成了AI。因为我觉得,LLM发展已经开始局限,所有的流程开始逐渐形成范式。未来一定是多AI共同协作,NLP或许只是一个入口。比如大家一直向往的具身智能机器人,排除算力电力等挑战,这全身的动作控制,一个LLM就不够用。
#聊聊我眼中的AI#
