AI大模型核心知识:小白必备的实用指南
从ChatGPT的横空出世到Deepseek的崭露头角,人工智能为人类带来的震撼已无需赘言。AI大模型的发展速度远超我们的想象,如何利用AI制作PPT、如何撰写更专业的prompt提示词,市面上不乏相关教程。但今天,我想和大家探讨的是:除了这些众所周知的内容,关于AI大模型,你还需要了解哪些知识?
01 核心问题是什么?
作为非AI领域的从业者,我们可能无需深入探究其技术原理和运作机制。但在当前迅猛的技术浪潮中,总有一天我们会面临这样的挑战:如何充分利用AI大模型,将其融入产品设计,更好地满足用户需求?在此之前,我们或许听说过一些名词,如微调、知识库、Token、插件、MCP等,但知其名,不知其意。此外,AI大模型的种类繁多,国外有OpenAI、Google Gemini、Anthropic Claude、Meta Llama、xAI Grok等,国内则有Deepseek、阿里通义千问、月之暗面Kimi、字节豆包、腾讯混元等。尽管眼花缭乱,但它们的核心能力大体相似,各自在专业领域有所专长。作为产品经理,有必要对这些能力有所了解。别等到不得不拥抱AI时,你才想到只有一个输入框。
02 他们能做什么?
接下来,我将重点介绍AI的一些基本能力,帮助你更好地定制和设计AI,让AI与你的产品更加契合。希望了解这些知识后,你能打开思路,避免千篇一律教条化AI接入。
结构化输出,让AI学会”填表”
这个概念很好理解,就是让AI按照规定的格式回答问题,避免”瞎说”。填表比说话更有效率。我们平时也经常”填表”,目的就是让我们按照规定的格式输入信息,这样的数据能够更好地收集和处理。否则张三李四各说一个版本,我们也搞不清楚关键的信息是否收集到位了。让大模型”填表”对于大模型,你也可以要求AI用你规定的格式来回答问题。
“`json
{
“产品名称”: “智能音箱”,
“型号”: “X100”,
“价格”: “499”,
“库存”: “200”,
“image”: “图片地址”,
“url”: “链接地址”
}
“`
这样做的好处包括但不限于:规范回答格式,一定程度避免Ta放飞自我;方便开发工程师对数据进行二次包装或者处理;切换不同大模型时,能获得相对规范统一的回答。随便举几个应用例子:让AI从用户差评中自动提取”问题类型-严重程度-情绪评分”;把自由格式的会议纪要转换成”议题-负责人-时间节点”的表格;让大模型根据需要,回复用户不同格式的消息:文本、图片、视频、跳转链接等等…
小结
通过结构化输出,你可以进一步压榨AI大模型,让Ta和你想要设计的功能、想要满足的需求更高效地结合起来,AI不再只是偶尔嘴上跑火车的对话框了。
学会用工具,告别”光说不练假把式”
数百万年前,人类开始学会制作和使用工具,工具的使用又反过来推动了人类的进化。巧妇难为无米之炊试问,在不借助任何工具的情况下,你能不能空手做好一桌大餐?很难吧。如果给你足够的工具,譬如菜刀、铲子、锅碗瓢盆、微波炉、烤箱、榨汁机、一个可以查询食谱的电脑…是不是事情会easy很多?同样的,一个只会对话和回答问题的AI都是键盘侠,纸上谈兵罢了。但如果学会了使用工具,AI实力将得到极大的提升。
举例一个具体的场景,当你想要去成都旅游时,可能会问AI大模型一些基础的攻略:但如果让Ta学会调用旅游相关的工具,事情就会变得有意思:
* 查一查成都最近的天气是否适合旅游;
* 帮你订好到成都的机票;
* 查询飞机降落的信息,及时提醒在哪里取行李;
* 帮你预约好接机的网约车;
* 帮你预订好合适的酒店;
* 帮你预定好每一天的行程、博物馆的门票、用餐的餐厅等等;
* 你每到一个地方,都按照你的兴趣为你讲解;……
简单来讲,你是可以教会AI怎么去使用你提供的工具的,基本的形式是:
* 先告诉大模型Ta可以使用哪些工具,这些工具分别是干什么的,怎么用;
* 当你向AI提出一个需求时,Ta会自己判断是直接回答还是调用合适的工具来帮你完成任务;
* AI会按照工具的使用说明书,自动生成调用指令,向工具发出请求;
* 工具处理完请求后,返回结果,AI再将结果整理、优化并反馈给你。
目前,工具调用常见的概念有两个:单个工具调用(Function Calling)和工具包调用(MCP)。
Function Calling
大多主流大模型都提供了Function Calling的能力,你可以提供很多个Function给大模型使用,每个Function实现不同的功能。这就像工具箱里一个个不同用途的工具:螺丝刀、钳子、锤子、扳手、锯子…每个工具都有不同用途。大模型会根据对话需求,自行决定是否调用工具以及调用什么工具。需要注意的是,这些工具需要你亲手做好,并写好说明书教大模型如何使用。虽然大差不大,但每个大模型对Function Calling规则和标准不尽相同,当你切换不同大模型时,可能需要针对性”私人定制”一下。
MCP
相比Function Calling,MCP则更像是一个个打包好的、不同用途的工具箱,譬如刚才提到的螺丝刀、钳子、锤子、扳手、锯子…就可以打包成一个”维修工具包”。除此之外,我们还可以把创口贴、纱布、棉花、剪刀、碘伏等打包成一个”医疗急救包”。同样的,把指甲刀、锉刀、修眉刀、挖耳勺等集合到一起,又可以成为一个”日常护理包”。没错,你可以把MCP看做是一个标准化的、解决不同领域问题的”集合工具包”,Ta把某一领域需要用到功能都打包在了一起,并且用标准化的协议来连接大模型。这样一来,不同的大模型都能够统一地使用工具包里的每一个工具。
MCP(Model Context Protocol,模型上下文协议)是由Anthropic公司推出的开放标准协议,目前这个技术标准还在发展当中,更加复杂的技术概念就不在这里赘述了,感兴趣的朋友可以搜索更多资讯进一步了解。
二者对比
多模态:给AI嘴巴、眼睛和耳朵
除了传统的文本对话和工具调用之外,现代AI大模型正逐步具备强大的多模态能力。这意味着,AI不仅能”说”,还能”看”图像、听语音,甚至处理视频内容,从而为产品带来更多维度的交互体验。具体来说,多模态能力体现在以下方面:
* 视觉识别与生成:能看图,也能画图。AI可以看懂图片,也可以根据描述自动生成符合风格的图片素材。
* 语音识别与合成:听人话,说人话。AI能听懂用户说的话,也能够通过语音回应用户。
* 视频内容解析:看视频,做视频。AI能看懂视频的内容,并且有自己的理解。与此同时,AI也在逐步具备生成视频的能力,仍在发展中。
通过多模态交互,你可以让AI大模型变得更加”全能”,不仅限于文字对话,而是通过视觉、听觉等多个感官渠道与用户互动,为产品创新提供更多可能。
AI Agent
最近到处都在讲的AI Agent,就是把这些能力整合在一起,通过感知、决策和使用工具,成为一个能自主思考并完成任务的智能助手。
小结
你可以把你产品的各种能力按需包装成”工具”或者”工具包”,AI不止会”说”,还能真正去”做”。此外,可按需接入多模态能力,赋予AI”看”、”听”、”说”的能力。这样一来,AI同你产品的结合度会更加紧密,也可以更好地满足用户的需求。
PUA大模型,教Ta做事
大模型什么都懂,但Ta不一定懂你。那怎么让大模型知你懂你、按照你想要的方式和答案去回答用户呢?请掌握好两大”PUA”大法:模型微调(Fine-tuning)和检索增强生成(RAG)。说人话就是:喂饭和给辞典。
给AI喂饭:模型微调(Fine-tuning)
俗话说,熟读唐诗三百首,不会作诗也会吟。如果你对AI针对某些问题的回答不够满意,就可以用填鸭式教学的方式不停地给Ta举例子,让Ta逐步变成你想要的模样。通过”喂饭”,可以把一个通用大模型转化为”医疗问答专家”,或者一个”中二少年”。需要注意的是,虽然这里叫”微调”,但AI的”饭量”很大,你需要提供足够多的数据,Ta才能够有更加稳定可靠、符合期望的表现。
给AI辞典:检索增强生成(RAG)
在不借助互联网的情况下,如果你要搞懂”樽俎折冲”这个成语的含义,你会怎么办?查辞典是一个比较高效的办法。同样的,如果想要AI专精一些冷门或专业性知识,譬如客服回复话术或产品使用说明。那就可以丢给Ta一个知识库文档,AI会自己去检索文档内容,结合文档的知识来回答用户问题。值得一提的是,这里AI使用的不是我们传统的”关键词搜索”,而是”语义检索”。平时我们搜索一个文档,”番茄”就是”番茄”,”西红柿”就是”西红柿”,你搜索”番茄”是找不到”西红柿”的。而语义检索可以做到搜索”番茄”也找到”西红柿”。这让AI对知识库的检索能力变得比人更强大。
二者对比
小结
你可以把一些产品特有的知识教给AI,这样AI就可以变成你期待的样子。和AI对话,一场人格分裂的角色扮演
首先,众所周知,AI能对话。除了在Ta们提供的聊天框内与他们对话,你还可以调用API(开放接口)能力,与Ta对话。
“`python
# 每一次消息都要带上之前说过的话,不然AI不知道之前说了啥。
messages = [
{
“role”: “system”,
“name”: “唐诗专家”,
“content”: (
“你是一位唐朝诗人助手,能够根据上下文扮演不同的唐代诗人。”
“请确保所有回答都融合唐朝诗人的文风。”
“根据用户要求,分别模拟李白和杜甫的风格:”
“李白应表现豪迈奔放,而杜甫应表现沉稳细腻。”
)
},
{
“role”: “user”,
“name”: “王工”,
“content”: “李白,请你描绘一下秋天的景色。”
},
{
“role”: “assistant”,
“name”: “李白”,
“content”: (
“秋风萧瑟,落叶纷飞;云海苍茫中,激起我心中无限豪情。”
)
},
{
“role”: “user”,
“name”: “用户”,
“content”: “杜甫,请你点评李白的这段描写。”
},
{
“role”: “assistant”,
“name”: “杜甫”,
“content”: (
“李白兄之词,虽豪迈奔放,但略显轻佻;秋景虽美,情思更需沉稳细腻。”
)
},
{
“role”: “user”,
“name”: “刘总”,
“content”: “李商隐你来评价一下李白和杜甫。”
},
]
# 调用接口,把包括新对话的聊天记录传过去
response = openai.ChatCompletion.create(
model=”gpt-3.5-turbo”,
messages=messages
)
# 收到回复,打印出来看看
print(response.choices[0].message[‘content’])
“`
看不懂没关系,也不需要太懂,我举个例子来逐一解释。想象甲乙丙三方公司通过邮件进行沟通:
① role(角色)
角色即身份,有点类似邮箱@后的域名,你来自哪个公司一眼就看出来了。对于AI来说,主要有3种身份:
* system(系统):类似于第三方监管机构,邮箱地址:xxx@system.com。主要负责制定一些基本规则,教乙方做事,让乙方在甲方面前老实点,别放飞自我整幺蛾子。
* user(用户):至高无上、提出需求的甲方,邮箱地址:xxx@user.com。甲方说啥就是啥,有啥问题都随意提。甲方可以是一个人,也可以是多个人。
* assistant(助手):这里就是指AI大模型,兢兢业业满足需求的乙方,邮箱地址:xxx@assistant.com。甲方说啥就是啥,乙方必须有求必应。同样的,乙方也可以是一个”人”或多个”人”。
② name(名字)
有点类似邮箱@前面的账号名,你是甲方的谁谁谁或者乙方的谁谁谁就分得很清楚:
* 唐诗专家指导@system.com
* 刘总@user.com、王工@user.com
* AI李白@assistant.com
* AI杜甫@assistant.com
* AI李商隐@assistant.com
一般来说,我们不会默认使用name,因为role的三种角色已经足够了。但如果你构思的产品需要有多用户和多角色的时候(譬如人机混战剧本杀),那么name就能派上用场。
③ content(内容)
顾名思义,写邮件的时候肯定会包含邮件正文,甲乙丙三方都通过邮件正文传递信息。
④ forgetful(健忘)
每封邮件必须包含之前所有的对话历史。很不幸,这个邮箱对话系统非常简陋,每次只能看当前收到的邮件内容,不存档之前说过什么,甲乙丙也都是”金鱼脑”,什么都不记得。因此,为了让大家明白来龙和去脉,每一次发邮件的时候,都需要带上之前所有的对话。只有这样,AI才能明白之前讨论过哪些问题,进而做出连贯、准确的回答。但这样也带来两个硬伤:
* AI对话的记忆有限,迟早会失忆;
* 对话轮次越多,消耗的token(RMB?)也呈指数级增长。
小结
了解以上的信息之后,结合不同的system、user、assistant,相信你已经有了很多新的想法和创意。
更多小知识
作为甲方的你,除了可以和大模型对话,还可以提一些小要求。我就简单说几个大家可能常用的:
* stream:流式输出可以控制AI的回答是全部就绪了一次性发给你,还是一个字一个字蹦给你。是的,我们平时看大模型回答一直在打字,就是用的流式传输。由于大模型输出完整答案的时间目前还比较长,流式输出可以有效减少用户的等待焦虑。
* frequency_penalty:重复率-2到2的一个数字,减少重复内容,避免复读机。如果frequency_penalty>0,AI回答问题一旦出现已有文本中就会被扣工资。
* temperature:温度虽然叫温度,但其实代表着AI的随机性、创造性。温度低,AI就比较稳扎稳打,对同样问题尽可能保持一致回答,反之思维则更加发散、回答的随机性更多。还有一个参数叫top_p,作用类似就不赘述了,免得把你绕晕了。
小结
如果你还想知道更多关于大模型的参数,你可以去查看各个大模型官网的API文档,里面有更加详细的说明。
03 AI的幻觉
AI幻觉,简单来说就是AI”一本正经地胡说八道”,Ta有时候会给出看似逻辑通顺、有鼻子有眼,但实际上不符合事实、和你问题八竿子打不着的回答。这是因为:
* 瞎读书,读瞎书:训练数据中包含了太多错误的、质量不高的信息,走火入魔、误入歧途了;
* 想太多,太多想:AI会强行关联高频出现的词汇(比如:看到”加拿大”就想”多伦多”,但你的问题其实是加拿大首都在哪里);
* 好面子,怕冷场:现在的大模型更多被设计成”宁可死鸭子嘴硬瞎编也不承认自己不知道”,遇到拿不准的就会一本正经的胡说八道。
所以,除非你是专门做AI类的产品,否则最好让AI成为你产品功能的”拓展”,而不是”替代”。毕竟,AI不是随时都靠谱。
04 他们分别擅长什么?
主流大模型就像武侠世界的各路高手,有的内力深厚适合硬刚代码,有的轻功了得擅长处理万字长文,有的暗器精妙专攻多模态花活。结合你的产品需求选对兵器,才能让AI真正成为你的”六脉神剑”。以下是国内外部分主流大模型的对比(表格较大,PC查看效果更佳):
以上的总结不一定准确,大家还是以各大模型官网和权威测评为准。
05 写在最后
大模型不是万能药,它更像是产品创新的”催化剂”。理解能力边界,善用工具组合,才能让AI真正成为用户的”超级助手”。一个比较个人主观的想法:我们利用AI的核心任务是用AI放大用户价值,而非追逐技术炫技。很庆幸见证这个AI飞速发展的时代,也正因为如此,AI相关的技术日新月异。这篇文章也仅仅介绍了一些稍有拓展的基本概念。如果你对AI感兴趣,不妨在闲暇时多关注一些。历史的车轮仍在向前,焦虑不如期待。
【WpBull.com作者介绍】Hello,可以叫我JJW,idol是张小龙。鹅厂高级产品锦鲤,搞不懂什么抓手也不太会赋能,但也曾一步步把负责的业务从〇迭代到千万级DAU。先后就职于两款头部产品,喜欢游戏,也喜欢研究一些乱七八糟看起来没啥用的东西。