AI大模型核心知识：小白必备的实用指南

从ChatGPT的横空出世到Deepseek的崭露头角，人工智能为人类带来的震撼已无需赘言。AI大模型的发展速度远超我们的想象，如何利用AI制作PPT、如何撰写更专业的prompt提示词，市面上不乏相关教程。但今天，我想和大家探讨的是：除了这些众所周知的内容，关于AI大模型，你还需要了解哪些知识？

01 核心问题是什么？

作为非AI领域的从业者，我们可能无需深入探究其技术原理和运作机制。但在当前迅猛的技术浪潮中，总有一天我们会面临这样的挑战：如何充分利用AI大模型，将其融入产品设计，更好地满足用户需求？在此之前，我们或许听说过一些名词，如微调、知识库、Token、插件、MCP等，但知其名，不知其意。此外，AI大模型的种类繁多，国外有OpenAI、Google Gemini、Anthropic Claude、Meta Llama、xAI Grok等，国内则有Deepseek、阿里通义千问、月之暗面Kimi、字节豆包、腾讯混元等。尽管眼花缭乱，但它们的核心能力大体相似，各自在专业领域有所专长。作为产品经理，有必要对这些能力有所了解。别等到不得不拥抱AI时，你才想到只有一个输入框。

02 他们能做什么？

接下来，我将重点介绍AI的一些基本能力，帮助你更好地定制和设计AI，让AI与你的产品更加契合。希望了解这些知识后，你能打开思路，避免千篇一律教条化AI接入。

结构化输出，让AI学会”填表”

这个概念很好理解，就是让AI按照规定的格式回答问题，避免”瞎说”。填表比说话更有效率。我们平时也经常”填表”，目的就是让我们按照规定的格式输入信息，这样的数据能够更好地收集和处理。否则张三李四各说一个版本，我们也搞不清楚关键的信息是否收集到位了。让大模型”填表”对于大模型，你也可以要求AI用你规定的格式来回答问题。

“`json
{
“产品名称”: “智能音箱”,
“型号”: “X100”,
“价格”: “499”,
“库存”: “200”,
“image”: “图片地址”,
“url”: “链接地址”
}
“`

AI大模型核心知识：小白必备的实用指南

这样做的好处包括但不限于：规范回答格式，一定程度避免Ta放飞自我；方便开发工程师对数据进行二次包装或者处理；切换不同大模型时，能获得相对规范统一的回答。随便举几个应用例子：让AI从用户差评中自动提取”问题类型-严重程度-情绪评分”；把自由格式的会议纪要转换成”议题-负责人-时间节点”的表格；让大模型根据需要，回复用户不同格式的消息：文本、图片、视频、跳转链接等等…

小结

通过结构化输出，你可以进一步压榨AI大模型，让Ta和你想要设计的功能、想要满足的需求更高效地结合起来，AI不再只是偶尔嘴上跑火车的对话框了。

学会用工具，告别”光说不练假把式”

数百万年前，人类开始学会制作和使用工具，工具的使用又反过来推动了人类的进化。巧妇难为无米之炊试问，在不借助任何工具的情况下，你能不能空手做好一桌大餐？很难吧。如果给你足够的工具，譬如菜刀、铲子、锅碗瓢盆、微波炉、烤箱、榨汁机、一个可以查询食谱的电脑…是不是事情会easy很多？同样的，一个只会对话和回答问题的AI都是键盘侠，纸上谈兵罢了。但如果学会了使用工具，AI实力将得到极大的提升。

举例一个具体的场景，当你想要去成都旅游时，可能会问AI大模型一些基础的攻略：但如果让Ta学会调用旅游相关的工具，事情就会变得有意思：

* 查一查成都最近的天气是否适合旅游；
* 帮你订好到成都的机票；
* 查询飞机降落的信息，及时提醒在哪里取行李；
* 帮你预约好接机的网约车；
* 帮你预订好合适的酒店；
* 帮你预定好每一天的行程、博物馆的门票、用餐的餐厅等等；
* 你每到一个地方，都按照你的兴趣为你讲解；……

简单来讲，你是可以教会AI怎么去使用你提供的工具的，基本的形式是：

AI大模型核心知识：小白必备的实用指南

* 先告诉大模型Ta可以使用哪些工具，这些工具分别是干什么的，怎么用；
* 当你向AI提出一个需求时，Ta会自己判断是直接回答还是调用合适的工具来帮你完成任务；
* AI会按照工具的使用说明书，自动生成调用指令，向工具发出请求；
* 工具处理完请求后，返回结果，AI再将结果整理、优化并反馈给你。

目前，工具调用常见的概念有两个：单个工具调用（Function Calling）和工具包调用（MCP）。

Function Calling

大多主流大模型都提供了Function Calling的能力，你可以提供很多个Function给大模型使用，每个Function实现不同的功能。这就像工具箱里一个个不同用途的工具：螺丝刀、钳子、锤子、扳手、锯子…每个工具都有不同用途。大模型会根据对话需求，自行决定是否调用工具以及调用什么工具。需要注意的是，这些工具需要你亲手做好，并写好说明书教大模型如何使用。虽然大差不大，但每个大模型对Function Calling规则和标准不尽相同，当你切换不同大模型时，可能需要针对性”私人定制”一下。

MCP

相比Function Calling，MCP则更像是一个个打包好的、不同用途的工具箱，譬如刚才提到的螺丝刀、钳子、锤子、扳手、锯子…就可以打包成一个”维修工具包”。除此之外，我们还可以把创口贴、纱布、棉花、剪刀、碘伏等打包成一个”医疗急救包”。同样的，把指甲刀、锉刀、修眉刀、挖耳勺等集合到一起，又可以成为一个”日常护理包”。没错，你可以把MCP看做是一个标准化的、解决不同领域问题的”集合工具包”，Ta把某一领域需要用到功能都打包在了一起，并且用标准化的协议来连接大模型。这样一来，不同的大模型都能够统一地使用工具包里的每一个工具。

MCP（Model Context Protocol，模型上下文协议）是由Anthropic公司推出的开放标准协议，目前这个技术标准还在发展当中，更加复杂的技术概念就不在这里赘述了，感兴趣的朋友可以搜索更多资讯进一步了解。

二者对比

AI大模型核心知识：小白必备的实用指南

多模态：给AI嘴巴、眼睛和耳朵

除了传统的文本对话和工具调用之外，现代AI大模型正逐步具备强大的多模态能力。这意味着，AI不仅能”说”，还能”看”图像、听语音，甚至处理视频内容，从而为产品带来更多维度的交互体验。具体来说，多模态能力体现在以下方面：

* 视觉识别与生成：能看图，也能画图。AI可以看懂图片，也可以根据描述自动生成符合风格的图片素材。
* 语音识别与合成：听人话，说人话。AI能听懂用户说的话，也能够通过语音回应用户。
* 视频内容解析：看视频，做视频。AI能看懂视频的内容，并且有自己的理解。与此同时，AI也在逐步具备生成视频的能力，仍在发展中。

通过多模态交互，你可以让AI大模型变得更加”全能”，不仅限于文字对话，而是通过视觉、听觉等多个感官渠道与用户互动，为产品创新提供更多可能。

AI Agent

最近到处都在讲的AI Agent，就是把这些能力整合在一起，通过感知、决策和使用工具，成为一个能自主思考并完成任务的智能助手。

小结

你可以把你产品的各种能力按需包装成”工具”或者”工具包”，AI不止会”说”，还能真正去”做”。此外，可按需接入多模态能力，赋予AI”看”、”听”、”说”的能力。这样一来，AI同你产品的结合度会更加紧密，也可以更好地满足用户的需求。

AI大模型核心知识：小白必备的实用指南

PUA大模型，教Ta做事

大模型什么都懂，但Ta不一定懂你。那怎么让大模型知你懂你、按照你想要的方式和答案去回答用户呢？请掌握好两大”PUA”大法：模型微调（Fine-tuning）和检索增强生成（RAG）。说人话就是：喂饭和给辞典。

给AI喂饭：模型微调（Fine-tuning）

俗话说，熟读唐诗三百首，不会作诗也会吟。如果你对AI针对某些问题的回答不够满意，就可以用填鸭式教学的方式不停地给Ta举例子，让Ta逐步变成你想要的模样。通过”喂饭”，可以把一个通用大模型转化为”医疗问答专家”，或者一个”中二少年”。需要注意的是，虽然这里叫”微调”，但AI的”饭量”很大，你需要提供足够多的数据，Ta才能够有更加稳定可靠、符合期望的表现。

给AI辞典：检索增强生成（RAG）

在不借助互联网的情况下，如果你要搞懂”樽俎折冲”这个成语的含义，你会怎么办？查辞典是一个比较高效的办法。同样的，如果想要AI专精一些冷门或专业性知识，譬如客服回复话术或产品使用说明。那就可以丢给Ta一个知识库文档，AI会自己去检索文档内容，结合文档的知识来回答用户问题。值得一提的是，这里AI使用的不是我们传统的”关键词搜索”，而是”语义检索”。平时我们搜索一个文档，”番茄”就是”番茄”，”西红柿”就是”西红柿”，你搜索”番茄”是找不到”西红柿”的。而语义检索可以做到搜索”番茄”也找到”西红柿”。这让AI对知识库的检索能力变得比人更强大。

二者对比

小结

AI大模型核心知识：小白必备的实用指南

你可以把一些产品特有的知识教给AI，这样AI就可以变成你期待的样子。和AI对话，一场人格分裂的角色扮演

首先，众所周知，AI能对话。除了在Ta们提供的聊天框内与他们对话，你还可以调用API（开放接口）能力，与Ta对话。

“`python
# 每一次消息都要带上之前说过的话，不然AI不知道之前说了啥。
messages = [
{
“role”: “system”,
“name”: “唐诗专家”,
“content”: (
“你是一位唐朝诗人助手，能够根据上下文扮演不同的唐代诗人。”
“请确保所有回答都融合唐朝诗人的文风。”
“根据用户要求，分别模拟李白和杜甫的风格：”
“李白应表现豪迈奔放，而杜甫应表现沉稳细腻。”
)
},
{
“role”: “user”,
“name”: “王工”,
“content”: “李白，请你描绘一下秋天的景色。”
},
{
“role”: “assistant”,
“name”: “李白”,
“content”: (
“秋风萧瑟，落叶纷飞；云海苍茫中，激起我心中无限豪情。”
)
},
{
“role”: “user”,
“name”: “用户”,
“content”: “杜甫，请你点评李白的这段描写。”
},
{
“role”: “assistant”,
“name”: “杜甫”,
“content”: (
“李白兄之词，虽豪迈奔放，但略显轻佻；秋景虽美，情思更需沉稳细腻。”
)
},
{
“role”: “user”,
“name”: “刘总”,
“content”: “李商隐你来评价一下李白和杜甫。”
},
]
# 调用接口，把包括新对话的聊天记录传过去
response = openai.ChatCompletion.create(
model=”gpt-3.5-turbo”,
messages=messages
)
# 收到回复，打印出来看看
print(response.choices[0].message[‘content’])
“`

看不懂没关系，也不需要太懂，我举个例子来逐一解释。想象甲乙丙三方公司通过邮件进行沟通：

① role（角色）

角色即身份，有点类似邮箱@后的域名，你来自哪个公司一眼就看出来了。对于AI来说，主要有3种身份：

* system（系统）：类似于第三方监管机构，邮箱地址：xxx@system.com。主要负责制定一些基本规则，教乙方做事，让乙方在甲方面前老实点，别放飞自我整幺蛾子。
* user（用户）：至高无上、提出需求的甲方，邮箱地址：xxx@user.com。甲方说啥就是啥，有啥问题都随意提。甲方可以是一个人，也可以是多个人。
* assistant（助手）：这里就是指AI大模型，兢兢业业满足需求的乙方，邮箱地址：xxx@assistant.com。甲方说啥就是啥，乙方必须有求必应。同样的，乙方也可以是一个”人”或多个”人”。

② name（名字）

AI大模型核心知识：小白必备的实用指南

有点类似邮箱@前面的账号名，你是甲方的谁谁谁或者乙方的谁谁谁就分得很清楚：

* 唐诗专家指导@system.com
* 刘总@user.com、王工@user.com
* AI李白@assistant.com
* AI杜甫@assistant.com
* AI李商隐@assistant.com

一般来说，我们不会默认使用name，因为role的三种角色已经足够了。但如果你构思的产品需要有多用户和多角色的时候（譬如人机混战剧本杀），那么name就能派上用场。

③ content（内容）

顾名思义，写邮件的时候肯定会包含邮件正文，甲乙丙三方都通过邮件正文传递信息。

④ forgetful（健忘）

每封邮件必须包含之前所有的对话历史。很不幸，这个邮箱对话系统非常简陋，每次只能看当前收到的邮件内容，不存档之前说过什么，甲乙丙也都是”金鱼脑”，什么都不记得。因此，为了让大家明白来龙和去脉，每一次发邮件的时候，都需要带上之前所有的对话。只有这样，AI才能明白之前讨论过哪些问题，进而做出连贯、准确的回答。但这样也带来两个硬伤：

* AI对话的记忆有限，迟早会失忆；
* 对话轮次越多，消耗的token(RMB?)也呈指数级增长。

AI大模型核心知识：小白必备的实用指南

小结

了解以上的信息之后，结合不同的system、user、assistant，相信你已经有了很多新的想法和创意。

更多小知识

作为甲方的你，除了可以和大模型对话，还可以提一些小要求。我就简单说几个大家可能常用的：

* stream：流式输出可以控制AI的回答是全部就绪了一次性发给你，还是一个字一个字蹦给你。是的，我们平时看大模型回答一直在打字，就是用的流式传输。由于大模型输出完整答案的时间目前还比较长，流式输出可以有效减少用户的等待焦虑。
* frequency_penalty：重复率-2到2的一个数字，减少重复内容，避免复读机。如果frequency_penalty>0，AI回答问题一旦出现已有文本中就会被扣工资。
* temperature：温度虽然叫温度，但其实代表着AI的随机性、创造性。温度低，AI就比较稳扎稳打，对同样问题尽可能保持一致回答，反之思维则更加发散、回答的随机性更多。还有一个参数叫top_p，作用类似就不赘述了，免得把你绕晕了。

小结

如果你还想知道更多关于大模型的参数，你可以去查看各个大模型官网的API文档，里面有更加详细的说明。

03 AI的幻觉

AI大模型核心知识：小白必备的实用指南

AI幻觉，简单来说就是AI”一本正经地胡说八道”，Ta有时候会给出看似逻辑通顺、有鼻子有眼，但实际上不符合事实、和你问题八竿子打不着的回答。这是因为：

* 瞎读书，读瞎书：训练数据中包含了太多错误的、质量不高的信息，走火入魔、误入歧途了；
* 想太多，太多想：AI会强行关联高频出现的词汇（比如：看到”加拿大”就想”多伦多”，但你的问题其实是加拿大首都在哪里）；
* 好面子，怕冷场：现在的大模型更多被设计成”宁可死鸭子嘴硬瞎编也不承认自己不知道”，遇到拿不准的就会一本正经的胡说八道。

所以，除非你是专门做AI类的产品，否则最好让AI成为你产品功能的”拓展”，而不是”替代”。毕竟，AI不是随时都靠谱。

04 他们分别擅长什么？

主流大模型就像武侠世界的各路高手，有的内力深厚适合硬刚代码，有的轻功了得擅长处理万字长文，有的暗器精妙专攻多模态花活。结合你的产品需求选对兵器，才能让AI真正成为你的”六脉神剑”。以下是国内外部分主流大模型的对比（表格较大，PC查看效果更佳）：

以上的总结不一定准确，大家还是以各大模型官网和权威测评为准。

05 写在最后

大模型不是万能药，它更像是产品创新的”催化剂”。理解能力边界，善用工具组合，才能让AI真正成为用户的”超级助手”。一个比较个人主观的想法：我们利用AI的核心任务是用AI放大用户价值，而非追逐技术炫技。很庆幸见证这个AI飞速发展的时代，也正因为如此，AI相关的技术日新月异。这篇文章也仅仅介绍了一些稍有拓展的基本概念。如果你对AI感兴趣，不妨在闲暇时多关注一些。历史的车轮仍在向前，焦虑不如期待。

【WpBull.com作者介绍】Hello，可以叫我JJW，idol是张小龙。鹅厂高级产品锦鲤，搞不懂什么抓手也不太会赋能，但也曾一步步把负责的业务从〇迭代到千万级DAU。先后就职于两款头部产品，喜欢游戏，也喜欢研究一些乱七八糟看起来没啥用的东西。

文章网址：https://www.wpbull.com/ai/28645.html