浅谈GenAI
人类的智能
环境感知 -> 自主思考 -> 作出反应
想象这样一个场景,假如你正在开车,绿灯通过一个十字路口的时候,一个小朋友突然闯红灯,跑上了马路,你如果再以当前速度行驶,那么接下来你可能就会撞到他。你下意识的会奋力踩下刹车,避免交通事故。
首先你的眼睛(外部感知)看到了小男孩,你会在大脑中快速计算,如果不做任何操作,那么马上你就会撞上他,在你的潜意识里面,如果发生了严重的车祸会对你和他人造成可怕的后果(思考过程)。为了避免这个情况发生,你必须要马上踩刹车(作出判断)。并且由于这次遭遇让你感到后怕,你会提醒自己,在过红绿灯的时候要记得减速(自身优化)。人类的智能,体现在可以处理复杂问题,并且有学习与适应的能力。
人工智能(AI)是什么
AI (Artificial Intelligence 人工智能)是一个广泛的概念,是研究如何使用计算机或机器能够执行通常需要人类完成的任务的学科。这些任务包括学习、推理、解决问题、感知(视觉或听觉)和语言理解。AI 的目标是创建能够模拟、拓展或辅助人类的智能系统。 我们通常使用和接触的语音助手,图像识别,推荐系统,智能驾驶都属于狭义 AI,特指专注于特定任务,性能优于人类但局限性强。而最近大火的 ChatGPT,deepseek,grok,Google gemini 等,都属于生成式 AI(GenAI),它也是 AI 的一种,可以基于海量训练数据,生成新的内容,例如文本、图像、音频和视频。
机器学习
机器学习 是 AI 的一个子集,专注于通过数据让机器自动学习和改进,而无需显式编程。其中包含了三种学习方式,Supervised learning(监督学习),Unsupervised learning(无监督学习)以及 Semi-supervised Learning(半监督学习)。
监督学习(Supervised Learning)
在监督学习中,训练数据是带有标签的。也就是说,每个输入样本都有一个对应的正确输出(标签)。算法通过学习输入和输出之间的关系,来对新的、未见过的数据进行预测。
目标:建立输入到输出的映射关系,用于预测,例如根据房屋面积和位置预测房价
无监督学习(Unsupervised Learning)
在无监督学习中,训练数据是不带标签的。算法需要从数据中自行发现隐藏的模式、结构或关系。
目标:探索数据的内在特性,而非直接预测输出,例如将客户数据分组,找出相似的消费模式。
半监督学习(Semi-supervised Learning)
半监督学习结合了有标签数据和无标签数据进行训练。通常在有标签数据稀缺的情况下使用,通过利用大量无标签数据来提升模型的性能。
目标:先用少量有标签数据训练模型,再用无标签数据进一步优化。
深度学习
深度学习是机器学习的一个分支,通过人工神经网络的结构来让计算机学会从数据中发现隐藏模式,而不是通过代码告诉它怎么做。
在神经网络中,网络结构通常是三层:
- 输入层:接收初始数据的层
- 隐藏层:位于输入层和输出层之间,负责处理和转换输入数据,以提取特征并进行复杂的计算
- 输出层:生成最终结果的层
我们通常说神经网络的深度,是指隐藏层的数量,例如第一层可以识别图片边缘,第二层通过边缘组合轮廓,更深的层通过轮廓识别是什么物体。
深度学习通过多层神经网络让计算机能够自己从数据中学习模式,特别是在图片识别,语音识别,自然语言处理方面很有用。
GenAI
生成式人工智能(Generative AI)是深度学习技术发展的最新成果,主要通过大语言模型(LLM)和多模态模型来创造新内容。
GenAI 与深度学习的关系
- 基于深度神经网络架构(如Transformer)
- 依赖海量数据和算力进行预训练
- 通过自监督学习捕捉数据内在模式
GenAI 的由来
- 2017年Transformer架构的提出
- 2020年GPT-3展现强大生成能力
- 扩散模型在图像生成领域的突破
- 多模态技术的融合发展
GenAI 的应用场景
- 文本生成:代码自动补全(GitHub Copilot)、文档创作
- 图像生成:DALL·E 3、Midjourney等工具
- 音频/视频合成:语音克隆、数字人播报
- 跨模态交互:图文互转、多轮对话系统
GenAI 热度高涨的原因
- 技术突破带来生产力革命
- 交互方式更贴近人类自然习惯
- 降低专业领域应用门槛
- 创造新的商业模式和就业机会
Prompt 的使用
Prompt 的作用
- 建立人机交互的语义桥梁,将自然语言转化为机器可理解的指令
- 控制生成内容的风格、格式和领域特征(如代码/文案/报告)
- 激活大模型的特定能力模块(如数学推理/创意写作)
有效 Prompt 的特征
- 明确具体:
1
2
3
4
5
6
7
8# 模糊Prompt ✗
"写一个排序函数"
# 明确Prompt ✓
"用Python实现快速排序算法,要求:
1. 函数名为quick_sort
2. 输入为整数列表
3. 返回排序后的新列表" - 结构化表达:
1
2
3
4
5
6角色:资深Java开发工程师
任务:编写Spring Boot登录接口
要求:
- 使用JWT认证
- 包含参数校验
- 返回标准JSON格式 - 示例驱动(One-shot):
1
2
3
4
5
6输入:删除数组重复元素
示例:
输入:[1,2,2,3] → 输出:[1,2,3]
请用TypeScript实现相同功能的函数
Prompt 工程技巧
1. 角色设定
医疗案例
1 | 原Prompt: "解释糖尿病" |
编程案例
1 | 原Prompt: "写Python代码" |
2. 链式思考
数学案例
1 | 原Prompt: "计算投资回报" |
商业案例
1 | 原Prompt: "分析市场趋势" |
3. 错误修正
技术文档案例
1 | 原Prompt: "写API文档" |
生活场景案例
1 | 原Prompt: "推荐旅游地点" |
总结
本文简单介绍了人工智能(AI)及其子分支,包括机器学习和深度学习,并重点探讨了新近崛起的生成式人工智能(GenAI)。人工智能(AI)旨在创建能够模拟、拓展或辅助人类智能的系统,而机器学习使机器能够通过数据学习并改进。深度学习通过多层神经网络从大数据中学习隐藏模式,尤其擅长于图像识别、语音识别和自然语言处理。生成式人工智能(GenAI)是深度学习技术的最新成果,通过大语言模型及多模态模型创造新内容,例如文本生成、图像生成以及音频/视频合成。
GenAI的应用场景丰富多元,涵盖代码自动补全、文档创作、图像生成工具如DALL·E 3和Midjourney、语音克隆、数字人播报以及多轮对话系统等。其热度高涨的原因是技术突破带来了生产力革命,使得交互方式更贴近人类自然习惯,并降低了专业领域应用门槛。Prompt在GenAI中的作用尤为重要,它作为人机交互的语义桥梁,通过角色设定、链式思考、格式约束和知识隔离等技巧,可以有效地控制和激活模型的特定能力。
生成式人工智能(GenAI)代表了当前人工智能研究和应用的前沿方向,预示着一个新的技术革命已经在悄无声息地冲击各行各业,并蕴含着无限的潜力和机遇。在未来,GenAI有望在以下几个方面继续发展:
更高级的多模态交互:随着多模态模型的不断进步,GenAI将不仅在单一文本、图像或音频等领域独立生成内容,还可以整合多种数据类型,实现更复杂的多模态交互。例如,通过融合视觉、听觉甚至触觉等感知信息,生成更丰富、更具沉浸感的内容。
个性化与定制化内容生成:GenAI将进一步提升对个体用户偏好和需求的理解能力,生成更为个性化和定制化的内容。无论是在教育、娱乐、广告还是客户服务等领域,都能提供高度个性化的体验。
跨学科融合与应用拓展:GenAI的应用将逐渐渗透到更多行业和领域,推动跨学科交叉融合。例如,在医疗领域,GenAI可以辅助医学诊断和药物发现;在金融领域,可以用于风险管理、投资分析和市场预测等。
更强大的自主学习与迭代能力:随着算法的不断优化,未来的GenAI模型将具备更强大的自主学习和自我迭代能力,能够在较少人工干预的情况下不断优化生成结果,并且能从用户反馈中学习并自我进化。
伦理与安全性增强:考虑到生成内容可能带来的伦理安全问题,如虚假信息生成或隐私泄露等,未来在发展GenAI技术的同时,将更加强调伦理规范和技术安全性的提升。例如,通过引入更严格的生成内容审核机制,或者开发出能主动识别并避免生成有害信息的算法。
绿色计算与能效优化:由于GenAI模型的训练通常需要巨大的计算资源和能源消耗,未来的研究将致力于提升模型训练和推理的效率,并寻找更为环保和节能的计算解决方案,如硬件加速、分布式计算优化等。
人机协作的新范式:GenAI将使人类与机器的协作更加紧密和自然。人类将能够通过与GenAI的对话和交互,更高效地完成任务并激发创新灵感,而GenAI将成为人类在各个领域中强有力的助手。
总体而言,生成式人工智能(GenAI)在未来的发展将进一步深化其在各行业的应用,推动更多创新和生产力提升,同时在社会伦理、安全性、能效优化和人机协作等方面也将不断进步和完善。