生成式AI工具在各个领域都有广泛的应用,从文本生成、图像生成到音频生成和视频生成,这些工具不仅提高了内容创作的效率,还为创新和个性化提供了无限可能。
01
文心一言
百度文心一言是百度基于其强大的飞桨深度学习平台和文心知识增强大模型技术推出的生成式对话产品。它是百度在人工智能领域的重要战略布局之一,也是百度在人工智能领域持续创新、深耕多年的重要成果之一。
文心一言具备跨模态、跨语言的深度语义理解与生成能力,能够与人对话互动,回答问题,协助创作,高效、便捷地帮助人们获取信息、知识和灵感。百度文心一言以《文心雕龙》为灵感,为广大写作者提供了便捷、高效的写作体验。该款应用运用自然语言处理技术,整合海量的文学、历史、诗词等资源,能够为用户提供更加丰富、精准的词汇参考和句式建议,从而帮助用户更好地表达自己的想法和情感。作为一款智能写作辅助工具,百度文心一言具备多种实用功能。它可以根据用户的输入智能推荐合适的词汇、句子和段落,帮助用户快速地构建文章的框架和内容。同时,它还可以对用户的写作进行智能分析和评估,提供针对性的改进建议,帮助用户提升写作水平。
文心一言的名称来源于中国古代文学理论名著《文心雕龙》,这本书是中国文学史上重要的文学理论批评著作,对文学创作的规律和技巧进行了深入探讨。百度文心一言取名于此,不仅代表了其对文学创作的敬畏和追求,也展现了其对智能写作技术的深入研究和应用。图1-12显示了文心一言的网页。
■ 图1-12文心一言
02
讯飞星火
讯飞星火认知大模型是科大讯飞于2023年5月6日发布的语言大模型,提供了基于自然语言处理的多元能力,支持多种自然语言处理任务。2023年10月,科大讯飞发布了讯飞星火认知大模型V3.0,该版本的语言大模型在中文能力客观评测上已经超越了ChatGPT,并且在医疗、法律、教育等专业上的表现也格外突出。
作为生成式AI工具,讯飞星火已成功应用于内容创作,并在国内主流应用商城上架。讯飞星火利用先进的人工智能技术帮助用户生成高质量的文章、文案和报道,无论是新闻稿件、宣传文案,还是会议记录、工作计划,讯飞星火都能够满足用户的需求。通过输入相关信息,讯飞星火可以快速地生成文章的大纲和关键词,并自动补充文章的内容,让内容创作更加轻松、高效,这使得优秀的作家和媒体从业者能够更加专注于思考和创新,提高内容的生产效率。
图1-13显示了讯飞星火认知大模型界面。
■ 图1-13讯飞星火认知大模型界面
03
通义千问
通义千问是阿里云推出的大模型产品,这是阿里云大模型系列中的最新成员,能够进行多轮交互,同时融入了多模态的知识理解——既可以做多轮对话,也能做文生图等跨文字、图像等方面的应用,并能够和外部API进行互联。
通义千问这个名字来源于两个方面,“通义”意味着该模型具有广泛的知识和普适性,可以理解和回答各种领域的问题。作为一个大型预训练语言模型,通义千问在训练过程中学习了大量的文本数据,从而具备了跨领域的知识和语言理解能力。“千问”代表了模型可以回答各种问题,包括常见的、复杂的甚至是少见的问题。它表达了通义千问致力于满足用户在不同场景下的需求,无论问题多么复杂或者独特。综合起来,通义千问这个名字表达了这款人工智能语言模型的强大功能和广泛适用性。
通义千问能够以自然语言方式响应人类的各种指令,拥有强大的能力,如回答问题、创作文字、编写代码、提供各类语言的翻译服务、文本润色、文本摘要以及角色扮演对话等。借助于阿里云丰富的算力资源和平台服务,通义千问能够实现快速迭代和创新功能。此外,阿里巴巴完善的产品体系以及广泛的应用场景使得通义千问更具可落地性和市场可接受程度。
在现阶段,该模型主要定向邀请企业用户进行体验测试,用户可通过官网申请,符合条件的用户可参与体验。
图1-14显示了通义千问官网界面。图1-15为通义万相(一款由阿里云通义推出的AI创意绘画与多场景艺术生成平台)生成的视频,内容是两个宇航员在月球的表面漫步,背景是宇宙。
■ 图1-14通义千问官网界面
■ 图1-15通义万相生成的视频
04
智谱清言
智谱清言是由北京智谱华章科技有限公司推出的一款生成式AI助手,于2023年8月31日正式上线。这款助手基于智谱AI自主研发的中英双语对话模型ChatGLM2,该模型经过了万亿字符的文本与代码预训练,并采用了有监督微调技术,以通用对话的形式为用户提供智能化服务。
智谱清言的主要功能包括通用问答、多轮对话、创意写作、代码生成等。它能够回答用户的各类问题,涵盖多个领域,提供实时、准确的信息和解决方案。同时,它还能进行自然、流畅的多轮对话,提供高效的沟通体验,并根据用户需求扮演不同角色,如历史名人、专业人士等,增强互动性和用户体验。此外,智谱清言还能为用户的创作需求提供头脑风暴灵感、内容框架以及高质量的文案,提升写作效率和质量。它还支持多种编程语言,能够帮助用户解释代码、解答编程问题或提供编程建议。
图1-16为智谱清言使用界面。
■ 图1-16智谱清言使用界面
05
Bard
Bard是谷歌开发的一款对话式AI模型,旨在与用户进行自然、流畅的交互,并提供高质量的信息和帮助。Bard的开发,部分原因是受到了来自OpenAI的ChatGPT的竞争压力,后者凭借在对话和文本生成方面的能力迅速获得了人们的广泛关注。
谷歌的Bard基于LaMDA(Language Model for Dialogue Applications)构建,并于2023年2月6日正式发布。LaMDA经过大量互联网文本的训练,能够理解和生成自然语言,这使得它在对话场景下表现出色。
2023年5月,谷歌发布了基于新一代语言大模型PaLM2(Pathways Language Model 2)的Bard。PaLM2是PaLM(Pathways Language Model)的升级版,后者在 2022年发布,是一款非常强大的语言模型,能够处理多种语言任务,包括翻译、编写代码、撰写故事等。PaLM2在PaLM的基础上优化了性能,提供了更好的上下文理解能力、更广泛的多语言支持和更强的代码理解能力。
在Bard的发展过程中,谷歌不仅关注其核心的语言理解和生成能力,还着重于提高其安全性和可靠性。这包括防止模型生成有害、误导性或不适当的内容,以及确保Bard遵循谷歌的AI原则,其中包括负责任地使用技术,保护用户隐私和数据安全。
为了提升用户体验,谷歌在不断探索如何让Bard更好地融入用户的日常生活中。例如,Bard可能会被集成到谷歌的其他产品和服务中,如搜索引擎、Google Assistant、Gmail和其他应用程序,以提供实时的建议、帮助完成任务或解答疑问。
06
ChatGPT系列产品
经过多年的深入研究和探索,OpenAI自2022年年底以来发布了多项重要的技术突破,其中最具代表性的模型包括ChatGPT、GPT-4、GPT-4V和GPT-4 Turbo。这些新模型在提升人工智能系统的能力方面迈出了巨大的步伐,是大型语言模型发展的一个重要里程碑。
1. ChatGPT
在2022年11月,OpenAI推出了一款名为ChatGPT的人工智能对话应用服务。这款应用基于GPT模型,代表了人工智能技术的一大进步。在训练过程中,ChatGPT使用了一种独特的数据收集方法。它结合了人类生成的对话数据(在这些数据中人类同时扮演了用户和AI的角色)以及之前用于训练InstructGPT的数据。这些数据被整理成对话形式,用于训练ChatGPT。
ChatGPT在人机对话测试中表现出多项优秀能力,例如拥有丰富的世界知识,能够回答各种问题; 具备解决复杂问题的能力,能够处理需要推理和分析的任务; 能够进行多轮对话,并且能够追踪和建模对话的上下文; 还能够契合人类的价值观,提供更符合用户期望的回答。随着版本的更新,ChatGPT还增加了插件机制,这使得它能够通过现有的工具或应用程序扩展功能,超越了以往所有人机对话系统的能力。ChatGPT的推出立即引起了社会的广泛关注,并为人工智能的未来研究产生了重要影响。它不仅展示了人工智能技术的潜力,也为未来的AI应用开辟了新的可能性。
2. GPT-4
继广受人们欢迎的ChatGPT之后,OpenAI在2023年3月发布了新一代的GPT模型——GPT-4。GPT-4是一个重要的创新,它首次将模型的输入能力从单一的文本扩展到了图文双模态,也就是说它不仅能处理文本,还能理解和处理图像内容。GPT-4在处理复杂任务方面的能力有了显著的提升,并在许多面向人类的考试中取得了优异的成绩,显示出它在理解、推理和解决问题方面的强大能力。微软的研究团队对GPT-4进行了大规模的性能测试,使用了大量由人类生成的问题。测试结果非常振奋人心,GPT-4展现出了卓越的性能,许多人认为这标志着人类向通用人工智能迈出了重要的一步。此外,GPT-4还建立了一套完备的深度学习训练基础架构,并引入了一种新的训练机制,这种机制可以在训练过程中通过较少的计算开销来预测模型的最终性能。这不仅提高了训练效率,也为模型的优化和改进提供了有力的支持。
3. GPT-4V和GPT-4 Turbo
在2023年11月的开发者大会上,OpenAI发布了GPT-4的升级版——GPT-4 Turbo。这个版本的模型带来了一系列的技术升级,例如提升了模型的整体能力,使其比GPT-4更加强大; 扩展了知识来源,让模型能够访问更多的信息; 支持更长的上下文窗口,达到128KB,这意味着模型能够理解和回应更长的对话或文本; 优化了模型性能,引入了新功能,如函数调用和可重复输出。
同时,OpenAI推出了Assistants API,这是一个旨在提高开发效率的工具。开发人员可以利用这个API快速地创建能够处理特定任务的智能助手,这些助手可以访问特定的指令、外部知识和工具。新版本的GPT模型还增强了多模态能力,即处理图像和其他非文本输入的能力。这些技术升级不仅提高了GPT模型的性能,也扩展了它的应用范围。随着模型性能的提升和支撑功能的改进,以GPT模型为基础的大型应用生态系统得到了极大的加强。
07
Midjourney
Midjourney是一款基于人工智能的图像生成工具,它允许用户通过输入文本描述来创建高质量的艺术图像。这项技术融合了深度学习模型和强大的计算能力,能够生成从超现实主义到逼真风格的各种图像。
Midjourney使用的是深度学习技术,特别是生成对抗网络和变分自编码器等先进算法。这些模型通过大量的训练数据学习到不同视觉元素的特征,并能够在给定文本描述的情况下生成相应的图像。Midjourney的模型不断更新迭代,以提高图像的质量和生成速度。
艺术家可以利用Midjourney生成创意草图,探索新的艺术风格; 设计师可以利用Midjourney快速生成产品概念图、广告素材等; 个人用户可以利用Midjourney
创造个性化的头像、背景图等,用于社交媒体和其他在线平台。值得注意的是,尽管Midjourney功能强大,但生成的图像仍可能存在一定的局限性,例如某些复杂的细节可能无法完美呈现。
图1-17显示了Midjourney生成的图像。
■ 图1-17Midjourney生成的图像
08
DeepSeek
DeepSeek是杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。
2024年年底,DeepSeek发布了新一代大语言模型V3,并宣布开源。测试结果显示,该模型在多项评测中的表现优于主流开源模型,且具有成本优势。DeepSeek-V3的正式发布引起了AI业内的广泛高度关注,其在保证模型能力的前提下训练效率和推理速度大幅度提升。DeepSeek新一代模型的发布意味着AI大模型的应用将逐步走向普及,助力AI应用广泛落地。
2025年1月,DeepSeek在世界经济论坛2025年年会开幕当天发布了最新开源模型R1,再次引发全球关注。R1模型在技术上实现了重要突破——用纯深度学习方法让AI自发涌现出推理能力,在数学、代码、自然语言推理等任务上,性能与OpenAI的O1模型正式版不相上下,且训练成本仅为几百万美元,远低于美国科技巨头的数亿美元乃至数十亿美元的投入。此外,DeepSeek采用了完全开源策略,不仅降低了用户的使用门槛,还促进了AI开发者社区的协作生态。目前,DeepSeek全系列已经完全开源,并且免费商用,可以进行私有化部署。通过开源,DeepSeek吸引了大量开发者和研究人员的关注,推动了AI技术的发展。
从整个AI大模型产业来看,DeepSeek的成功或许代表了一种全新的发展方向——通过算法优化而非单纯地依赖算力和数据量来提升模型的性能。这一方向也为AI大模型产业的发展提供了新的思路。
生成式人工智能技术与应用
黄源 编著
内容简介
然而,在这一背景下,如何让更多的学习者(尤其是高等院校的学生)快速掌握生成式AI的核心技术,并将其灵活地应用于实际工作、学习、生活中,成为一个亟待解决的问题。正是基于这样的考量,本书应运而生。本书旨在为高校师生提供一个系统、全面的学习框架,帮助他们深入理解生成式AI的基本概念、关键技术以及各种应用场景,同时培养他们解决实际问题的能力。
本书共8章,分别介绍生成式AI入门、AI智能体、AI高效工作、AI高效学习、AI高效生活、AI绘画、AI辅助编程以及AIGC行业应用。
本书特色
本书具有以下几个特点。
(1) 不限制平台: 本书传授普适的应用方法,选用任何AIGC平台均可完成学习过程; 通过提供通用的API接口调用方法和标准化的数据处理流程,确保学生能够在不同的AIGC平台上实现相同的功能,增强学习的普适性和灵活性。
(2) 理论与实践相结合: 书中不仅详细介绍了生成式AI的基础理论知识,还提供了丰富的实战案例,让学生可以通过动手操作加深对知识点的理解。每章都配备了具体的项目任务,鼓励学生将所学知识应用于实践中,创作出具有创意和实用价值的作品。
(3) 融入课程思政元素: 在讲解技术的同时,本书注重培养学生的职业道德和社会责任感,引导学生树立正确的人生观、世界观和价值观。
(4) 多学科交叉融合: 本书的内容设计跨越了多个学科领域,包括但不限于计算机科学、经济管理、艺术设计、工程学、电子信息等,使学生能够在多样化的背景下理解生成式AI的应用,拓宽他们的视野,提升他们的应用能力。
(5) 紧跟技术前沿: 为了确保学生紧跟技术发展的步伐,本书讲解最新的生成式AI技术和趋势,并鼓励学生关注相关领域的最新研究成果和发展动态。