
随着新媒体(例如Douyin和Xiaohongshu)的迅速增长,对新媒体广告的需求正在增加。新媒体广告中放置的图片和文案创意为操作员带来了很多精力和时间。文案,图片和视频广告创造性生产的问题变得越来越突出。如何快速完成广告创造力是当前运营和设计师的最大痛苦点之一。
1.2 AIGC
AIGC(人工智能生成的内容)是指使用先进的人工智能技术自动生成内容的创新实践。该领域结合了诸如机器学习,自然语言处理,计算机视觉等的尖端技术,旨在模拟甚至超越人类的创造力。通过AIGC,机器不仅可以理解和处理大规模数据,还可以基于此生成新颖的文本,图像,音频和视频内容。
自2022年以来,大型语言模型(例如Chatgpt)的应用越来越成熟,并且以稳定扩散和Midjourney表示的AI生成的图像也被广泛使用。 AIGC正在变得越来越广泛地使用。它可以在许多领域中发挥作用,例如新闻写作,文学创作和广告设计,以提高内容生产的效率和质量。
1.3 AIGC和广告创造力
AIGC可以根据品牌特征和用户需求快速生产大量的创意解决方案。将AIGC与广告创造力相结合将有效地解决广告创造力领域中所面临的痛点,从而大大丰富广告表达形式和内容。本文主要介绍了我们在AIGC和广告创造力中的一些探索和实践。
2 Xiaohongshu文案生成练习2.1 Xiaohongshu热产品的特征分析
根据分析和摘要之后,基于当前的米旺舒的流行热产品,发现热文章的含量具有一些共同的特征。从标题的角度来看,高质量的热内容通常具有一些引人入胜的标题,这些标题通常会使用一些略微夸张的方式来创建,并在标题中添加一些具有挑战性或悬疑的表达方式,再加上一些标点符号,增强了表现力令人惊讶和紧迫地吸引读者,并引起读者的好奇心。一些标题还将集成到当前的热门主题中,以提高及时性。此外,还有一些关键字来描述特定效果和结果等。使用标题来提高内容的吸引力。从主要文本的内容来看,大多数流行的文章更加关注内容共享和传播的价值和实用性,并且内容表达式简洁明了,使读者更容易理解和接受。此外,流行内容通常结合了视觉元素,例如图片和视频,以增强内容的表现力,从而使文章看起来更加生动和有趣。此外,许多流行的内容强调互动性,吸引读者在评论领域有效互动,并改善主题的参与和粘性。
2.2生成AI关键技术GPT&LLM
大型语言模型(LLM)是一个大语言模型,也称为大语言模型。这是基于深度学习的自然语言处理(NLP)模型。它可以学习自然语言的语法和语义,以产生人类可读文本。
GPT的全名是生成的预训练的变压器(广义预训练的变压器模型)是基于[Internet]的文本生成的深度学习模型,可以使用数据培训。
2.3总体过程
结合平台文章的特征,使用生成的预培训的大型模型专注于工程及时的单词。首先,必须将用户的原始意图完善成简短和引人注目的标题,并为用户提供多个选项,以选择所需的标题。 。然后,用户选择他认为从生成的标题中适当的标题来执行下一个内容创建选项。除了确定写作,音调和语气的角色信息外,用户还可以补充并输入文章内容中引入的关键亮点。该平台还将定期提取最近的流行内容,并将其完善到标签库中。用户可以选择一些合适的流行内容。标签,该平台将集成和处理这些内容,生成GPT要求的完整的Propt内容,并提交Propt以获得AI生成结果。
2.4文章内容的后处理和完善
根据Xiaohongshu平台的特征,文章末尾通常会有一些局部标签标签,以及一些提高文本生动表达的表达式。因此,您需要在生成的文本的末尾提取3-6个SEO关键字,并以文章末尾的#编号形式放置它们,并在每个段落中适当地添加表情符号表达式,以最终合成完整的文章内容。
3广告图像生成实践3.1主流图像生成技术
当前,最受欢迎的图像生成模型/工具包括Dall·E,Midjouney和稳定的扩散。
Midjourney
Midjourney也是一种由人工智能驱动的工具,可以根据用户提示生成图像。 Midjourney擅长适应实际的艺术风格,并创建用户想要的任何效果组合的图像。它在环境效果中表现出色,尤其是幻想和科幻场景,看起来像游戏的艺术效果。
夜晚的云层中的城堡,电影般的图片 - Midjourney产生的图片
dall-e
DALL-E 2由Openai开发,该OpenAI通过文本描述生成图像。它使用具有超过100亿个参数训练的GPT-3变压器模型,该模型可以解释自然语言输入并生成相应的图像。
DALL-E 2主要由两个部分组成 - 将用户输入转换为图像的表示(称为先验),然后将此表示形式转换为实际照片(称为解码器)。
所使用的文本和图像嵌入了另一个称为剪辑的网络(对比语言 - 图像预训练),该网络也由OpenAI开发。剪辑是一个神经网络,它返回输入图像的最佳标题。它的作用与dall-e 2所做的相反 - 是将图像转换为文本,而dall-e 2是将文本转换为图像。引入剪辑的目的是学习对象的视觉和文字表示之间的联系。
DALL-E2的工作是训练两种型号。第一个是先验,它接受文本标签并创建剪贴图像嵌入。第二个是解码器,该解码器接受剪辑图像嵌入并生成图像。模型培训完成后,推断过程如下:
l使用神经网络将输入文本转换为嵌入夹文本。
l使用主成分分析(主组件分析)来降低文本嵌入的维度。
l使用文本嵌入创建图像嵌入。
l进入解码器步骤后,扩散模型用于将图像嵌入图像中。
l图像从64×64扩大到256×256,最终使用卷积神经网络扩大到1024×1024。
稳定的扩散
稳定扩散是一种使用剪辑VIT-L/14文本编码器的文本到图形模型,可以通过文本提示调整模型。它将成像过程分离为运行时的“扩散”过程 - 从嘈杂的情况开始,逐渐改善图像,直到完全没有噪声为止,逐渐接近提供的文本描述。
dall·e 2,稳定扩散与Midjourney之间的比较
DALL-E 2使用数百万图像数据进行培训,其输出结果更加成熟,非常适合企业。当出现两个以上的字符时,dall-e 2比中朱尼或稳定扩散产生的图像要好得多。
Midjourney是一种以其艺术风格而闻名的工具。 Midjourney使用其Discord机器人将请求发送和接收到AI服务器,几乎所有内容都恰好发生在Discord中。由此产生的图像看上去很少像一张照片,看起来更像是一幅绘画。
稳定的扩散是每个人都可以使用的开源模型。它对当代艺术图像有很好的了解,可以制作充满细节的艺术品。但是,它需要解释复杂的先知。稳定的扩散更适合生成复杂和创造性的插图。但是创建一般图像时存在一些缺点。
3.2广告地图生成方案的特征
与其他图像生成场景(例如文章图片)不同,广告图像本质上是产品图片,因此产品必须100%保真度。 SD(稳定扩散)是概率模型,在此阶段产生的图像具有很大的不确定性,也就是说,商品基本上是不公平的。下图是洛拉(Lora)在Civitai拍摄的汽车图片。尽管质量已经很高,但诸如汽车徽标之类的细节对肉眼可见。
3.3技术选择
由于上述原因,我们放弃了基于LORA,HYPERNETWORKS等进行微调SD模型的解决方案。转移到基于涂料的技术解决方案的研究(本地重新绘制)。
本地重新绘制主要包括三种应用程序:前景消除,前景重新绘制和背景重新绘制。其中,Redrawing Redrawing适合通过广告图像生成的场景,即提供场景说明及包含产品的原始图像。
3.4实施计划
整个过程分为以下三个步骤:
语义分割模型将原始图片中的汽车分为汽车图片和模板图片。通过稳定的扩散 + ControlNet +模板提示单词生成新的背景汽车图片。
绘制促销副本和图片徽标。
4个应用程序
我们将AIGC和广告创造力结合在一起,并与公司的内部广告部门合作进行实践。该部门的30%图像由AIGC生成。从接收订单到在线的广告的整个过程从最初的4天到4小时减少。同时,生产成本大大降低,降低成本和效率提高效果也很明显。
5摘要
这种做法的重点是使用AIGC生成Xiaohongshu文案写作和汽车广告创意图片。实践证明,AIGC可以有效地降低广告创造力的生产周期和成本,并在将来拥有广泛的前景。同时,我们必须充分意识到,当前的做法仅涵盖广告创造力中的少量场景,目前尚无法解决具有非常高质量要求的某些场景。我们将继续探索更好的解决方案,以涵盖更多创意的广告方案。