智谱AI论文分享专栏 – 风拂长竿星露冷,孤灯微火自明黄。

本专栏为智谱AI论文分享群分享的论文，报名入群请联系 zoux18@mails.tsinghua.edu.cn

TS2Vec: Towards Universal Representation of Time Series
【AAAI2022】
本文提出的TS2Vec时间序列表示学习方法，核心思路也是无监督表示学习，通过数据增强的方式构造正样本对，通过对比学习的优化目标让正样本对之间距离，负样本之间距离远。本文的核心点主要在两个方面，第一个是针对时间序列特点的正样本对构造和对比学习优化目标的设计，第二个是结合时间序列特点提出的层次对比学习。

Text Is All You Need: Learning Language Representations for Sequential Recommendation
【KDD2023】
在这篇文章中，我们提出将用户偏好和商品特征建模为可以泛化到新商品和数据集的语言表示。为此，我们提出了一个新颖的框架，名为 Recformer，该框架可以有效地学习用于序列推荐的语言表示。具体来说，我们提出将一个商品视为一个由文本描述的项目键值属性展开的“句子”（词序列），这样用户的一个商品序列就变成了一个句子序列。对于推荐，Recformer被训练来理解“句子”序列并检索下一个“句子”。为了编码商品序列，我们设计了一个类似于Longformer的双向Transformer模型，但在序列推荐中使用了不同的嵌入层。为了有效的表示学习，我们提出了新颖的预训练和微调方法，这些方法结合了语言理解和推荐任务。

Specformer: Spectral Graph Neural Networks Meet Transformers
【ICLR2023】
本文介绍了一种新的图神经网络方法Specformer。Specformer通过对图拉普拉斯矩阵的谱进行编码，并在谱域中执行自注意力操作，从而学习到更有意义的谱模式和它们之间的依赖关系，提供了更灵活和表达能力更强的图表示。此外，Specformer还设计了一个具有可学习基础的解码器，以实现非局部图卷积。这种方法可以更有效地处理具有不同大小和结构的图形。

Text-Augmented Open Knowledge Graph Completion via Pre-Trained Language Models
【ACL2023】
开放知识图谱（KG）补全的任务是从已知事实中提取新的发现。现有的增强KG补全的工作需要：（1）事实三元组来扩大图推理空间，或者（2）手动设计提示来从预训练的语言模型（PLM）中提取知识，这种方式的性能有限，需要专家付出昂贵的努力。为此，我们提出了TAGREAL，它可以自动生成高质量的查询提示，并从大型文本语料库中检索支持信息，以探测PLM中的知识进行KG补全。结果显示，TAGREAL在两个基准数据集上实现了最新的性能。我们发现，即使在训练数据有限的情况下，TAGREAL的性能也非常出色，超过了现有的基于嵌入的、基于图的和基于PLM的方法。

PRODIGY: Enabling In-context Learning Over Graphs
【arXiv:2305.12600】
在本文中，我们开发了基于不同in-context graph上的预训练方法 (PRODIGY)，这是第一个支持基于图的上下文学习的预训练框架。我们框架的关键思想是通过连接prompt示例和query的新的提示图表示来制定图的上下文学习。然后，我们在提示图和相应的上下文预训练目标系列上提出了图神经网络架构。使用 PRODIGY，预训练模型可以通过上下文学习直接对未见过的图执行新颖的下游分类任务。

RWKV: Reinventing RNNs for the Transformer Era
【arXiv:2305.13048】
RWKV结合了RNN和Transformer的优势：一方面，抛弃传统的点积自注意力、使用线性注意力，解决transformer内存和计算复杂度随序列增长呈平方缩放的瓶颈；另一方面，突破了RNN梯度消失、并行化和可扩展性等限制。实验表明，与具有相同参数和训练token数量的传统transformer架构（Pythia、OPT、BLOOM、GPT-Neo）相比，RWKV在六个基准测试（Winogrande、PIQA、ARC-C、ARC-E、LAMBADA和SciQ）上均具有竞争力。RWKV甚至在四项任务中超越了Pythia和GPT-Neo。有趣的是，在RWKV-4和ChatGPT / GPT-4的比较研究显示，RWKV-4对提示工程非常敏感。当将指令风格从适合GPT调整为更适合RWKV时，RTE的F1性能甚至从44.2％增加到74.8％。作者猜想是因为RNN不能回溯处理 ( retrospective processing) 来重新调整先前信息的权重。因此为了让性能更好，期望信息应该在问题之后展示。

Large Language Models Are Reasoning Teachers
【ACL2023】
研究者注意到，与标准的 prompting 类似，对于训练语言模型来解决复杂推理的任务来说，纯微调往往是不够的。虽然已经有人尝试用规定好的推理步骤对小模型进行微调来解决这个问题，但这些方法需要巨量的推理注释，而且往往还需要与特定任务匹配的训练设置。本文提出的方法，由于基于语言模型的教师具有显著的零样本推理能力，无需手工制作推理注释及特定任务设置，可以很容易地应用于新的下游任务。从本质上讲，本文的方法保留了基于 prompting 的思维链的多功能性，同时模型规模还不是很大。研究者还对本文中的方法提出了一种扩展，称为多样化推理，这种扩展方法通过为每个训练样本生成多个推理方案来最大限度地提高对思维链进行微调的教学效果。

Combinatorial Optimization with Physics-Inspired Graph Neural Networks
【NMI2022】
这篇文章提出了一种使用物理启发的图神经网络来解决组合优化问题。文章详细介绍了如何将组合优化问题作为无监督节点分类任务来处理，并且不需要任何标记数据。在文章中，作者将哈密顿量描述为一个非可微的函数，无法直接在GNN训练过程中使用。因此，作者提出了一种基于统计物理学的方法来解决这个问题。具体而言，作者使用了一种称为“重整化群”的技术来处理哈密顿量，并将其转化为可微函数。本工作可以在工业和科学领域有广泛的应用。

GLM-Dialog: Noise-tolerant Pre-training for Knowledge-grounded Dialogue Generation
【KDD2023】
我们提出了 GLM-Dialog，这是一种具有 10B 参数的大规模语言模型 (LLM)，能够使用搜索引擎访问互联网知识，以中文进行基于知识的对话。 GLM-Dialog 提供了一系列适用的技术来利用各种外部知识，包括有用的和嘈杂的知识，从而能够创建利用有限数据集的强大的基于知识的对话 LLM。为了更公平地评估 GLM-Dialog，我们还提出了一种新的评估方法，允许人类同时与多个部署的机器人对话，并隐式地比较它们的性能，而不是使用多维指标显式地进行评级。

Self-Consistency Improves Chain of Thought Reasoning in Language Models
【ICLR2023】
在本文中，我们提出了一种新的解码策略，即self-consistency，以取代在链式思维提示中使用的朴素贪婪解码。它首先对一组不同的推理路径进行采样，而不是只采用贪心路径，然后通过边缘化采样的推理路径来选择最一致的答案。

Efficient and effective training of language and graph neural network models
【arXiv:2206.10781】
在本文中，我们提出了一种高效且有效的框架，称为语言模型 GNN（LM-GNN），以联合训练大规模语言模型和图神经网络。我们框架的有效性是通过首先使用异构图信息然后使用 GNN 模型对 BERT 模型进行阶段式微调来实现的。我们提出了一些系统和设计优化，以实现可扩展和高效的训练。

Fair Graph Representation Learning via Diverse Mixture-of-Experts
【WWW2023】
图神经网络在图数据上展示了出色的表示学习能力,并被用于各种下游应用中。然而,网络应用(例如推荐和广告)中的现实数据总是包含偏差,这阻止了GNN学习公平的表达。尽管相关研究提出了许多解决图公平性问题的方法,但在消除偏见后有限的属性面临可学习知识严重不足的问题。为解决此问题,我们提出了图公平混合专家(G-Fame),这是一种新型即插即用的方法,可以帮助任何GNN学习具有无偏属性的可区分表达。此外,基于G-Fame,我们提出G-Fame++,它从节点表达,模型层和参数冗余的角度引入三种新的策略来提高表达的公平性。特别是,我们首先提出嵌入多样化方法来学习可区分的节点表达。其次,我们设计层 diversified 策略来最大化不同模型层的输出差异。第三,我们引入专家 diversified 方法来最小化专家参数相似性,以学习多样化和互补的表达。广泛的实验说明G-Fame和G-Fame++在多个图数据集上的准确性和公平性方面均优于最新方法。

Enhancing Protein Language Models with Structure-based Encoder and Pre-training
【ICLR2023 workshop】
在这项工作中，我们通过基于结构的编码器和预训练来增强 PLM。我们首先探索可行的模型架构，以结合最先进的 PLM（即 ESM-1b1）和最先进的蛋白质结构编码器（即 GearNet）的优势。我们凭经验验证以串联方式连接两个编码器的 ESM-GearNet 是最有效的组合模型。

On Positional and Structural Node Features for Graph Neural Networks on Non-attributed Graphs
【CIKM2022】
并不是所有图都具有丰富的图节点特征，那么，无属性网络图的初始化就成为了一项值得研究的问题。本文将人工节点特征分为两大类：位置节点特征（Positional Node Features）和结构节点特征（Structural Node Features）。位置节点特征能帮助图神经网络捕获节点在图中相对位置的距离信息；结构节点特征能帮助GNNs捕获节点的结构信息，如度信息和邻域连接模式。作者在节点分类、图分类任务上做了实验分析，发现通过适当设计的人工节点特征，GNN 的性能在某些情况下甚至可以超过真实特征。

Are Transformers Effective for Time Series Forecasting
【AAAI2023】
本文质疑了近年来基于Transformer模型在长时序预测任务上的性能提升，依据的主要观点是self-attention在长序列上的语义提取能力比较厉害，但在抽取时序特征方面却不尽如人意，尽管使用了位置编码机制。随后作者提出了一种仅利用线性层的简单模型，性能优于经典的Transformer模型.

Preserving Pre-trained Features Helps Calibrate Fine-tuned Language Models
【ICLR2023】
本文证明预训练模型在掩码语言建模任务上有良好的校准能力，在域转移情况下具有鲁棒的预测置信度，但经过微调的模型由于灾难性遗忘而无法保留此类属性，这会影响下游分类任务的校准。根据这些观察，我们评估了几种保留预训练特征的方法的校准能力，并表明保留预训练特征可以改进微调语言模型的校准能力。

Putting People in Their Place: Affordance-Aware Human Insertion into Scenes https://arxiv.org/pdf/2304.14406.pdf 这篇文章介绍了一种简单的训练stable diffusion做人物插入的方法。先在原图中将需要插入人物的部分mask掉，然后将mask后的图像，mask的位置以及需要插入的人物图像一同输入stable diffusion中作为condition，生成的图片即可实现人物插入效果。这种生成方式可以应用在一些我们需要人物做动作但背景不变的任务中，如视频生成。

Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
【arXiv:2204.05862】
本文介绍了使用人类反馈的强化学习(RLHF)来培训一种有帮助且无害的助手，针对自然语言处理(NLP)领域进行优化。作者发现，这种对齐训练可以提高在几乎所有 NLP 评估上的表现，并且与针对专业技能（如 Python 编码和摘要）的培训完全兼容。作者还探索了一种迭代在线培训模式，在这种模式下，偏好模型和 RL 策略每周都会根据新的人类反馈数据进行更新。最后，作者调查了 RL HF 培训的稳健性，并确定了策略及其初始化之间 KL 散度的平方根与 RL 奖励之间存在大致线性关系。除了主要结果外，作者还对校准、竞争目标和 OOD 检测的使用进行了外围分析，将他们的模型与人类作家进行了比较，并提供了来自他们的模型使用最近相关工作中出现的提示的示例。

CONTROLLABLE IMAGE GENERATION VIA COLLAGE
REPRESENTATIONS https://arxiv.org/pdf/2304.13722.pdf 这篇文章介绍了一种将图片segment成多个object，然后和原图一起用GAN联合复原生成的方法。使用这个方法可以轻松地将不同背景的物体自然的拼凑到同一张图上，从而实现图像的可控生成。虽然他的效果和当下的图像生成模型已经无法及其项背，但思路上有值得借鉴之处。

DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion
【ICLR2023】
作者通过建立扩展微分方程与神经网络的联系来阐述能量约束扩展过程与各类信息传递网络（如MLP，GNN，Transformer）的联系，并为新的信息传递设计提供了理论参考。作者提出了一种新型的可扩展Transformer，DIFFormer, 可以作为一种通用的encoder，在前向计算中利用样本间的依赖关系。

Mixture-of-Domain-Adapters: Decoupling and Injecting Domain Knowledge to Pre-trained Language Models’ Memories
【ACL2023】
预训练语言模型（PLMs）在理解通用领域的文本方面表现出了卓越的能力，然而在特定领域的理解方面却面临挑战。尽管在大型特定领域语料库上进行连续预训练是有效的，但在该领域上调整所有参数的成本非常高。在本文中，我们研究了我们是否能够通过仅调整少数参数来有效且高效地适应 PLMs。具体而言，我们将 Transformer 架构的前馈网络（FFNs）解耦为两部分：原始预训练的 FFNs 用于保留旧领域知识，而我们创新的领域特定适配器则并行注入领域特定知识。然后，我们采用了一种混合适配器门来动态地融合来自不同领域适配器的知识。我们提出的领域适配器混合（MixDA）采用了两阶段适配器调优策略，利用无标签数据和有标签数据来帮助领域适应：i）在无标签数据上的领域特定适配器；接着是 ii）在有标签数据上的任务特定适配器。MixDA 可以无缝地插入预训练-微调范例，我们的实验表明，MixDA 在领域内任务（GLUE），领域外任务（ChemProt，RCT，IMDB，Amazon）以及知识密集型任务（KILT）上都实现了卓越的性能。进一步的分析证明了我们方法的可靠性，可扩展性和效率。