听我说，Transformer它便是个反对于向量机

时尚 2024-10-26 14:34:57 2

机械之心报道

编纂：蛋酱、听我说小舟

SVM is 个反all you need，反对于向量机永不外时。对于

Transformer 是向量一个反对于向量机（SVM）一种新型实际在学界激发了人们的品评辩说。

上周末，听我说一篇来自宾夕法尼亚大学、个反加州大学河滨分校的对于论文试图钻研大模子根基 Transformer 妄想的道理，其在留意力层的向量优化多少多与将最优输入 token 与非最优 token 并吞的硬领土 SVM 下场之间建树了方式等价。

在 hackernews 上作者展现，听我说这种实际处置了 SVM 将每一个输入序列中的个反「好」标志与「坏」token 并吞的下场。该 SVM 作为一个功能优异的对于 token 抉择器，与传统为输入调配 0-1 标签的向量 SVM 本性上差距。

这种实际也讲明了留意力若何经由 softmax 引起浓密性：落在 SVM 抉择规画领土过错一侧的听我说「坏」token 被 softmax 函数抑制，而「好」token 是个反那些最终具备非零 softmax 多少率的 token。还值患上一提的对于是，这个 SVM 源于 softmax 的指数性子。

论文上传到 arXiv 下面之后，人们纷纭宣告意见，有人展现：AI 钻研的倾向真是螺旋回升，岂非又要绕回去了？

自典型论文《Attention is All You Need》问世以来，Transformer 架构已经为做作语言处置（NLP）规模带来了革命性妨碍。Transformer 中的留意力层接受一系列输入 token X，并经由合计

评估 token 之间的相关性，其中 (K, Q) 是可磨炼的 key-query 参数，最终实用捉拿短途依赖关连。

如今，一篇名为《Transformers as Support Vector Machines》的新论文在自留意力的优化多少多以及 hard-margin SVM 下场之间建树了一种方式等价，运用 token 对于的外积线性约束将最优输入 token 与非最优 token 并吞。

论文链接：https://arxiv.org/pdf/2308.16898.pdf

这种方式等价建树在 Davoud Ataee Tarzanagh 等人的论文《Max-Margin Token Selection in Attention Mechanism》的根基上，它可能形貌经由梯度着落妨碍优化的 1 层 transformer 的隐式倾向（implicit bias）：

(1) 优化由 (K, Q) 参数化的留意力层，经由消逝正则化（vanishing regularization），收敛到一种 SVM 处置妄想，其中最小化组合参数

本文地址：https://fgpowzytv.strain.blog/html/250b299533.html

版权声明

本文仅代表作者观点，不代表本站立场。
本文系作者授权发表，未经许可，不得转载。

全站热门

原创 0-3=出线！中超亚军拒绝爆冷，亚冠PK日本第2，13分稳拿第1

不装了？苹果的“真面目”被揭发，苹果手机无奈共用华为充电器？

奥沙利文：愿望退出本赛季所有中国角逐未来职业生涯重心放在亚洲

没有梅西和C罗的欧冠你还会期待吗？彻底原形毕露！五位“国家一级演员”被除名，老戏骨也插翅难逃

原创中超三元老冰火三重天：国安愁钱，申花有钱，泰山忙着亚冠出线

中国篮球再成笑柄篮协高层被球迷喝倒彩喊下课

中秋节团聚经济快捷升温，唯品会上中秋礼物销量飙升

男性破费小风口

听我说，Transformer它便是个反对于向量机

本文地址：https://fgpowzytv.strain.blog/html/250b299533.html

版权声明

热门文章

热门标签

全站热门

热门文章

听我说，Transformer它便是个反对于向量机

本文地址：https://fgpowzytv.strain.blog/html/250b299533.html

版权声明

相关文章

热门文章

热门标签

全站热门

热门文章