Easy Derivation Of Rotary Position Embeddings For Large Language Models
摘要: 以 LLAMA 为代表的开源大语言模型广泛使用旋转位置编码,原始论文使用复函数推导。本文改用线性代数推导,期望更好地理解该编码方法;提出该方法的一个疑点并给出了改进建议。
Abstract: The Rotary Position Embeddings(RoPE) is widely used in open-source large language models suchas LLAMA. In the original paper, the formula derivation uses complex functions. In this Paper, I derivePoPEs formulas again with linear algebra, hoping to better understand this method.
[V3] | 2023-07-12 15:57:43 | ChinaXiv:202307.00071V3 | 下载全文 |
[V2] | 2023-07-11 19:26:53 | ChinaXiv:202307.00071v2 查看此版本 | 下载全文 |
[V1] | 2023-07-10 16:54:18 | ChinaXiv:202307.00071v1 查看此版本 | 下载全文 |
1. 空气质量预测的深度学习模型研究与评估 | 2023-09-22 |
2. 对话ChatGPT:AI时代的科学研究 | 2023-09-22 |
3. LLAMA-2 大语言模型的数学形式 | 2023-08-31 |
4. Copula熵:理论和应用 | 2023-08-27 |
5. A NEW SOLUTION AND CONCRETE IMPLEMENTATION STEPS THAT CAN REALIZE A TRULY UNIVERSAL ARTIFICIAL INTELLIGENCE | 2023-08-15 |
6. 一种可以实现真正通用人工智能的新方案和具体实施步骤 | 2023-07-29 |
7. 基于多策略的临床术语标准化 | 2023-07-11 |
8. 不同文件格式的压缩性能分析 | 2023-07-06 |
9. 基于改进GPT模型的文本生成研究 | 2023-07-01 |
10. 拓扑优化基于改进的DoubleU-Net模型使用4种结构数据集 | 2023-06-15 |