一周总结与回顾-0

Last updated on October 28, 2024 pm

感觉对每周干了些啥做个总结也许会很好，尝试尝试。

看到的资料

#LLM #attention 在为什么现在的LLM都是Decoder-only的架构？ - 科学空间|Scientific Spaces 中提到，之所以使用 decoder-only 的架构，可能是因为在 decoder-only 架构中，attention 矩阵的秩在经过 softmax 之后是满的，因为 softmax 之后对角线上的元素都是正的，导致行列式值为正，所以矩阵满秩。而满秩往往意味着更强的表达能力。

#research 在 ZhiHu-你的科研能力是什么时候突飞猛进的的这个回答里面，感觉这几句话很有借鉴意义。
- 当我不再拿着锤子找钉子，不再去瞎凑模型硬卷分数，而是先深度、反复思考研究领域到底有哪些未解决甚至未被发现的痛点，再去针对性设计算法后，我的科研成果得到了一个质的飞跃。
- 自己一直纠结于算法设计如何搭积木，可是却没有真的好好想过这个课题本身到底有哪些更实际、真的会影响到未来落地的挑战
- 由于你在研究一个新的问题，你不需要去卷一些已有的知名榜单，能将这个问题讲明白，并且在自己的 setting 下打败其他人即可，难度大大降低。
#diffusion-model 如何入坑 Diffusion 方向？ - cameron的回答 - 知乎这篇回答收集了大量 diffusion 相关的论文和不同方向，以后需要的时候可以作为参考。还有这篇也可以：如何入坑 Diffusion 方向？ - 周弈帆的回答 - 知乎
#multimodal 万字长文总结多模态大模型最新进展（Modality Bridging篇）中有和 modality fusion 相关的最新进展，可以参考
#CV-video VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
听了 LeCun 的演讲 Yann LeCun | Objective-Driven AI: Towards AI systems that can learn, remember, reason, and plan - YouTube，有点意思