LLM
我在前段时间有一个想法,就是用《周易》的内容来训练一个大模型,然后所有的回答都会跟周易的内容相关。 比如我问了一个问题: 我想吃饭,但不想做饭,该怎么办?我希望的回答是类似于这样的。 《周易》强调“顺”的重要性,这体现在坤卦“顺承天”等描述中。您当前想吃饭但不想动手准备的状态,与这个“顺”的原则不太符合。 我建议您可以参考《周易》中“劳谦”卦的精神,“劳”表示自己动手,“谦”表示谦逊低调。您可以用简单的…
GPT-4推理提升1750%!普林斯顿清华姚班校友提出全新「思维树ToT」框架,让LLM反复思考
编辑:桃子 好困 【新智元导读】由普林斯顿和谷歌DeepMind联合提出的全新「思维树」框架,让GPT-4可以自己提案、评估和决策,推理能力最高可提升1750%。 2022年,前谷歌大脑华人科学家Jason Wei在一篇思维链的开山之作中首次提出,CoT可以增强LLM的推理能力。 但即便有了思维链,LLM有时也会在非常简单的问题上犯错。 最近,来自普林斯顿大学和Google DeepMind研究人员提出了一种全新的语言模型推理框架——「思维树」(ToT)。 …
Hugging Face 每周速递: Chatbot Hackathon;FLAN-T5 XL 微调;构建更安全的 LLM
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」,本期 Hugging News 有哪些有趣的消息,快来看看吧! HACKATHON 造个 ️ 去瀛海威广场聚会啦!百姓 AI 和 Hugging Face 联合推出,就在下周末。大伙儿造/燥起来呀 [图片] 使用 DeepSpeed 和 HuggingFace Transformers 对 FLAN-T5 XL/XXL …
从理论视角强答一波,大部分结论源自个人实验,可能会有偏差。 原文链接: 为什么现在的LLM都是Decoder-only的架构? - 科学空间|Scientific Spaces 结论: LLM之所以主要都用Decoder-only架构,除了训练效率和工程实现上的优势外,在理论上是因为Encoder的双向注意力会存在低秩问题,这可能会削弱模型表达能力,就生成任务而言,引入双向注意力并无实质好处。而Encoder-Decoder架构之所以能够在某些场景下表现更好,大概只是因为…
利益相关:香港中文大学 法学硕士(LLM)。答案非常简单。 1、假如你打算留香港工作,或者在香港执业,不论是做事务律师solicitor/诉讼律师Barrister/公司法务, 那么直接选JD。2、假如你打算进入港资所/外资所工作,家里有钱, 那么直接选JD。3、假如你只是想回内地工作,也只是想去中资所, 那么LLM足够。甚至不读LLM都行,法大本科+法考就好使了。走红圈/精品所,找学长学姐内推(注意一定是内推),问题也不大。4、假如你打…
泻药。最近都在讨论大模型怎么结合外部知识,但是都没人关注怎么用外部知识让模型的生成变得更准确。其实让LLM更准确,只要找到模型生成的对应的外部知识即可。如果生成答案的时候不结合外部知识,就可以用post-hoc方法去用外部知识修改模型生成的答案;如果生成答案的时候结合了外部知识,则要想办法让外部知识不影响模型生成答案的流畅度,同时提高模型的准确性。这两种方法各有优劣。 下面的三篇文章详细地探讨了这个问题。第…
读了下这个Report,发现了几个比较有意思的点。这些点再次验证了Data-centric AI。 Scaling law实验表明数据量和模型大小同比例增长是最优最合 [图片] 这个图中横坐标FLOPs代表算力budget。纵坐标分别是最优参数量(左)和最优数据集token数量(右边)。 结论是模型和数据需要随着算力同比例增长,而不是Kaplan et al. (2020)提到的模型比数据增长更快。原文: [图片] 模型基于Transformer模型描述只有一小段,就是用了Transformer以及多个pre-tr…
【LLM系列】对行业大模型的思考
看到了 @Naiyan Wang 和 @刘聪NLP 的两篇文章,都提到了对行业大模型的一些看法,有很多相同的想法。正好身边有很多人在讨论行业大模型,想要以行业大模型为切入点开始创业。我自己在现阶段是比较坚定地支持通用大模型的,觉得行业大模型的前景堪忧,也比较坚决地拒绝了几个行业大模型的创业邀请,写个文章记录了自己对行业大模型的思考。注意,由于大模型方向发展太快,认知在不断更新迭代,这篇文章只能作为在当下的思考逻辑,…
跟风也答一波,大家胡乱看看一起讨论。摘自我最近文章的第4部分: [文章: 【大模型慢学】GPT起源以及GPT系列采用Decoder-only架构的原因探讨] 4. 关于Decoder-only架构的思考GPT为什么从始至终选择Decoder-only架构?GPT-1,包括之后的2,3系列全都如此。我不知道答案,ChatGPT给出的回答也很泛泛,并不能说服我。 4.1 各种架构能否训练语言模型我们不妨先想想用Encoder-Decoder或者Encoder-only架构能不能训练语言模型?…
AI学习笔记|大力出奇迹的LLM模型
周末一大早,睡眼惺忪的时候,就被学妹拉到了她的中科院校友会兴趣群里。博士、科学家们创建了个GPT兴趣群,学妹知道我现在正在夜以继日的试图跟上AI的进化,顺手拉了我一把。 短短几分钟之内,这个群就满员了。 学妹说,这个群的建立速度,充分反映了人类的好奇心和恐惧。 我说我感兴趣的的是这个群很可能会孵化出很多项目甚至初创公司。 [图片] 要知道,GPT-4之父OpenAI公司,恰好也是一家科学家组成的公司。 OpenAI的前生今世很长一…