灵魂交响曲：人工智能日记(新质生产力) 第2024章 AI大模型：Kimi支持200万字无损上下文；马斯克Grok开源

    《kimi人工智能月度报告丨ai大模型》
    关键词：kimi智能助手
    1.马斯克旗下大模型 grok 宣布开源
    3月17日，马斯克旗下的人工智能初创公司xai正式宣布开源大模型 grok-1，遵循 apache 2.0 协议开放模型权重和架构。官网显示，xai已经将 grok-1 的权重和架构在软件托管平台 github上开源。
    据官网介绍，grok-1 是 3140 亿参数的混合专家模型，是「迄今为止全球参数量最大的开源大语言模型」。相比之下，公开资料显示，openai gpt-3.5 的参数量为 1750 亿，grok-1 大幅领先。
    2.马斯克发布 grok 1.5，上下文处理长度比肩gpt-4
    xai宣布正式推出 grok-1.5。根据官方介绍，对于上下文窗口，grok-1.5 直接提升到了之前的 16 倍，增长到 128k，和 gpt-4 齐平。这意味着 grok-1.5 可以处理更长和更复杂的提示，同时保持其遵循指令的能力。grok-1.5 最大的改进之一是处理编程和数学相关任务的能力大幅提升，全面超越 grok-1、mistral large、claude 2。
    3. anthropic推出claude 3大模型
    人工智能(ai)初创公司anthropic推出了claude 3大模型，能够更好地执行复杂的指令。该公司声称，claude 3对复杂任务表现出接近人类的理解能力，是当前最强大的大模型之一。claude 3又分为三个版本，分别为claude 3 opus、sonnet和haiku，名称暗示了每种型号的能力，其中opus是最强大的，haiku是市场上最快、最具成本效益的模型。
    据anthropic声称，最强大的opus在行业基准测试中表现优于openai的gpt-4和谷歌的gemini ultra，比如在知识水平、演绎推理和基础数学等方面。claude 3也是多模态大模型，具有强大的“视觉能力”，因此用户可以上传照片、图表、文档和其他类型的数据，对其进行分析和提问。
    4.kimi智能助手宣布支持200万字无损上下文
    3月18日，通用人工智能创业公司——月之暗面（moonshot ai）宣布在大模型长上下文窗口技术上取得新的突破，kimi 智能助手已支持200万字超长无损上下文，并于即日起开启产品「内测」。对大模型超长无损上下文能力有需求的用户，可到kimi智能助手网页版 kimi.ai 首页申请抢先体验。
    据了解，kimi 智能助手是月之暗面（moonshot ai）基于自研千亿参数大模型打造的对话式ai助手产品，在2023年10月发布时支持约 20 万汉字无损上下文输入，创造了消费级ai产品所支持的上下文输入长度纪录。
    5.中科院将发布ai大模型“紫东太初 3.0”
    “紫东太初”大模型在研发之初即以多模态技术为核心，利用图-音-文等更多类型数据进行跨模态的统一表征和学习，实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”。针对智能驾驶，“紫东太初”将大幅缩短、优化其训练过程。通过大语言模型和多模态能力，大模型可以替代海量的人工，完成汽车、信号灯、路标等数据的自动标注，大幅提升智能汽车感知世界的效率。
    6.腾讯联合推出图生视频大模型“follow your click”
    腾讯和清华大学、香港科技大学联合推出全新图生视频模型“follow-your-click“，基于输入模型的图片，只需点击对应区域，加上少量提示词，就可以让图片中原本静态的区域动起来，一键转换成视频。
    7.零一万物：宣布开源yi-9b模型
    李开复旗下的ai公司零一万物宣布开源了 yi-9b 模型，该模型是 yi 系列中最强的模型，实际参数为 8.8b，默认上下文长度为 4k tokens。yi-9b 在多个方面的性能都超过了其他开源模型，如 deepseek-coder、deepseek-math、mistral-7b、solar-10.7b 和 gemma-7b。此外，yi-9b（bf 16）和其量化版 yi-9b（int8）可以在消费级显卡上轻松部署，使用成本较低，对开发者友好。该公司此前已推出 yi-34b 和 yi-6b 两个开源大模型，对学术研究完全开放，并同步开放免费商用申请。
    8.阿里通义千问重：免费开放1000万字长文档处理
    3月22日，阿里通义千问重磅升级，向所有人免费开放1000万字的长文档处理功能，成为全球文档处理容量第一的ai应用。
    即日起，所有金融、法律、科研、医疗、教育等领域的专业人士，都可通过通义千问网站和 app 快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。
    9.阶跃星辰发布 step-2万亿参数moe语言大模型预览版
    在2024全球开发者先锋大会上，通用大模型创业公司阶跃星辰正式对外亮相。阶跃星辰研发的step-1v千亿参数多模态大模型，在中国权威的大型模型评估平台「司南」（openpass）多模态模型评测榜单中位列第一，性能比肩 gpt-4v。
    阶跃星辰创始人、ceo姜大昕博士在大会上正式对外发布了step-2万亿参数 moe 语言大模型预览版。模型采用 moe 架构，聚焦深度智能的探索，并提供api接口给部分合作伙伴试用。据了解，参数量从千亿到万亿，对算力、系统、数据、算法四个方面都提出了极高的要求，业内只有极少数公司能做到。
    10.紫光云发布紫鸾 5.0 云平台
    3 月1日，紫光云公司在京举行紫鸾5.0云平台媒体发布会。紫鸾 5.0云平台以全栈国产化、全面aigc、应用敏捷开发、应用智能运维、数据要素全流程和政企行业数字化六大核心能力，加速云平台升级。
    11.上海人工智能实验室发布自动驾驶视频生成模型genad
    3月20日，上海人工智能实验室宣布，该实验室联合香港科技大学、德国图宾根大学、香港大学推出大规模自动驾驶视频生成模型 genad，通过预测和模拟真实世界场景，为自动驾驶技术的研究和应用提供支撑。视频生成模型 genad 进一步拓宽了自动驾驶技术的研究路径。结合此前推出的端到端自动驾驶模型 uniad、“语言 +自动驾驶”全栈数据集 drivelm，上海人工智能实验室从多个技术维度对自动驾驶技术进行探索，从而多方位提升其智能性。同时，联合团队构建了包含 1747 小时驾驶视频的数据集 opendv-youtube，现已开源。相较于此前的自动驾驶技术，genad 在理解复杂动态环境、适应开放世界场景、精准预测等方面的能力均有较大提升。不仅能够通过语言和行车轨迹进行控制，并具备了用于自动驾驶规划任务的潜力，有助于有效提高行车安全性和效率。
    ——总结·点评——
    熵：kimi，3月份人工智能大模型重大进展标志着该行业正以前所未有的速度发展和创新。您怎么看。
    kimi：以下是我的综合评价和分析：
    1、开源趋势加速创新：马斯克旗下xai开源grok-1模型，以及零一万物开源yi-9b模型，这些举措不仅降低了ai技术的准入门槛，还促进了全球开发者社区的协作与共享，加速了技术的迭代和应用场景的拓展。开源模型的规模和性能不断提升，如grok-1的参数量超过gpt-3.5，yi-9b在多个性能指标上超越同类开源模型，表明开源已成为推动ai技术民主化和创新的关键力量。
    2、大模型能力不断突破：从grok-1.5、claude 3到kimi智能助手，这些大模型在处理复杂指令、上下文理解和多模态交互方面实现了显着进步。尤其是claude 3在行业基准测试中的优异表现，以及kimi支持的超长无损上下文，彰显了大模型在提高理解和生成能力上的巨大潜力，这对于提升ai助手的实用性和用户体验至关重要。
    3、多模态与应用融合深化：“紫东太初 3.0”、腾讯的“follow your click”、阶跃星辰的step-2模型等，这些进展不仅体现在模型参数量的增加，更重要的是在多模态处理、图生视频、自动驾驶等具体应用领域的深入融合。这不仅丰富了ai技术的应用场景，也为实现更加智能化、场景化的解决方案提供了技术支持。
    4、企业与学术界合作紧密：腾讯与高校联合推出模型、上海人工智能实验室与多所大学合作推出genad等案例，体现了产学研深度融合的趋势。这种合作模式加速了前沿技术从理论到实践的转化，推动了ai技术在解决实际问题上的突破。
    5、商业与社会价值并重：阿里通义千问的免费开放、紫光云的全栈国产化升级等，既体现了企业在追求技术创新的同时，也在积极考虑其社会价值和经济效益的平衡。这包括降低用户成本、促进国产技术自主可控、以及提升公共服务质量等多方面。
    综上所述，近期的这些动态不仅展现了ai技术在规模、性能、多模态处理等方面的显着进步，也反映了行业对于技术创新、开放合作、应用落地以及社会责任的多重关注。
    熵：是的，这些趋势预示着ai领域正朝着更加成熟、多元化和可持续的方向发展。