股票软件定制开发:幻方创始人梁文锋参加总理座谈会,此前创办 “AI 界拼多多”

作者:金策略小编 发布时间:2025-01-22 浏览量:

股票软件定制开发:国产大模型公司深度求索(DeepSeek)的创始人梁文锋,亮相于总理座谈会。

据新华社消息,1 月 20 日下午,中共中央政治局常委、国务院总理李强主持召开专家、企业家以及教科文卫体等领域代表座谈会,旨在听取各方对《政府工作报告(征求意见稿)》的意见与建议。座谈会上,张辉、任少波、刘珺、梁文锋、魏洪兴、陈学东、陈红彦、杜斌、邹敬园等依次发言。

其中,梁文锋不仅是头部量化私募幻方量化的创始人,同时也是 DeepSeek 的缔造者。

低调的 “量化天王” 成长之路


梁文锋这位 “80 后”,本科与研究生阶段均在浙江大学深造,拥有信息与电子工程学系的本科及硕士学位。2008 年起,他便带领团队运用机器学习等技术,探索全自动量化交易领域。2015 年,幻方量化正式成立,仅仅 4 年后,也就是 2019 年,其资金管理规模便突破百亿元。

在 2019 年的金牛奖颁奖仪式上,梁文锋发表了主题演讲《一名程序员眼里中国量化投资的未来》,这是他为数不多的公开露面发言。在演讲中,他明确指出量化与非量化的区别,在于投资决策究竟是依靠数量化方法,还是人为判断。他还形象地表示,量化公司里没有传统意义上的基金经理,取而代之的是一堆服务器。

梁文锋提到,私募行业中,投资人对业绩期望颇高,若一年跑赢指数低于 25%,投资人便会不满。他认为,量化投资已在技术面流派的盈利领域有所斩获,未来还将向基本面流派的盈利空间进军。演讲末尾,梁文锋表明幻方量化的使命,是提升中国二级市场的有效性。

2021 年,幻方量化成为国内首家突破千亿规模的量化私募巨头,跻身国内量化私募 “四大天王” 之列。然而,同年由于业绩波动,幻方量化关闭了所有募集通道,并在 12 月底发布致投资者的公开信,就 “幻方业绩的回撤达到历史最大值” 一事致歉。究其原因,主要是 AI 投资决策在买卖时机的把握上存在不足,市场风格剧烈转变时,AI 倾向于冒更大风险追求更高收益,从而加剧了回撤。此后,幻方量化逐步降低资金管理规模。2024 年 10 月,幻方量化向投资者公告,计划逐步将产品投资仓位对冲至零。

对 AI 的浓厚兴趣与巨额投入


梁文锋对 AI 的关注早有端倪。2016 年 10 月 21 日,幻方量化推出首个 AI 模型,第一份由深度学习生成的交易仓位上线执行,且采用 GPU 进行计算。2017 年,幻方量化宣称实现投资策略全面 AI 化。幻方量化官网信息显示,2018 年公司确立以 AI 为主要发展方向。

2020 年,幻方累计投资超亿元打造的 AI 超级计算机 “萤火一号” 正式投入使用,其占地面积相当于一个篮球场,算力号称可匹敌 4 万台个人电脑。2021 年,幻方又投入十亿建设 “萤火二号”。“萤火二号” 以 “任务级分时共享” 为核心理念,调度系统响应迅速,仅需秒级。平台还配备强大的软件层支持,如高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)以及专为 AI 开发设计的大容量高带宽文件系统(3FS),能让 AI 模型轻松拓展到多节点,实现大规模并行训练。算力翻倍扩容,集群持续满载运行,平均占用率超 96%。

2021 年,梁文锋参与的论文提及,正在部署的萤火二号系统 “配备了 1 万张 A100 GPU 芯片”,性能与 DGX - A100(英伟达推出的人工智能专用超级计算机)相近,但成本降低一半,能耗减少 40%。当时,国内拥有超过 1 万枚 GPU 的企业不超 5 家,除幻方量化外,其余 4 家均为互联网大厂,这背后所需的雄厚财力可见一斑。

2023 年初,幻方量化透露,过去几年,公司及员工每年都会拿出部分收入投入公益,回馈社会,累计捐赠超 5.8 亿元。2022 年,员工 “一只平凡的小猪” 个人向慈善机构捐赠 1.38 亿元,据当时消息,此人便是梁文锋,这从侧面反映出幻方量化和梁文锋的雄厚财力。

幻方量化一直坚持将大部分营收投入人工智能领域,构建领先的 AI 硬件基础设施,开展大规模研究。梁文锋在为数不多的对外发声中提到 “短期内没有融资计划”,并指出当下所面临的问题并非资金,而是高端芯片短缺。

“AI 界拼多多” 的崛起


2023 年 7 月,幻方量化宣布成立大模型公司 DeepSeek,正式进军通用人工智能领域。据悉,DeepSeek 连同创始人梁文锋在内,仅有 139 名工程师和研究人员。相比之下,OpenAI 有 1200 名研究人员,Anthropic 有 500 多名研究人员。

仅仅过了不到一年,2024 年 5 月,DeepSeek 发布 DeepSeek V2,凭借创新的模型架构和超高的性价比迅速走红。DeepSeek - V2 的 API 定价为每百万 tokens 输入 1 元、输出 2 元,价格仅为 GPT - 4 Turbo 的百分之一。对于如此高性价比的实现,DeepSeek 官方解释称,DeepSeek - V2 采用了创新架构,如注意力机制方面的 MLA(多头潜在注意力)和前馈网络方面的 DeepSeekMoE 架构等,以达成更具经济性的训练效果和更高效的推理。因此,DeepSeek 被冠以 “AI 界的拼多多” 称号,还引发了字节、阿里、百度等大厂的大模型价格战,各厂商纷纷宣布大模型产品降价。当时,梁文锋在接受媒体采访时表示,DeepSeek 无意成为行业搅局者,低价的初衷是希望实现算力普惠。

2024 年 12 月 27 日,DeepSeek - V3 惊艳问世,在全球范围内引发热潮。据 DeepSeek 官网数据,其评测成绩不仅超越了 Qwen2.5 - 72B(阿里自研大模型)和 Llama 3.1 - 405B(Meta 自研大模型)等顶级开源模型,甚至能与 GPT - 4o、Claude 3.5 - Sonnet(Anthropic 自研大模型)等顶级闭源模型相抗衡。

DeepSeek 宣布上线 DeepSeek - V3 模型的同时,还将其开源,并公布了长达 53 页的训练和技术细节。大幅升级的 V3 模型在令人惊叹的预算下完成训练:整个训练仅花费 557.6 万美元,在 2048 块英伟达 H800 GPU(针对中国市场的低配版 GPU)集群上运行 55 天便宣告完成,成本不到 OpenAI GPT - 4o 模型训练成本的十分之一。

梁文峰在接受媒体采访时表示:“中国也要逐步成为贡献者,而非一直坐享其成。我们习惯了摩尔定律带来的技术红利,仿佛躺在家里,每隔 18 个月就会有更好的硬件和软件自动出现,对 Scaling Law(规模定律)也是如此。但实际上,这是西方主导的技术社区一代又一代人不懈努力创造出来的成果。此前我们因未参与这个过程,而忽视了其背后的努力。许多国产芯片发展受限,正是因为缺乏配套的技术社区,只能获取二手消息。中国必须有人站到技术前沿。”

梁文锋和他的 DeepSeek 并未停下探索的脚步。1 月 20 日,DeepSeek 正式发布 DeepSeek - R1 模型。该模型在数学、代码、自然语言推理等任务上,性能与 OpenAI o1 正式版相当。DeepSeek 表示,R1 在后训练阶段大规模运用强化学习技术,在标注数据极少的情况下,大幅提升了模型推理能力。DeepSeek 不仅公开了 R1 的训练技术,还蒸馏出 6 个小模型开源给社区,允许用户借此训练其他模型。

DeepSeek 的公众号写道:“投身于探索 AGI 的本质,不做平庸之事,怀揣好奇心,以最长远的眼光去解答最重要的问题。”