"模型"搜索结果 35 条
本地部署DeepseekR1671B模型需要什么配置?

本地部署DeepseekR1671B模型需要什么配置?

今天下午用ktransformers在4090上跑了下R1的4bit量化版本,模型大小370多G,按照框架要求需要380多G的CPU内存,直接在autodl上开的4张卡,实际推理只用了一张卡,过程很顺利,就是速度着实慢,官方decode是12token/s,我跑的实际上8token/s,可能CPU比较差吧。 这个框架底层用的是llama.cpp,外接的python接口,之所以这么快是因为英特尔CPU指令集更好的调用内存,再就是只讲激活的专家放到GPU上。 个人使用也能接受,就是380G内…

为何国内其他推理模型没有像deepseek一样爆火?请先看说明。?

当今学术研究和论文写作的过程中,文献检索是基础性工作之一,重要性不可忽视。 文献的广泛性与深度直接决定了研究的质量与深度。传统的文献检索方法,如图书馆的纸质资源查询,或通过网络搜索引擎查找相关文章,在一定程度上有效,但在面对日益庞大的信息量时,往往显得力不从心。随着人工智能技术的不断进步,许多学术搜索引擎应运而生,为研究人员提供了更高效、更精准的检索工具。DeepSeek 正是其中的佼佼者,它以智能化的检…

如何看待 DeepSeek 深夜发布的全新多模态大模型 Janus-Pro-7B?带来了哪些影响?

虚假的金融核弹:禁止使用SWIFT结算系统。真正的金融核弹:DeepSeek。犹记得前两年黄仁勋嚣张异常神神们小人得志的模样,扬言中国根本制裁不了英伟达,现在回旋镖来了,不但制裁你英伟达,连你整个美股我都要制裁,一天跌掉上万亿美元的市值。索罗斯做梦都想狙击中国股市,可惜屡战屡败,铩羽而归。而幻方量化一家公司却精准反向狙击了美国股市,真所谓打败你的不是同行而是跨界。更搞笑的是,苹果因为太菜在AI领域迟迟没有大动…

如何看待李飞飞团队用不到 50 美元训练出媲美 DeepSeek R1 的 AI 推理模型?

如何看待李飞飞团队用不到 50 美元训练出媲美 DeepSeek R1 的 AI 推理模型?

这里要给大家先说几点,避免其他文章被带入到误区。 s1超过的是o1-preview,没有超过o1甚至o1-mini,有很大区别s1的效果不敌deepseek-r1 800k数据蒸馏的32B模型,差了不少,不是媲美s1即使使用全量59k数据的效果也没有提高很多,甚至在math上还有下降,所以核心是数据质量1k数据是从59K数据中筛选出来的,不是直接有1K数据就可以s1使用1k数据是节省了训练时间,但蒸馏的难点在蒸馏数据的构造上好了,下面开始介绍s1。 s1的本质是…

Altman 承认 OpenAI 的闭源策略站在了历史的错误一边,将逐步开源些旧模型,这是怎样的信号?

孙正义听到这话,怕是连想杀人的心都有了,这不是刚上船就被Altman给卖了吗。 我们抛开技术上的问题不谈,单纯从商业逻辑上来看这个事,Altman的这句话无疑是把所有投资者都给卖了,因为闭源能给的是一个AI帝国,而开源能给的只是一个网络服务商,闭源对于投资者来说实在是太重要了。 从投资者的角度来说,不管闭源到底有没有错,Altman就不应该说这样的话,即使是不说会让OpenAI倒闭也不能说,就算是真错了也只能一直错到底,这…

deepseek v3模型为啥要开源?

这些年科技圈总在玩"开源"行为艺术,SpaceX开源,可有几个国家能造火箭?波士顿动力开源,又有几个国家造出机械狗?直到DeepSeek把世界顶级AI模型免费开放,大家才明白什么叫科技平权。真正的革命从不是精英游戏,这操作相当于给全球70亿人发了把金钥匙,以前需要百万年薪专家才能调教的AI,现在初中生都能用手机调用,这才是真正的人类文明之光,它将成为照亮每个平凡人命运的万家灯火,我愿称之为科技共产主义运动。

微软一边开展调查一边又要接入使用,宣布优化DeepSeek-R1模型,这么做目的是什么?

微软善于投机,当它从中国赚取更多钱时,是一种嘴脸,当它从中国赚的钱少时,就开始污蔑中国。尤其是为了获得美国的国防合同,加大了对中国抹黑的力度。 抹黑DeepSeek是为了OpenAI,主要是DeepSeek的出现,让OpenAI极度贬值,帮助OpenAI就是希望OpenAI能够重新恢复估值,能够继续赚钱,毕竟微软已经投入了上百亿美元。 而继续使用DeepSeek,就是为了用DeepSeek去吸引用户,挽留微软的用户。此外,还可以立个贞节牌坊。宣传自己没…

印度紧随 DeepSeek 要搞自己的 AI 模型,称将与世界上最优秀的模型媲美,印度研发能力怎么样?

看每个答主恩都在调侃阿三,但这次有点邪门,可能deepseek真的把阿三给刺激住,这两天我在外网看到大量阿三在反思,不是几个头部博主反思,是连评论区里也充斥大量的反思言论,我特么看外网这么久,第一次发现阿三不自信了,甚至很多反思又滋生出中吹出来,有些吹的过了,把我看的都不好意思了

如何评价DeepSeek等大模型在中科院物理所理论竞赛中的表现?

DeepSeek(DS)我已经用了一段时间了,对于DS在中科院理论所理论竞赛中的优异表现并不诧异,实际上,DS还可以执行更难的任务。更何况这里面绝大多数的竞赛试题并没有太多的新东西。 我之前将一篇论文输入到DS当中,让其经过一顿分析,了解这篇文章的大致结构体系和计算结果,然后让其根据类似的方法计算别的体系,然后就得到了另外一篇文章的结果,这种模仿炒菜式的科研方式,在未来可能很快会被DS代替。甚至DS还可以根据一些具体…

Altman说OpenAI“站在了历史的错误一边”,并将逐步开源一些旧模型,这是一个怎样的信号?

孙正义听到这话,怕是连想杀人的心都有了,这不是刚上船就被Altman给卖了吗。 我们抛开技术上的问题不谈,单纯从商业逻辑上来看这个事,Altman的这句话无疑是把所有投资者都给卖了,因为闭源能给的是一个AI帝国,而开源能给的只是一个网络服务商,闭源对于投资者来说实在是太重要了。 从投资者的角度来说,不管闭源到底有没有错,Altman就不应该说这样的话,即使是不说会让OpenAI倒闭也不能说,就算是真错了也只能一直错到底,这…

马斯克质疑DeepSeek的r1模型训练成本分析数据造假,你怎么看?

我同学在在幻方, 刚刚离职, 因为怂了? 他说是幻方的人黑进去了微软 aws 和马斯克的服务器, 利用他们的集群训练模型, 毕竟老中有没有枪炮敌人给我们造的传统, 之前英伟达股价大跌, 听说是是黑进去了纳斯达克的服务器, 利用数值修改器造成股价下跌。 之后估计创始人要被牢美全球通缉。

印度计划部署DeepSeek-R1,并在此基础上构建印度大模型,大家认为最终会有怎样的成果?

到目前为止,印度是最大受益者。 印度从一开始就明白大模型的本质。 就是搞几个聪明人,不愁钱,也能搞出来。 但是所有人都明白,印度是搞不出来的。 现在有人搞出来了,白白放在那里,随便用。 造不出车我总能成为一个好司机啊! 一个月之内,印度就会各种宣传自己用大模型搞的各种非常骄傲的小成果了!

如何看待开源模型 DeepSeek 综合性能吊打 OpenAI?

真牛,用app生成了一部赛博修仙的小说,在我仅给出部分设定后,能够生成详细的大纲,故事,真的强。虽然情节有些跳跃(没有调教这一块),但是对于我这种一目十行的读者也够用了。 大纲部分如下:以下是百万字长篇小说的完整大纲框架,包含七卷三十七章的核心架构,融合神话解构与赛博朋克元素,贯穿"黑深残"基调与哲学思辨: ### **第一卷:应龙觉醒(15万字)** **核心冲突**:基因锁与上古协议 **主题**:血肉诅咒与机械飞升…

如何评价 DeepSeek 的 R1 与 R1-Zero 模型?

如何评价 DeepSeek 的 R1 与 R1-Zero 模型?

1月20日,DeepSeek老板梁文峰进京开会。 很多人没想到他是推升国运的一位天命人,更没想到这只蝴蝶到底震动多大的风暴。 就在今晚,美股最牛的AI板块崩了。 英伟达暴跌13%,市值损失4477亿美刀 台积电暴跌11% ASML暴跌7% 局长给大家翻译一下这两个跌幅有多恐怖:两家目前市值,英伟达3.49万亿美元,台积电1.15万亿美元。 这个13%和10%的跌幅,加上博通、ASML、微软,意味着一夜之间可能蒸发了上万亿美元。 此前特朗普规划的5…

如何评价 DeepSeek 的 DeepSeek-V3 模型?

如何评价 DeepSeek 的 DeepSeek-V3 模型?

营销得哪里厉害,去试用了一下。 结论:垃圾一个,实测只能给0分,但是营销力度很大,惯犯了。 自己看吧。 幽默与讽刺,在判断LLM智能水平,屡试不爽,简单明了。 这个测试案例中,我提的问题是:“这幅图片,讽刺的是什么现象? 这种现象的荒诞之处在哪里?” 目的是看 LLM 能不能直截了当,精准点名讽刺对象、荒诞之处。 因为很多 LLM 可以胡说八道,生成一堆看起来有模有样实际上不及格的内容。这种现象,对于非幽默讽刺的…

中国 DeepSeek 大模型成本优势,会不会打破英伟达和美股科技股的泡沫?

今天是2025年1月28日01:49分 英伟达已经跌掉了17.74% 几个科技股累计跌掉上万亿了 一根绣花针刺破了泡沫 懂王的星际之门成之坟了 另外openai突然取消20美金的费用 赶紧想话术怎么洗啊 这局开年有点天崩啊好殖儿们 我给你们打个样啊: 1: deepseek一定是抄openai的 2:deepseek肯定做了手脚让他看起来很强大 3:deepseek肯定偷偷买了数万张英伟达的算力卡 4:影响我月薪3000买烂尾楼了吗 —————- 现在是02:13 deepseek第二轮大招…

如何评价 deepseek 上线的 deepseek-V3 模型?

如何评价 deepseek 上线的 deepseek-V3 模型?

有句话是:没杀死敌人,先杀自己人!!! 阿里的QWEN,已经被比下去了! 最主要的是 Deepseek V3的价格,只是比GPT4O MINI贵不到1倍。 Model Input Output ───────────────────────────────────── Claude 3.5 Sonnet $3.00 $15.00 GPT-4o $2.50 $10.00 Gemini 1.5 Pro $1.25 $5.00 Deepseek V3 $0.27 $1.10 GPT-4o-mini $0.15 $0.60这在最大的AI API 中转站那只要0.14刀。 仅仅用了8 x NVI…

媒体报道称小米正斥巨资搭建 GPU 万卡集群,这会不会引领 AI 大模型发展新浪潮?

雷军万卡集群跟DeepSeek规模差不多,不过,DeepSeek用的似乎是十三幺散件万卡集群。而且军子最近又招募了天才少女罗福莉(DeepSeek)。 雷军这个人,眼光毒辣,又一肚子坏水,小米挖极氪团队,相当于把007据为己有(由于业务关系,我跟极氪的人比较熟,他们的技术和正在研发的车型,我比你们都多知道一点,极氪在烧钱上一点都不含糊。雷军把经验烧满的团队,直接就拉走了。)军子现在又挖DeepSeek的墙角,中国哪两个团队最强,我想大…

如何看待 OpenAI 最新发布的 o3 模型?有多强大?

o1 刚出来的时候,很多人还质疑这还达不到 AGI(通用人工智能)。o3 体现出的编程和数学能力,不仅达到了 AGI 的门槛,甚至摸到了 ASI(超级人工智能)的边。o3 也进一步验证了 RL 和 test-time scaling 的价值,在高质量预训练数据基本耗尽,模型能力 “撞墙” 的情况下,提供了一条通过后训练和增加推理时间,继续提升模型智力,解决更困难问题的路径。 o3 具体的性能指标很多人都看到了,我就不再重复了。省流版: o3 在 Code…

继VAR后,如何评价字节推出的改进模型Infinity?

继VAR后,如何评价字节推出的改进模型Infinity?

VAR这前几天刚拿了 NeurIPS 2024最佳论文奖,VAR的文生图模型Infinity就放出来了。从论文所展示的生成的图像例子来看,Infinity生成的图像质量不错,也支持多分辨率生成,而且所展示的文字效果也不错。 从定量对比来看,2B参数的Infinity在GenEval和DPG两个benchmark上能达到SD3的性能,说明Infinity有比较好的文本遵循能力。 人工评测上,2B的Infinity优于2B的SD3-Medium。 总之,从论文所展示的效果来看, Infinity确实超过了…