网站文案优化,vue.js wordpress,天津建设工程合同备案网站,wordpress 调用指定文章DeepSeek无疑是春节档最火爆的话题#xff0c;上线不足一月#xff0c;其全球累计下载量已达4000万#xff0c;反超ChatGPT成为全球增长最快的AI应用#xff0c;并且完全开源。那么究竟DeepSeek有什么魔力#xff0c;能够让大家趋之若鹜#xff0c;他又将怎样改变世界AI格…DeepSeek无疑是春节档最火爆的话题上线不足一月其全球累计下载量已达4000万反超ChatGPT成为全球增长最快的AI应用并且完全开源。那么究竟DeepSeek有什么魔力能够让大家趋之若鹜他又将怎样改变世界AI格局和我们的生活本篇文章将进行简要解析。
DeepSeek与ChatGPT对比
说到人工智能就不得不提OpenAI和ChatGPT这是绕不开的话题要分析DeepSeek的实力最简单的方式就是跟ChatGPT进行对比。
模型分类
ChatGPT目前有两种大模型分别是面向普通用户解决日常应用问题的4-OMNI以及面向专业用户处理深度思考问题的O1DeepSeek与之对标的分别是V3模型以及R1模型。 实用效果
据我目前的使用体验下来DeepSeek的实际体验效果完全不输ChatGPT甚至在解决数学、物理和推理问题方面表现出色响应速度比ChatGPT还要快且能够完整地展示其思考和给出答案的过程例如最经典的让绝大多数AI翻车的“1.11和1.9谁大”的问题ChatGPT给出的回答是 前言不搭后语而反观DeepSeek 可以看到DeepSeek不仅给出了正确答案而且展示了详细的解题思路甚至有最后的验证。我也测试了许多其他的问题DeepSeek完全不拉垮相对于ChatGPT他在中文领域的问题理解和处理更加到位使用体验非常好。
这无疑也使得苹果公司柳暗花明又一村为弥补apple intelligence上在中国区无法使用ChatGPT提供了完美的解决方案。
成本
成本分为两部分硬件成本和训练成本。AI大模型构建算法绝大部分都是基于公开的论文所以市场上的大模型底层逻辑都大同小异训练数据也来自于互联网所以主要的成本体现在硬件上也就是提供AI算力的芯片自从AI大爆发以来大家的共识就是堆砌的芯片越多大模型的表现就越优秀。我先简单介绍一下为什么提升AI的性能就要堆砌大量的芯片。
AI算力的芯片领域是英伟达Nvidia一家独大芯片价格非常昂贵目前该公司最先进的B200芯片单张的价格就高达4万美金而且对于AI公司来说你还必须买因为芯片的产能有限如果你不抢就会被竞争对手买走导致你的大模型算力不如他的。 英伟达公司为自家的芯片研发了一种叫CUDA的核心的技术其全名叫做Compute Unified Device Architecture统一计算设备架构。 这是一种并行计算平台和编程模型。开发者通过它可以间接利用GPU的处理能力大幅提升计算性能。简单的说CUDA核心就像是一间间的海水提纯工厂它可以把如海洋般的GPU算力转换成AI开发者可以直接使用的AI算力越多的CUDA核心数量就意味着更大的AI算力。 这也就是为什么AI行业越发展芯片的需求量越大英伟达的市值就越高。美国也多次通过英伟达“锁算力”以及限制芯片出口阻碍中国的AI发展。AI行业的发展被一家公司扼住喉咙的现象显然极度不合理英伟达可谓是真正的万恶之源。
OpenAI不受限制所以囤积了大量的英伟达芯片训练ChatGPT据传用到了5万张英伟达的芯片而DeepSeek作为中国公司在这方面相比自然相去甚远。
DeepSeek冲击
由于CUDA技术被英伟达牢牢掌握所以间接提高了所有AI大模型的使用成本阻碍了AI的发展。以ChatGPT为例4-OMNI和O1两个大模型的研发成本高达数十亿美金免费用户使用有诸多限制付费用户每月20美金专业用户每月200美金如果企业想要接入OpenAI的人工智能服务调用API做客服等用途则更是按字符收费虽然比人工客服省钱但也是一笔不小的开销。这些收入中绝大多数都是用来平衡购买芯片带来的巨大成本。
DeepSeek之所以引起全球瞩目就是因为他在“芯片”受限的前提下达到了与ChatGPT近似的使用体验甚至在某些领域还远远超过了。OpenAI和它的母公司微软囤积了大量的高端芯片而DeepSeek手里的芯片不论从数量还是质量上都不占优势甚至可以说远远落后。
在深度解析DeepSeek开源的模型代码之后研究人员发现DeepSeek之所以能够绝地反击秘诀就在于他绕过了CUDA核心的限制使用了完全创新的技术训练大模型直接利用英伟达的底层技术调用了GPU的算力相当于能直接使用如大海般的GPU资源所以才能使用低端的芯片在极短的时间内完成了模型的训练达到了与ChatGPT近似的效果。
而且此技术成功解除了AI模型对英伟达芯片的依赖使DeepSeek可以使用华为的芯片进行训练。DeepSeek服务调用的费用只有ChatGPT的十分之一具有非常高的性价比和广阔的应用前景。
整体来说DeepSeek用了很少的钱很低端的工具就把美国投入上百亿美元的事给办了。自从DeepSeek爆火之后市场普遍认为英伟达的芯片估值过高要实现高性能的AI并不需要如此之贵的芯片最高端的芯片也并不值那个价钱这直接导致英伟达的股价当天就暴跌17%创造了美国股市历史上单日最大跌幅截至目前英伟达市值蒸发近6000亿美元。
技术曝光的第二天英伟达微软和亚马逊的计算平台都宣布接入DeepSeek模型堪称AI界的“斯普特尼克时刻”就如同当年苏联率先成功发射人造卫星时一样让一直以为自己在技术上遥遥领先的西方世界陷入了一片混乱世界AI市场的格局就此改变。
本地化部署R1模型
DeepSeek虽然好但是用过的同学都知道他有个致命的问题就是万恶的资本主义经常组织针对DeepSeek的网络攻击导致使用时出现“服务器繁忙的问题”。 为了避免被攻击降低延迟和卡顿规避共享敏感信息的风险同时更灵活的进行微调和实验我们可以把R1模型部署到本地。
安装Ollama
首先登陆Ollama官网https://ollama.com/。打开官网然后点击下载之后安装到本地。 拉取 DeepSeek R1 模型
然后打开Ollama 的模型列表 https://ollama.com/library/deepseek-r1 搜索到DeepSeek R1 显卡需求
各个模型版本需求的显卡档次大致如下表
模型DeepSeek-R1显卡档次显存需求1.5bGTX1050以上1GB7bRTX2050、RTX3060以上4GB8bRTX2060、RTX3070以上5GB14bRTX3080、RTX4070以上8GB32bRTX4080以上18GB70bRTX4090、RTX5080以上36GB以上
我们普通的电脑安装1.5B7B就可以使用然后在【右上角的的代码】复制打开终端输入上述下载命令回车后会出现模型下载进度当进度为100%就说明该模型已经下载到本地了。 输入ollama list可以查看安装的模型。 此时已经可以在控制台使用R1模型进行问答了。
包装GUI
只能在命令行中使用既不美观也特别的不方便所以我们可以使用现成的GUI进行包装相当于包上图形用户界面。这里以Cherry Studio为例下载对应版本后打开。 在设置中选择模型服务选中Ollama 填入对应的本地模型信息 然后就可以使用了希望本篇文章能够帮到大家