AI工具AI评分 一般 (64)AI 中文改写

一行命令在HF任务上运行vLLM服务器

3 小时前 2 阅读来源:HuggingFace Blog

AI 中文改写

原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接

HuggingFace 刚刚推出了一项让开发者眼前一亮的新功能:只需一条命令,就能在 HuggingFace 的服务器上启动一个私有的、兼容 OpenAI API 的大语言模型(LLM)推理服务。整个过程不需要自己配置服务器,不需要折腾 Kubernetes 集群,按秒计费,用完即停。对于需要快速测试模型、做评估或者跑批量生成的场景来说,这可能是目前最省事的方案。 这个新功能依托于 HuggingFace Jobs 服务。简单理解,`hf jobs run` 就像是 HuggingFace 版的 `docker run`,但直接帮你把 GPU 资源、网络代理和鉴权都打包好了。具体操作是:用户指定一个 GPU 规格(比如 `a10g-large`),使用官方 vLLM 镜像,通过 `--expose 8000` 暴露端口,然后直接运行 `vllm serve` 命令加载模型。命令执行后,系统会返回一个专属的 HTTPS 链接,比如 `https://<job_id>--8000.hf.jobs`。这个链接就是你的私有 API 端点,任何兼容 OpenAI API 的客户端(curl、Python 的 OpenAI 库等)都可以直接调用,只需在请求头中带上 HuggingFace 的 token 作为 Bearer Token 即可完成鉴权。 对于中国跨境电商卖家和 AI 从业者来说,这个功能的实用价值在于:它大幅降低了私有模型部署的门槛和成本。以前想跑一个开源模型做测试,要么租云服务器自己配环境,要么用各种推理平台,流程繁琐且容易产生闲置费用。现在一条命令就能拉起一个 Qwen3-4B 这样的模型,按秒计费(a10g-large 规格约 1.5 美元/小时,约合人民币 10.8 元/小时),用完 `hf jobs cancel` 就停止,不会产生额外账单。而且端点默认是私有的,只有持有 token 的人才能访问,适合内部测试和团队协作。当然,HuggingFace 也提醒,如果追求生产环境的高可用和托管服务,应该使用他们的 Inference Endpoints 产品。对于需要快速验证想法、跑几轮评测的团队来说,这个新功能确实提供了一个轻量级的选择。

以上为 AI 中文改写版本,如需查看英文原文请访问

英文原文 · HuggingFace Blog

内容版权归原作者及 HuggingFace Blog 所有

这篇文章对你有帮助吗?
觉得有用?分享给更多人

留言 · 0

暂无留言,来说两句吧

留言经合规过滤后展示,禁止违法内容