Cách cài đặt GPT-OSS-120B của OpenAI cục bộ trên 1 GPU

06/08/2025

Mô hình ngôn ngữ lớn (LLM) đã trở thành một phần không thể thiếu trong nhiều lĩnh vực. Tuy nhiên, việc chạy các mô hình này thường đòi hỏi cấu hình máy tính rất mạnh và đắt đỏ. Tin vui là vừa qua OpenAI đã ra mắt GPT-OSS-120B, một mô hình mã nguồn mở mạnh mẽ có thể chạy ngay trên một GPU duy nhất. Bài viết này của Phong Vũ Tech News sẽ hướng dẫn bạn từng bước cách cài đặt mô hình này một cách dễ dàng và hiệu quả. Cùng tìm hiểu ngay!

Mục lục

I. GPT-OSS-120B là gì?

GPT-OSS-120B là một mô hình ngôn ngữ lớn được thiết kế để xử lý các tác vụ phức tạp, với tổng cộng 117 tỷ tham số. Điểm đặc biệt của nó là sử dụng kiến trúc “mixture of experts” (MoE), giúp mô hình hoạt động hiệu quả hơn so với các mô hình truyền thống cùng kích cỡ.

Mô hình ngôn ngữ GPT-OSS-120B (Nguồn: Internet)

Mô hình này được tối ưu hóa để chạy trên một GPU NVIDIA H100 với 80GB VRAM nhờ kỹ thuật lượng tử hóa MXFP4. Đây là một bước đột phá, vì nó cho phép các nhà phát triển và nghiên cứu có thể sử dụng một mô hình cực mạnh mà không cần đầu tư quá lớn vào phần cứng.

II. Cần chuẩn bị những gì khi cài đặt GPT-OSS-120B?

GPT-OSS-120B rất mạnh, nhưng cũng yêu cầu phần cứng cao. Dưới đây là các yêu cầu cơ bản:

Thành phần	Yêu cầu tối thiểu
GPU	Tối thiểu 80 GB VRAM (A100, H100, RTX 6000 Ada)
RAM hệ thống	64 GB trở lên
Ổ cứng	SSD NVMe ≥ 200 GB
CPU	8 nhân trở lên, tốc độ cao
Hệ điều hành	Ubuntu 20.04/22.04 hoặc Linux tương đương

Lưu ý: RTX 4090 có 24 GB VRAM không đủ để chạy full GPT-OSS-120B, nhưng vẫn có cách dùng mẹo (như nén mô hình) để chạy được một phần.

Mô hình này có yêu cầu cao về phần cứng của máy tính (Nguồn: Internet)

Ngoài ra, về phần mềm bạn cần chuẩn bị cài đặt:

Python 3.10+
PyTorch
vLLM hoặc LoHan (framework để chạy LLM nhanh hơn)
GPTQ hoặc SmoothQuant (giảm kích thước mô hình, tiết kiệm RAM/VRAM).

III. Hướng dẫn cài đặt GPT-OSS-120B trên 1 GPU

Để cài đặt và chạy GPT-OSS-120B, chúng ta sẽ sử dụng hai công cụ chính:

uv: Một công cụ quản lý môi trường và gói Python cực kỳ nhanh.
VLLM: Một thư viện giúp tăng tốc độ suy luận (inference) cho các mô hình ngôn ngữ lớn.

Sau đó, bạn chỉ cần mở Terminal trên Linux và thực hiện các bước dưới đây.

Bước 1: Cài đặt uv: Đầu tiên, bạn cần cài đặt uv bằng lệnh sau: curl -LsSf https://astral.sh/uv/install.sh | sh. Lệnh này sẽ tự động tải và cài đặt uv vào hệ thống của bạn.

Bước 2: Tạo môi trường ảo và cài đặt VLLM: Tạo một môi trường ảo giúp các thư viện của bạn không bị lẫn lộn với các dự án khác.

uv venv vllm-env
source vllm-env/bin/activate
uv pip install –pre vllm –extra-index-url https://wheels.vllm.ai

Mô hình GPT-OSS-120B sau khi được khởi tạo thành công (Nguồn: Internet)

Các lệnh trên sẽ tạo một môi trường ảo, kích hoạt nó, và cài đặt VLLM cùng các thư viện phụ thuộc. Lưu ý rằng chúng ta dùng –pre để cài phiên bản VLLM mới nhất, vì nó có hỗ trợ đặc biệt cho mô hình này.

IV. Khởi chạy máy chủ mô hình

Sau khi đã cài đặt xong, bạn có thể khởi động máy chủ để chạy mô hình. Lần đầu tiên chạy, VLLM sẽ tự động tải mô hình từ Hugging Face. Lệnh khởi động máy chủ VLLM như sau: vllm serve openai/gpt-oss-120b –model openai/gpt-oss-120b

Khi bạn chạy lệnh này lần đầu:

VLLM sẽ bắt đầu tải xuống mô hình GPT-OSS-120B. Các tệp này có dung lượng lớn, khoảng 120GB, nên quá trình này có thể mất một thời gian.
Sau khi tải xong, VLLM sẽ tải mô hình vào VRAM của GPU. Quá trình này sẽ tiêu thụ hơn 64GB VRAM.
Khi thấy thông báo “Uvicorn running on http://127.0.0.1:8000…”, tức là máy chủ của bạn đã sẵn sàng hoạt động!

Khởi chạy mô hình GPT-OSS-120B sau khi được khởi tạo thành công (Nguồn: Internet)

V. Kiểm tra và đánh giá mô hình

Sau khi cài đặt xong, bạn có thể kiểm tra khả năng của mô hình bằng cách gửi các yêu cầu suy luận (inference) đến endpoint cục bộ.

1. Suy luận với một tập lệnh Python

Bạn có thể sử dụng một tập lệnh Python đơn giản để gửi yêu cầu đến máy chủ VLLM. Cụ thể như sau:

import openai

client = openai.OpenAI(base_url=”http://127.0.0.1:8000/v1″, api_key=”EMPTY”)

completion = client.chat.completions.create(

model=”openai/gpt-oss-120b”,

messages=[

{“role”: “user”, “content”: “What is the capital of France?”}

]

)

print(completion.choices[0].message.content)

Sau đó, bạn chỉ cần chạy tệp này trong Terminal: python test.py

Kiểm tra mô hình GPT-OSS-120B (Nguồn: Internet)

2. Sử dụng curl

Nếu bạn muốn kiểm tra nhanh, có thể dùng lệnh curl trực tiếp từ Terminal:

curl -X POST http://127.0.0.1:8000/v1/chat/completions \

-H “Content-Type: application/json” \

-d ‘{

“model”: “openai/gpt-oss-120b”,

“messages”: [

{

“role”: “user”,

“content”: “Viết một đoạn văn ngắn về tầm quan trọng của AI trong cuộc sống hiện đại.”

}

“temperature”: 0.7

}’

Như vậy, chỉ với lệnh từ curl bạn có thể dễ dàng kiểm tra độ chính xác, nhanh nhạy của mô hình GPT-OSS-120B vừa được khởi tạo.

VI. Một số khả năng nổi bật của mô hình GPT-OSS-120B

Qua các thử nghiệm, GPT-OSS-120B đã chứng minh được nhiều khả năng vượt trội:

Lý luận: Mô hình cung cấp một câu trả lời toàn diện và chi tiết cho một câu hỏi phức tạp về lượng tử hóa MXFP4.
Lập trình: GPT-OSS-120B có thể tạo ra một tệp HTML tương tác với hoạt hình tên lửa p5.js, cho thấy khả năng lập trình tốt.
Tuân thủ hướng dẫn: Khi được hỏi một câu hỏi mang tính cá nhân, mô hình không đưa ra một câu trả lời chung chung mà thay vào đó cung cấp một kế hoạch cụ thể và khả thi.
“Hàng rào bảo vệ” (Guardrails): Khi nhận được một lời nhắc tinh nghịch, mô hình vẫn xử lý một cách chuyên nghiệp, xác định đúng bản chất vui tươi của câu hỏi và đưa ra câu trả lời tôn trọng mà không bị gò bó.
Toán học: Mô hình giải thành công một bài toán vi tích phân phức tạp, cung cấp các bước giải chi tiết, bao gồm cả việc kiểm tra các định lý khác nhau.
Đa ngôn ngữ: Nó có thể dịch chính xác một câu sang nhiều ngôn ngữ hàng đầu thế giới.

GPT-OSS-120B sở hữu nhiều điểm nổi bật (Nguồn: Internet)

VII. Tổng kết

Với việc phát hành GPT-OSS-120B, OpenAI đã mở ra một kỷ nguyên mới cho trí tuệ nhân tạo mã nguồn mở – nơi bất kỳ ai cũng có thể tiếp cận và vận hành một mô hình cực mạnh tương đương với những gì đang được sử dụng trên các nền tảng AI cao cấp. Dù GPT-OSS-120B có kích thước “khổng lồ”, bạn hoàn toàn có thể cài đặt và chạy nó cục bộ nếu chuẩn bị đầy đủ phần cứng, hoặc biết cách tối ưu như nén mô hình, chia nhỏ, hoặc offload thông minh. Hãy bắt tay vào cài đặt và khám phá khả năng của GPT‑OSS‑120B – cỗ máy AI thông minh, tự do và hoàn toàn nằm trong tầm tay bạn.

Bài viết liên quan: