Mô hình ngôn ngữ lớn (LLM) đã trở thành một phần không thể thiếu trong nhiều lĩnh vực. Tuy nhiên, việc chạy các mô hình này thường đòi hỏi cấu hình máy tính rất mạnh và đắt đỏ. Tin vui là vừa qua OpenAI đã ra mắt GPT-OSS-120B, một mô hình mã nguồn mở mạnh mẽ có thể chạy ngay trên một GPU duy nhất. Bài viết này của Phong Vũ Tech News sẽ hướng dẫn bạn từng bước cách cài đặt mô hình này một cách dễ dàng và hiệu quả. Cùng tìm hiểu ngay!
I. GPT-OSS-120B là gì?
GPT-OSS-120B là một mô hình ngôn ngữ lớn được thiết kế để xử lý các tác vụ phức tạp, với tổng cộng 117 tỷ tham số. Điểm đặc biệt của nó là sử dụng kiến trúc “mixture of experts” (MoE), giúp mô hình hoạt động hiệu quả hơn so với các mô hình truyền thống cùng kích cỡ.

Mô hình này được tối ưu hóa để chạy trên một GPU NVIDIA H100 với 80GB VRAM nhờ kỹ thuật lượng tử hóa MXFP4. Đây là một bước đột phá, vì nó cho phép các nhà phát triển và nghiên cứu có thể sử dụng một mô hình cực mạnh mà không cần đầu tư quá lớn vào phần cứng.
II. Cần chuẩn bị những gì khi cài đặt GPT-OSS-120B?
GPT-OSS-120B rất mạnh, nhưng cũng yêu cầu phần cứng cao. Dưới đây là các yêu cầu cơ bản:
| Thành phần | Yêu cầu tối thiểu |
| GPU | Tối thiểu 80 GB VRAM (A100, H100, RTX 6000 Ada) |
| RAM hệ thống | 64 GB trở lên |
| Ổ cứng | SSD NVMe ≥ 200 GB |
| CPU | 8 nhân trở lên, tốc độ cao |
| Hệ điều hành | Ubuntu 20.04/22.04 hoặc Linux tương đương |
Lưu ý: RTX 4090 có 24 GB VRAM không đủ để chạy full GPT-OSS-120B, nhưng vẫn có cách dùng mẹo (như nén mô hình) để chạy được một phần.

Ngoài ra, về phần mềm bạn cần chuẩn bị cài đặt:
- Python 3.10+
- PyTorch
- vLLM hoặc LoHan (framework để chạy LLM nhanh hơn)
- GPTQ hoặc SmoothQuant (giảm kích thước mô hình, tiết kiệm RAM/VRAM).
III. Hướng dẫn cài đặt GPT-OSS-120B trên 1 GPU
Để cài đặt và chạy GPT-OSS-120B, chúng ta sẽ sử dụng hai công cụ chính:
- uv: Một công cụ quản lý môi trường và gói Python cực kỳ nhanh.
- VLLM: Một thư viện giúp tăng tốc độ suy luận (inference) cho các mô hình ngôn ngữ lớn.
Sau đó, bạn chỉ cần mở Terminal trên Linux và thực hiện các bước dưới đây.
Bước 1: Cài đặt uv: Đầu tiên, bạn cần cài đặt uv bằng lệnh sau: curl -LsSf https://astral.sh/uv/install.sh | sh. Lệnh này sẽ tự động tải và cài đặt uv vào hệ thống của bạn.
Bước 2: Tạo môi trường ảo và cài đặt VLLM: Tạo một môi trường ảo giúp các thư viện của bạn không bị lẫn lộn với các dự án khác.
- uv venv vllm-env
- source vllm-env/bin/activate
- uv pip install –pre vllm –extra-index-url https://wheels.vllm.ai

Các lệnh trên sẽ tạo một môi trường ảo, kích hoạt nó, và cài đặt VLLM cùng các thư viện phụ thuộc. Lưu ý rằng chúng ta dùng –pre để cài phiên bản VLLM mới nhất, vì nó có hỗ trợ đặc biệt cho mô hình này.
IV. Khởi chạy máy chủ mô hình
Sau khi đã cài đặt xong, bạn có thể khởi động máy chủ để chạy mô hình. Lần đầu tiên chạy, VLLM sẽ tự động tải mô hình từ Hugging Face. Lệnh khởi động máy chủ VLLM như sau: vllm serve openai/gpt-oss-120b –model openai/gpt-oss-120b
Khi bạn chạy lệnh này lần đầu:
- VLLM sẽ bắt đầu tải xuống mô hình GPT-OSS-120B. Các tệp này có dung lượng lớn, khoảng 120GB, nên quá trình này có thể mất một thời gian.
- Sau khi tải xong, VLLM sẽ tải mô hình vào VRAM của GPU. Quá trình này sẽ tiêu thụ hơn 64GB VRAM.
- Khi thấy thông báo “Uvicorn running on http://127.0.0.1:8000…”, tức là máy chủ của bạn đã sẵn sàng hoạt động!

V. Kiểm tra và đánh giá mô hình
Sau khi cài đặt xong, bạn có thể kiểm tra khả năng của mô hình bằng cách gửi các yêu cầu suy luận (inference) đến endpoint cục bộ.
1. Suy luận với một tập lệnh Python
Bạn có thể sử dụng một tập lệnh Python đơn giản để gửi yêu cầu đến máy chủ VLLM. Cụ thể như sau:
import openai
client = openai.OpenAI(base_url=”http://127.0.0.1:8000/v1″, api_key=”EMPTY”)
completion = client.chat.completions.create(
model=”openai/gpt-oss-120b”,
messages=[
{“role”: “user”, “content”: “What is the capital of France?”}
]
)
print(completion.choices[0].message.content)
Sau đó, bạn chỉ cần chạy tệp này trong Terminal: python test.py

2. Sử dụng curl
Nếu bạn muốn kiểm tra nhanh, có thể dùng lệnh curl trực tiếp từ Terminal:
curl -X POST http://127.0.0.1:8000/v1/chat/completions \
-H “Content-Type: application/json” \
-d ‘{
“model”: “openai/gpt-oss-120b”,
“messages”: [
{
“role”: “user”,
“content”: “Viết một đoạn văn ngắn về tầm quan trọng của AI trong cuộc sống hiện đại.”
}
],
“temperature”: 0.7
}’
Như vậy, chỉ với lệnh từ curl bạn có thể dễ dàng kiểm tra độ chính xác, nhanh nhạy của mô hình GPT-OSS-120B vừa được khởi tạo.
VI. Một số khả năng nổi bật của mô hình GPT-OSS-120B
Qua các thử nghiệm, GPT-OSS-120B đã chứng minh được nhiều khả năng vượt trội:
- Lý luận: Mô hình cung cấp một câu trả lời toàn diện và chi tiết cho một câu hỏi phức tạp về lượng tử hóa MXFP4.
- Lập trình: GPT-OSS-120B có thể tạo ra một tệp HTML tương tác với hoạt hình tên lửa p5.js, cho thấy khả năng lập trình tốt.
- Tuân thủ hướng dẫn: Khi được hỏi một câu hỏi mang tính cá nhân, mô hình không đưa ra một câu trả lời chung chung mà thay vào đó cung cấp một kế hoạch cụ thể và khả thi.
- “Hàng rào bảo vệ” (Guardrails): Khi nhận được một lời nhắc tinh nghịch, mô hình vẫn xử lý một cách chuyên nghiệp, xác định đúng bản chất vui tươi của câu hỏi và đưa ra câu trả lời tôn trọng mà không bị gò bó.
- Toán học: Mô hình giải thành công một bài toán vi tích phân phức tạp, cung cấp các bước giải chi tiết, bao gồm cả việc kiểm tra các định lý khác nhau.
- Đa ngôn ngữ: Nó có thể dịch chính xác một câu sang nhiều ngôn ngữ hàng đầu thế giới.

VII. Tổng kết
Với việc phát hành GPT-OSS-120B, OpenAI đã mở ra một kỷ nguyên mới cho trí tuệ nhân tạo mã nguồn mở – nơi bất kỳ ai cũng có thể tiếp cận và vận hành một mô hình cực mạnh tương đương với những gì đang được sử dụng trên các nền tảng AI cao cấp. Dù GPT-OSS-120B có kích thước “khổng lồ”, bạn hoàn toàn có thể cài đặt và chạy nó cục bộ nếu chuẩn bị đầy đủ phần cứng, hoặc biết cách tối ưu như nén mô hình, chia nhỏ, hoặc offload thông minh. Hãy bắt tay vào cài đặt và khám phá khả năng của GPT‑OSS‑120B – cỗ máy AI thông minh, tự do và hoàn toàn nằm trong tầm tay bạn.
Bài viết liên quan:






