GPT-OSS là mô hình ngôn ngữ mã nguồn mở mạnh mẽ từ OpenAI vừa ra mắt, cho phép chạy cục bộ, tinh chỉnh linh hoạt và sử dụng thương mại miễn phí. Với hai phiên bản 20B và 120B, mô hình này phù hợp cho cả cá nhân và doanh nghiệp muốn khai thác AI mà không phụ thuộc vào cloud. Bài viết dưới đây sẽ hướng dẫn chi tiết cách triển khai GPT-OSS với Ollama, llama.cpp và cách tinh chỉnh hiệu quả. Hãy cùng Phong Vũ Tech News khám phá ngay nhé!
I. GPT-OSS là gì?
1. Tổng quan về GPT-OSS
GPT-OSS là một dòng mô hình ngôn ngữ lớn (LLM) mã nguồn mở do OpenAI giới thiệu vào ngày 05/08/2025, sử dụng giấy phép Apache 2.0. Mô hình cung cấp trọng số mở (open weights), tức là người dùng có thể tải về, chỉnh sửa và triển khai theo nhu cầu mà không bị ràng buộc bản quyền.
Hiện GPT-OSS có hai phiên bản:
- gpt-oss-20b: Gồm 21 tỉ tham số, cần tối thiểu 16GB RAM, chạy tốt trên các dòng laptop cao cấp hoặc PC mạnh.
- gpt-oss-120b: Gồm 117 tỉ tham số, yêu cầu GPU H100 hoặc VRAM 80GB phù hợp với máy trạm chuyên dụng.
Điểm nổi bật của GPT-OSS so với các mô hình thương mại nằm ở tính minh bạch, khả năng kiểm soát toàn diện và mức độ tùy biến cao. Người dùng có thể triển khai mô hình hoàn toàn nội bộ, không cần kết nối internet, rất phù hợp với các ứng dụng đòi hỏi bảo mật cao.
Hai phiên bản của GPT-OSS (Nguồn: Internet)
2. Ứng dụng điển hình
GPT-OSS được sử dụng trong nhiều lĩnh vực:
- Tạo chatbot nội bộ hoặc tổng đài trả lời tự động.
- Phân tích dữ liệu và tự động hóa quy trình làm việc.
- Hỗ trợ viết mã, kiểm tra lỗi hoặc huấn luyện các mô hình chuyên biệt.
Mô hình đặc biệt hữu ích với các doanh nghiệp muốn tích hợp AI vào sản phẩm mà không phụ thuộc vào dịch vụ cloud.
Xem thêm: ChatGPT tặng miễn phí model AI GPT OSS, sức mạnh ngang ngửa GPT-4o
II. Cách chạy GPT-OSS với Ollama
Ollama là công cụ đơn giản nhất để triển khai GPT-OSS trên máy cá nhân, giúp tối ưu hóa việc chạy các mô hình LLM mã nguồn mở mà không cần nhiều thao tác phức tạp.
Bước 1: Cài đặt Ollama
Truy cập ollama.com và tải phiên bản phù hợp cho hệ điều hành (Windows, macOS, Linux).
Kiểm tra phiên bản để xác nhận cài đặt thành công: ollama –version
Quá trình cài đặt chỉ mất vài phút và không cần chỉnh sửa hay thiết lập gì thêm.
Bước 2: Tải và khởi chạy GPT-OSS
Để tải và chạy mô hình gpt-oss-20b, sử dụng lệnh: ollama run gpt-oss-20b
Mô hình 20B có dung lượng khoảng 13GB, thời gian tải phụ thuộc vào tốc độ mạng. Sau khi tải xong, Ollama chuyển sang chế độ trò chuyện. Người dùng nhập prompt trực tiếp và nhận phản hồi tương tự chatbot.
Giao diện GPT-OSS (Nguồn: Internet)
Bước 3: Tùy chỉnh mô hình
Ollama cho phép tùy chỉnh hành vi mô hình thông qua file .modelfile. Người dùng có thể điều chỉnh:
- Tone và ngôn ngữ: Ví dụ, yêu cầu trả lời bằng tiếng Việt, phong cách thân thiện.
- Prompt hệ thống: Định hướng nội dung trả lời.
Các tham số quan trọng:
- –temperature: Điều chỉnh độ sáng tạo (0.2 cho câu trả lời chính xác, 1.0 cho sáng tạo).
- –top-p: Kiểm soát độ đa dạng của phản hồi (khuyến nghị 0.9).
Ví dụ lệnh tùy chỉnh: ollama run gpt-oss-20b –temperature 0.2 –top-p 0.9 “Viết giới thiệu về GPT-OSS”
Để tích hợp vào ứng dụng, chạy chế độ API: ollama serve
API trên hoạt động tương tự OpenAI API,nhưng chạy hoàn toàn trên máy cá nhân, giúp đảm bảo dữ liệu luôn được giữ kín và an toàn tuyệt đối.
III. Chạy GPT-OSS với llama.cpp
Llama.cpp là công cụ mạnh mẽ để tối ưu hiệu suất GPT-OSS trên phần cứng chuyên dụng, hỗ trợ tốc độ cao và tiết kiệm tài nguyên.
Bước 1: Chuẩn bị môi trường
Cài đặt các thư viện cần thiết trên Linux:
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
Clone và cấu hình llama.cpp với hỗ trợ CUDA:
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake –build llama.cpp/build –config Release -j –clean-first –target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
Bước 2: Tải mô hình GGUF
Tải mô hình từ Hugging Face bằng Python:
pip install huggingface_hub hf_transfer
import os
os.environ[“HF_HUB_ENABLE_HF_TRANSFER”] = “1”
from huggingface_hub import snapshot_download
snapshot_download(repo_id=”unsloth/gpt-oss-20b-GGUF”, local_dir=”unsloth/gpt-oss-20b-GGUF”, allow_patterns=[“F16”])
Khuyến nghị dùng phiên bản quantized (2bit/4bit) để giảm dung lượng và yêu cầu phần cứng, chỉ mất ít độ chính xác so với bản F16.
GPT-OSS là mô hình ngôn ngữ LLM của OpenAI (Nguồn: Internet)
Bước 3: Chạy mô hình
Chạy gpt-oss-20b:
./llama.cpp/llama-cli -hf unsloth/gpt-oss-20b-GGUF:F16 –jinja -ngl 99 –threads -1 –ctx-size 16384 –temp 1.0 –top-p 1.0 –top-k 0
Chạy gpt-oss-120b:
./llama.cpp/llama-cli –model unsloth/gpt-oss-120b-GGUF/gpt-oss-120b-F16.gguf –threads -1 –ctx-size 16384 –n-gpu-layers 99 -ot “.ffn_.*_exps.=CPU” –temp 1.0 –min-p 0.0 –top-p 1.0 –top-k 0
Tùy chọn tối ưu:
- –n-gpu-layers NN: Offload lớp MoE lên GPU (giảm nếu VRAM thấp).
- -ot “.ffn_.*_exps.=CPU”: Chuyển MoE layers sang CPU để tiết kiệm VRAM.
- Quantize KV cache xuống 4 bit để giảm bộ nhớ.
IV. Tinh chỉnh (fine-tune) GPT-OSS
Fine-tuning giúp tối ưu GPT-OSS cho nhu cầu cụ thể, như tài liệu ngành hoặc hỗ trợ nội bộ đòi hỏi dữ liệu phù hợp và công cụ chuyên dụng.
1. Công cụ hỗ trợ fine-tuning
Các công cụ phổ biến:
- Hugging Face Transformers: Hỗ trợ fine-tuning với dữ liệu tùy chỉnh.
- Unsloth: Đang cập nhật hỗ trợ chính thức cho GPT-OSS.
- Weights & Biases: Theo dõi hiệu suất fine-tuning.
Unsloth hiện là lựa chọn tiềm năng, nhưng cần theo dõi tài liệu mới nhất tại Unsloth.
Phiên bản gpt-oss-20b (Nguồn: Internet)
2. Quy trình fine-tuning
- Tuân thủ Harmony format của OpenAI để tối ưu khả năng suy luận.
- Chuẩn bị dữ liệu: Tập hợp tài liệu chuyên ngành hoặc câu hỏi-tham chiếu.
- Test kỹ các thiết lập: Điều chỉnh prompt hệ thống, kiểm soát an toàn đầu ra.
- Luôn kiểm tra đầu ra sau fine-tuning để đảm bảo an toàn và chính xác.
V. Yêu cầu cấu hình
Để chạy GPT-OSS hiệu quả, cần đáp ứng yêu cầu phần cứng và cấu hình tham số phù hợp.
1. Yêu cầu phần cứng
| Mô hình | RAM/VRAM tối thiểu | Ghi chú |
| gpt-oss-20b | 14GB | Tốc độ ~6 token/giây |
| gpt-oss-120b | 66GB | Cần GPU H100 hoặc VRAM 80GB |
Lưu ý: Có thể chạy với bộ nhớ thấp hơn, nhưng tốc độ suy luận giảm đáng kể.
2. Cấu hình tham số inference
| Tham số | Giá trị khuyến nghị | Mô tả |
| temperature | 1.0 | Độ sáng tạo |
| top_p | 1.0 | Độ đa dạng |
| top_k | 0 | Lựa chọn token |
| ctx-size | 16,384 – 131,072 | Độ dài ngữ cảnh |
VI. Lưu ý khi sử dụng GPT-OSS
GPT-OSS là giải pháp AI mã nguồn mở chạy hoàn toàn cục bộ, giúp đảm bảo bảo mật tối đa khi không gửi dữ liệu ra ngoài. Đây là lựa chọn lý tưởng cho các tổ chức cần tuân thủ nghiêm ngặt về quyền riêng tư như tài chính, y tế, khi toàn bộ dữ liệu được xử lý ngay trên thiết bị người dùng.
Mô hình hỗ trợ tích hợp linh hoạt qua command line, API REST hoặc WebUI, dễ dàng triển khai vào chatbot, ứng dụng doanh nghiệp hoặc sản phẩm thương mại. Với giấy phép Apache 2.0, người dùng được toàn quyền tùy chỉnh và thương mại hóa.
Tuy nhiên, cần lưu ý về phần cứng: bản 20B chạy tốt trên máy cá nhân, trong khi bản 120B yêu cầu máy trạm hiệu năng cao. Sau khi tinh chỉnh, cần kiểm soát đầu ra để đảm bảo chất lượng nội dung. Việc theo dõi tài liệu từ Ollama và Unsloth sẽ giúp khai thác mô hình hiệu quả hơn.
VII. Tổng kết
GPT-OSS đơn giản hóa việc tiếp cận AI bằng cách cho phép vận hành cục bộ, tùy chỉnh linh hoạt và không cần phụ thuộc cloud. Mô hình phù hợp cho nhiều đối tượng, từ cá nhân học tập đến doanh nghiệp cần bảo mật cao, đồng thời giúp tiết kiệm chi phí đáng kể. Đừng quên đón đọc Phong Vũ Tech News để không bỏ lỡ những cập nhật mới nhất về xu hướng AI và tin tức công nghệ mới nhất nhé!
Nguồn: Unsloth
Bài viết liên quan:







