Using LLMs for Data Analysis: Complete Workflow with PandasAI, Code Interpreter & OpenAI

{</* resource-info */>}

Large Language Models (LLMs) đang thay đổi cách chúng ta tiếp cận phân tích dữ liệu. Thay vì viết hàng trăm dòng code Python để khám phá dữ liệu, giờ đây chúng ta có thể đặt câu hỏi bằng ngôn ngữ tự nhiên và nhận được câu trả lờI kèm visualization. Xu hướng conversational data analysis — phân tích dữ liệu qua hội thoại — đang trở thành hiện thực nhờ các công cụ như PandasAI, ChatGPT Code Interpreter, và OpenAI API.

Bài viết này cung cấp hướng dẫn toàn diện về cách sử dụng LLM trong workflow phân tích dữ liệu, so sánh các công cụ chính, và đưa ra best practices để đảm bảo kết quả chính xác và đáng tin cậy.

LLM Đang Thay Đổi Phân Tích Dữ Liệu Như Thế Nào? #

Cuộc chuyển dịch từ code-first sang conversation-first trong phân tích dữ liệu bắt đầu từ khi GPT-4 và các model tương đương xuất hiện vào năm 2023. Các khả năng mới bao gồm:

Natural language to SQL/Python: Chuyển câu hỏi tiếng Anh thành truy vấn SQL hoặc code Python
Automated visualization: Tự động tạo biểu đồ phù hợp từ mô tả bằng ngôn ngữ tự nhiên
Insight generation: Phát hiện patterns, outliers, và correlations
Data cleaning suggestions: Đề xuất cách xử lý missing values, duplicates, và format issues

Tuy nhiên, LLM không phải không có hạn chế. Vấn đề hallucination — LLM tạo ra code không chính xác hoặc phân tích sai — vẫn là rủi ro lớn nhất. Một nghiên cứu năm 2024 từ Đại học Pennsylvania cho thấy GPT-4 tạo ra code có lỗi trong khoảng 15-20% các trường hợp phân tích dữ liệu phức tạp.

Vì vậy, cách tiếp cận đúng đắn là kết hợp LLM với kiểm tra con ngườI, không hoàn toàn phụ thuộc vào AI.

PandasAI: Phân Tích Dữ Liệu Bằng Hội Thoại #

PandasAI là thư viện mã nguồn mở thêm khả năng AI sinh tạo vào Pandas DataFrame, cho phép bạn tương tác với dữ liệu bằng ngôn ngữ tự nhiên thay vì code thuần túy.

Thiết Lập Và Sử Dụng Cơ Bản #

a
s
h
# Cài đặt
pip install pandasai

h
o
n
import pandas as pd
from pandasai import SmartDataframe

# Load dữ liệu
df = pd.read_csv('sales_data.csv')

# Chuyển thành SmartDataframe với LLM backend
sdf = SmartDataframe(df, config={
    "llm": "openai",  # Hoặc "ollama", "local" với LM Studio
    "api_key": "sk-..."
})

# Truy vấn bằng ngôn ngữ tự nhiên
result = sdf.chat("Tổng doanh thu theo từng tháng là bao nhiêu?")
print(result)

# Tạo biểu đồ tự động
sdf.chat("Vẽ biểu đồ đường thể hiện doanh thu theo thờI gian")

# Truy vấn phức tạp hơn
sdf.chat("So sánh doanh thu Q1 và Q2, chỉ ra top 5 sản phẩm tăng trưởng mạnh nhất")

Tính Năng Nâng Cao CủA PandasAI #

Từ phiên bản 2.0, PandasAI cung cấp Agent mode cho các tác vụ phức tạp đòi hỏi nhiều bước suy luận:

h
o
n
from pandasai import Agent

agent = Agent([df1, df2], config={"llm": "openai"})

# Agent có thể reasoning qua nhiều bước
response = agent.chat(
    "Tìm correlation giữa doanh thu trong df1 và chi phí marketing trong df2, "
    "sau đó vẽ scatter plot với regression line"
)

PandasAI còn hỗ trợ:

Custom instructions: Định nghĩa prompt template riêng
Skill definitions: Thêm hàm tùy chỉnh cho LLM sử dụng
Cache control: Lưu cache kết quả để tránh gọi API lặp lại
BambooLLM: Model LLM chuyên dụng cho phân tích dữ liệu, miễn phí sử dụng cơ bản

Sử Dụng PandasAI Với Local LLMs #

Đối với dữ liệu nhạy cảm, bạn có thể sử dụng local LLMs thay vì OpenAI:

h
o
n
# Với Ollama (chạy local)
sdf = SmartDataframe(df, config={
    "llm": "ollama",
    "model": "llama3.1: 8b"
})

# Hoặc với LM Studio
sdf = SmartDataframe(df, config={
    "llm": "local",
    "api_base": "http://localhost: 1234/v1"
})

Kết Nối Với SQL Databases #

PandasAI có thể kết nối trực tiếp với SQL databases:

h
o
n
from pandasai import SmartDatalake
from sqlalchemy import create_engine

engine = create_engine('postgresql: //user: pass@localhost/db')
sql_df = SmartDatalake([], config={"llm": "openai", "connection": engine})

result = sql_df.chat("Tổng doanh thu theo từng vùng từ bảng orders")

ChatGPT Code Interpreter: Phân Tích Dữ Liệu Không Cần Code #

Code Interpreter (nay đổI tên thành Advanced Data Analysis) là tính năng tích hợp trong ChatGPT Plus ($20/tháng), cho phép ChatGPT thực thi code Python trực tiếp để phân tích dữ liệu.

Workflow Thực Tế #

Upload file: Kéo thả file CSV, Excel, hoặc database vào chat
Yêu cầu phân tích: “Phân tích tổng quan về dữ liệu này”
Xem kết quả: ChatGPT tự động tạo summary statistics, distributions, và visualizations
Đào sâu: “Cho tôi biết xu hướng doanh thu theo quý”
Xuất kết quả: Tải về file Excel, hình ảnh, hoặc code Python đã tạo

Tips Sử Dụng Code Interpreter Hiệu Quả #

Prompt cụ thể: Thay vì “phân tích dữ liệu”, hãy nói “so sánh doanh thu Q1 và Q2, tính % tăng trưởng, và vẽ bar chart”
Kiểm tra kết quả: Luôn xem lại code Python được tạo ra để đảm bảo logic đúng
File lớn: Code Interpreter có giới hạn khoảng 100MB cho file upload; với file lớn hơn, cần chia nhỏ hoặc dùng API
Kết hợp code tùy chỉnh: Bạn có thể yêu cầu ChatGPT chạy code cụ thể mà bạn cung cấp

Code Interpreter Phù Hợp Với Ai? #

Non-programmers: NgườI không biết code muốn phân tích dữ liệu nhanh
Quick explorations: Khám phá dữ liệu ad-hoc không cần thiết lập môi trường
Presentation-ready charts: Biểu đồ đẹp, sẵn sàng cho báo cáo
Learning: Học cách viết code phân tích dữ liệu bằng cách xem code ChatGPT tạo ra

OpenAI API: Phân Tích Dữ Liệu Lập Trình #

Khi cần tích hợp LLM vào ứng dụng hoặc pipeline production, OpenAI API là lựa chọn phù hợp hơn các công cụ trên.

Function Calling Cho Kết Quả Có Cấu Trúc #

Function calling cho phép LLM trả về kết quả theo schema định sẵn:

h
o
n
from openai import OpenAI
import json

client = OpenAI()

# Định nghĩa schema kết quả
functions = [{
    "name": "analyze_data",
    "parameters": {
        "type": "object",
        "properties": {
            "summary": {"type": "string"},
            "key_metrics": {
                "type": "array",
                "items": {"type": "object", "properties": {
                    "metric": {"type": "string"},
                    "value": {"type": "number"}
                }}
            },
            "anomalies": {"type": "array", "items": {"type": "string"}},
            "recommendations": {"type": "array", "items": {"type": "string"}}
        }
    }
}]

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": f"Phân tích dữ liệu sau: {data_summary}"
    }],
    functions=functions,
    function_call={"name": "analyze_data"}
)

result = json.loads(response.choices[0].message.function_call.arguments)

Assistants API Với Code Interpreter Tool #

h
o
n
from openai import OpenAI

client = OpenAI()

# Tạo assistant với code interpreter
assistant = client.beta.assistants.create(
    model="gpt-4o",
    tools=[{"type": "code_interpreter"}],
    instructions="Bạn là chuyên gia phân tích dữ liệu. Hãy phân tích dữ liệu được cung cấp một cách chi tiết."
)

# Upload file
file = client.files.create(file=open("data.csv", "rb"), purpose='assistants')

# Tạo thread và chạy
thread = client.beta.threads.create()
message = client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content="Phân tích tổng quan dữ liệu này và tạo các visualization",
    file_ids=[file.id]
)

run = client.beta.threads.runs.create(
    thread_id=thread.id,
    assistant_id=assistant.id
)

Chi Phí Sử Dụng OpenAI API #

|———–

|————-

Với một file CSV 50MB (~500K tokens), một lần phân tích với GPT-4o có thể tốn khoảng $2.5-$5.

Xây Dựng Pipeline Phân Tích Dữ Liệu Với LLM #

Kiến Trúc Pipeline Đề Xuất #

┌──────────────┐    ┌──────────────┐    ┌──────────────┐
│   Data       │───▶│   LLM        │───▶│  Validation  │
│   Ingestion  │    │  Processing  │    │  & Review    │
└──────────────┘    └──────────────┘    └──────┬───────┘
                                                │
                                          ┌─────▼───────┐
                                          │   Human     │
                                          │   Review    │
                                          └─────┬───────┘
                                                │
                                          ┌─────▼───────┐
                                          │   Output    │
                                          └─────────────┘

Best Practices Cho Pipeline LLM-Powered #

Luôn validate kết quả: LLM có thể sai — so sánh kết quả với phân tích truyền thống
Sử dụng deterministic prompts: Thiết kế prompt rõ ràng, có cấu trúc để giảm thiểu hallucination
Giới hạn scope: Mỗi lần gọi LLM nên xử lý một tác vụ cụ thể, không quá rộng
Logging đầy đủ: Ghi lại prompt, response, và context để audit
Fallback mechanism: Nếu LLM trả về lỗi, có phương án dự phòng

So Sánh: Khi Nào Dùng Công Cụ Nào? #

|———-

|——————

|————

Bảo Mật, Quyền Riêng Tư Và Chi Phí #

Bảo Mật Dữ Liệu #

Khi sử dụng LLM cloud (OpenAI, ChatGPT), dữ liệu của bạn được gửi đến servers của nhà cung cấp. Mặc dù OpenAI tuyên bố không sử dụng dữ liệu API để train model từ tháng 3/2023, nhưng ChatGPT web/app có chính sách khác.

Quy tắc vàng: Không upload dữ liệu chứa PII (Personally Identifiable Information) hoặc thông tin nhạy cảm lên ChatGPT web. Sử dụng OpenAI API với zero data retention hoặc local LLMs cho dữ liệu nhạy cảm.

Tuân Thủ Quy Định #

GDPR: Dữ liệu cá nhân EU không nên gửi lên LLM cloud
HIPAA: Dữ liệu y tế yêu cầu BAAs — hầu hết LLM providers chưa hỗ trợ
SOC 2: OpenAI API đạt SOC 2 Type 2 từ năm 2024

Chi Phí Thực Tế #

Với 1 analyst phân tích dữ liệu 5 ngày/tuần, 4 tuần/tháng:

ChatGPT Plus: $20/tháng (không giới hạn sử dụng)
OpenAI API (GPT-4o-mini): $10-30/tháng tùy khối lượng
OpenAI API (GPT-4o): $50-200/tháng
Local LLM (Llama 3.1 8B): Chi phí GPU one-time ($500-2000)

Tương Lai CủA AI-Assisted Data Science #

Lĩnh vực này đang phát triển rất nhanh. Các xu hướng đáng chú ý:

Multi-agent frameworks: Các agent chuyên biệt (một agent làm sạch dữ liệu, một agent phân tích, một agent visualization) hợp tác với nhau
Autonomous data science: Các công cụ như AutoKaggle tự động tham gia competitions
AI-generated reports: Tự động tạo báo cáo phân tích hoàn chỉnh với narrative và visualization
Real-time analysis agents: Agent theo dõi dữ liệu real-time và cảnh báo khi có anomalies
BI integration: Tích hợp với Tableau, Power BI, Looker để tạo dashboard bằng ngôn ngữ tự nhiên

Câu Hỏi Thường Gặp #

LLM Có Thể Thay Thế Data Analyst Không? #

Không trong tương lai gần. LLM là công cụ amplification — giúp analyst làm việc nhanh hơn 2-3x, nhưng không thể thay thế:

Hiểu biết domain để đặt câu hỏi đúng
Đánh giá tính hợp lý của kết quả
Giao tiếp insights với stakeholders
Thiết kế experiments và A/B tests

Vai trò của data analyst sẽ chuyển từ “viết code” sang “đặt câu hỏi đúng và kiểm chứng kết quả”.

PandasAI Có Miễn Phí Không? #

PandasAI có tier miễn phí với BambooLLM — LLM chuyên dụng của PandasAI cho phân tích dữ liệu. Tuy nhiên, tier miễn phí có giới hạn số lượng requests. Để sử dụng không giới hạn, cần subscribe plan trả phí hoặc sử dụng OpenAI API key riêng.

ChatGPT Code Interpreter Có Chính Xác Không? #

Với dữ liệu đơn giản (summary statistics, basic charts), Code Interpreter đạt độ chính xác khoảng 85-90%. Tuy nhiên, với phân tích phức tạp (statistical tests, causal inference, advanced ML), tỷ lệ lỗi tăng lên 20-30%. Luôn kiểm tra kết quả trước khi đưa vào báo cáo quan trọng.

Có Thể Dùng Local LLM Cho Dữ Liệu Nhạy Cảm Không? #

Có, đây là cách tiếp cận được khuyến nghị cho dữ liệu nhạy cảm:

Ollama: Chạy Llama 3.1, Mistral, CodeLlama locally
LM Studio: Giao diện đồ họa để chạy local LLMs
vLLM: Tối ưu throughput cho production local deployment

Code Llama 7B/13B hoặc DeepSeek-Coder 6.7B có khả năng phân tích dữ liệu tốt ở mức cơ bản, dù không bằng GPT-4o.

Chi Phí Sử Dụng OpenAI API Cho Phân Tích Dữ Liệu Là Bao Nhiêu? #

Phụ thuộc vào tần suất và độ phức tạp:

Phân tích cơ bản hàng tuần: $10-30/tháng với GPT-4o-mini
Phân tích chuyên sâu hàng ngày: $50-200/tháng với GPT-4o
Batch processing lớn: $200-500/tháng
So với nhân sự: Chi phí API thường < 1% lương data analyst full-time

Kết Luận #

LLM đang trở thành công cụ không thể thiếu trong workflow phân tích dữ liệu hiện đại. Sự kết hợp giữa PandasAI (cho Python developers), Code Interpreter (cho non-programmers), và OpenAI API (cho production) tạo ra một hệ sinh thái toàn diện cho conversational data analysis.

Để bắt đầu:

Thử PandasAI với BambooLLM miễn phí cho các tác vụ cơ bản
Sử dụng ChatGPT Plus ($20/tháng) cho phân tích nhanh không cần thiết lập
Chuyển sang OpenAI API khi cần tích hợp vào ứng dụng
Sử dụng local LLMs (Ollama, LM Studio) cho dữ liệu nhạy cảm

Quan trọng nhất: LLM là công cụ hỗ trợ, không phải thay thế. Sự kết hợp giữa khả năng của AI và kiểm chứng của con ngườI sẽ cho ra kết quả tốt nhất.

Tài Liệu Tham Khảo #

PandasAI Documentation — Tài liệu chính thức PandasAI
OpenAI API Documentation — API reference và guides
OpenAI Assistants API — Tích hợp Code Interpreter programmatically
Python Documentation — Tham khảo ngôn ngữ Python
PandasAI GitHub — Mã nguồn và issues

Hạ Tầng Đề Xuất #

Để chạy các công cụ trên 24/7 ổn định, lựa chọn hạ tầng rất quan trọng:

DigitalOcean — $200 tín dụng miễn phí 60 ngày, 14+ region toàn cầu.
HTStack — VPS Hong Kong, độ trễ thấp. dibi8.com cũng host ở đây.
Hostinger — VPS giá tốt cho thị trường Việt Nam.

Đây là affiliate link, không tăng chi phí của bạn nhưng giúp dibi8.com duy trì hoạt động.