🚀 MarkItDown – chuyển mọi tài liệu sang Markdown chỉ với vài dòng code
Microsoft vừa tung ra MarkItDown – thư viện mã nguồn mở giúp tự động chuyển đổi Word, PDF, PowerPoint, HTML… sang Markdown, giữ nguyên cấu trúc gốc và cực kỳ hữu ích cho NLP, huấn luyện AI.
- TechMagus
- 2 min read
TL;DR MarkItDown là thư viện mã nguồn mở của Microsoft (hơn 51 000★ trên GitHub) giúp chuyển Word / PDF / PowerPoint / HTML / … thành Markdown giữ nguyên tiêu đề, bảng, code block, danh sách & hỗ trợ batch convert.
1. MarkItDown làm được gì?
- Tự động chuyển đổi Word, PDF, PowerPoint, HTML … sang Markdown chỉ với một lệnh.
- Giữ nguyên cấu trúc tài liệu gốc: tiêu đề, bảng, code block, danh sách, chú thích…
- Xử lý hàng loạt (batch) qua API đơn giản – lý tưởng cho pipeline dữ liệu lớn.
- Tối ưu hoá output cho huấn luyện mô hình ngôn ngữ (LLM, RAG, v.v.).
import markitdown as md
markdown = md.convert("document.pdf") # done! 💫
2. Nỗi đau cũ của developer
| Trước MarkItDown | Hệ quả |
|---|---|
| Dùng Pandoc cho Word, PyPDF2 cho PDF (mất cấu trúc) | Quy trình rời rạc & khó bảo trì |
| Tự viết script + 7749 regex tiền xử lý | Dễ bug, tốn thời gian |
| Chấp nhận mất định dạng với tài liệu phức tạp | Dữ liệu huấn luyện kém chất lượng |
3. Vì sao đáng để thử?
- Speed-to-Markdown: vài giây là có ngay file
.mdsạch. - Plug-and-play: chỉ cần
pip install markitdown. - Giảm 90% code chuyển đổi, tập trung vào giá trị cốt lõi.
- Open-source dưới giấy phép MIT – dễ tích hợp vào sản phẩm nội bộ.
4. Cài đặt & dùng thử nhanh
pip install markitdown
from markitdown import convert_folder
# Chuyển toàn bộ thư mục .docx & .pdf sang Markdown
convert_folder("raw_docs/", out_dir="markdown/")
5. Tài nguyên
🔗 Repo: https://github.com/microsoft/markitdown
🔗 Nguồn bài viết: https://www.facebook.com/edu.200lab/posts/pfbid02bnSd1q25kjMoLwoTMvpLVevnQSMXPcQhw4TKCRjpZt5M8TSrULyGf1kYDpFcEDrjl
Bạn đã thử MarkItDown chưa? Chia sẻ kinh nghiệm của bạn ở phần bình luận nhé!
#200lab #technews #repository #markitdown #Microsoft