Microsoft vừa phát hành công cụ mới: MarkItDown
Microsoft vừa phát hành công cụ mới: MarkItDown vào tháng trước - Chuyển đổi mọi tài liệu sang Markdown chỉ với vài dòng code
- TechMagus
- 1 min read
Hướng dẫn viết Markdown chuẩn SEO trong Hugo
1. Mở đầu
🚀 Microsoft vừa phát hành công cụ mới: MarkItDown vào tháng trước - Chuyển đổi mọi tài liệu sang Markdown chỉ với vài dòng code
- Tóm tắt công dụng của MarkItDown (hơn 51k star trên Github):
- Chuyển đổi tự động file Word, PDF, PowerPoint, HTML, … sang Markdown
- Giữ nguyên cấu trúc tài liệu gốc (tiêu đề, bảng, code blocks, danh sách)
- Xử lý hàng loạt file cùng lúc với API đơn giản
- Tối ưu hóa kết quả cho việc huấn luyện mô hình ngôn ngữ
- Trước đây, các developer phải:
- Sử dụng nhiều công cụ riêng lẻ: Pandoc cho Word, PyPDF2 cho PDF (mất cấu trúc), …
- Viết scripts phức tạp để tiền xử lý từng loại tài liệu, 7749 cái regex lồng lộn, …
- Chấp nhận lỗi định dạng khi chuyển đổi tài liệu phức tạp: Text lộn xộn, mất format Với MarkItDown bạn chỉ cần: markdown = md.convert(“document.pdf”) với độ chính xác cao. Thư viện này đặc biệt hữu ích khi làm việc với NLP, xử lý văn bản, huấn luyện AI, hoặc bất kỳ ai cần chuyển đổi tài liệu sang định dạng dễ xử lý. #200lab #technews #repository #markitdown #Microsoft