目录

Python计算生态中那些著名的库 - 文本处理

PyPDF2

用来处理 PDF 文件的工具集

提供了一批处理PDF文件的计算功能,支持获取信息、分隔/整合文件、加密解密等,完全 Python 语言实现,不需要额外依赖,功能稳定

官方网站:mstamy2.github.io/PyPDF2

NLTK

自然语言文本处理第三方库

提供了一批简单易用的自然语言文本处理功能,支持语言文本分类、标记、语法句法、语义分析等,是最优秀的 Python 自然语言处理库

官方网站:www.nltk.org

Python-docx

创建或更新 Microsoft Word 文件的第三方库

提供创建或更新 .doc .docx 等文件的计算功能,增加并配置段落、图片、表格、文字等功能

官方网站:python-docx.readthedocs.io/en/latest/index.html

Gensim

用于主题建模、文档索引和相似性检索的第三方库

提供了一批文本处理功能,支持主题建模、文档索引和相似性检索等,基于 NumPy 和 SciPy 开发

官方网站:radimrehurek.com/gensim