「 OTHERS 」 九月 28, 2024
比较两个相似 PDF 文件的内容差异
文章字数 3.5k 阅读约需 3 mins.
本文给出两个比较相似 PDF 文件内容差异的方法,
以 《Understanding DeepLearning (5 August 2024)》
和 《Understanding DeepLearning (28 August 2024)》
为例进行对比。
此方法引自 Python对比PDF文件并生成对比文件。
先用 PyMuPDF 提取 PDF 文件中的文字内容,再通过 difflib 模块输出差异内容。
安装依赖:
pip install PyMuPDF
将以下代码保存至 compare_diff...