当前位置:网站首页>“Ran out of input” while use WikiExtractor

“Ran out of input” while use WikiExtractor

2022-06-09 05:18:00 kaims

当使用Wikipedia Extractor(GitHub - attardi/wikiextractor: A tool for extracting plain text from Wikipedia dumps)工具处理所下载的wiki dump文件(https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2)时,当我执行python命令:

python Wikiextractor.py -b 10M -o zh_extracted zhwiki-latest-pages-articles.xml.bz2

时,出现了

EOFError: Ran out of input

的错误。

经过百度和google,在wikidata - "EOFError: Ran out of input" while use Wikipedia Extractor as a parser for Wikipedia Data Dump File - Stack Overflow中找到了解决方法:可能是因为windows系统的stringIO问题导致,如果换用linux系统运行的话就不会有问题。

原网站

版权声明
本文为[kaims]所创,转载请带上原文链接,感谢
https://blog.csdn.net/qq_36605433/article/details/120515609