抓取文献条目信息问题解答:基础知识、常见情况及添加方法
如果你不能正确地抓取文献信息,或者抓取后的条目里文献信息缺失,那么下面这篇文档会对你有所帮助。更新抓取文献信息的转换器来实现从网页快速抓取文献信息。特别是在遇到中文文献无法抓取的时候,通常意味着这里的转换器需要更新了。抓
关于抓取书目条目信息的常见问题解答
本页面整理了一些爬取文献条目信息的相关内容,您可以在右侧的概要栏中快速定位到您需要的内容(部分窄屏设备可能还会在顶部有“页面导航”)。
如果还是找不到你需要的问题,你可以考虑在中文社区提问或者在官方论坛发帖寻求帮助。
基础知识:如何判断一次抓取是否成功?
库中的内容主要有三种类型:文档条目、附件和注释。附件和注释可以附加到文档条目,也可以作为库中的顶级项目单独存储。有关常见条目类型和添加条目的常用方法,请阅读添加条目教程。
一点解释
以下是图书馆中一些常见的情况:
当浏览器扩展程序抓取网页上的文档时,通常可以获得两类内容:文档信息(文档条目的元数据)和相应的附件(例如PDF全文,网页截图等)。
为此,只要你能正确抓取文档信息,就不建议继续折腾,如果无法抓取PDF附件,建议手动下载。
如果您无法正确抓取书目信息,或者抓取的条目中缺少书目信息,以下文档可能会对您有所帮助。
更新转换器以获取书目信息
在使用过程中,我们经常需要更新转换器,以便快速从网络上抓取文档信息。通常,我们可以利用其自带的功能和 插件来快速完成此操作。但当 插件出现故障,无法完成一键自动更新时,我们也可以手动下载新版本的转换器文件并手动更新。
提醒
这里的“转换器”是指从浏览器网页爬取文献信息时需要的转换器,中文有时也叫“翻译器”或“译者”。如果遇到语言翻译问题(比如标题翻译、摘要翻译、文献阅读中的句子翻译等),通常与本文提到的转换器()无关维护网站,请自行参考 for 插件的教程进行排查。
方法一:一键自动更新推荐步骤1.更新官方转换器
在设置中,进入高级设置,点击下方“自动检查转换器和样式的更新”后面的立即更新按钮。
建议保留自动更新
我们建议保持选中“自动检查转换器和样式的更新”以获取最新的官方转换器。
“更新转换器”和“重置转换器”是不同的!
注意:如非必要,请不要点击设置页面底部的“数据库维护->重置转换器”按钮,因为这会删除整个文件夹。
步骤2. 更新中文转换器
安装/更新 插件
插件是中文生态增强插件,为中文转换器提供更新服务,请确保您已经安装最新版本的插件,并访问了解详情。
进入 插件的设置,进入“非官方维护的中文转换器(翻译器)”部分并点击“全部更新”按钮。
提醒
建议不时更新这里的非官方中文转换器(翻译器)。特别是当无法抓取中文文档时,通常意味着这里的转换器需要更新。
步骤 3. 更新缓存
在每个浏览器扩展中更新转换器()。
暗示
从v5.0.124开始,设置->官方按钮已被移除,如果你的浏览器扩展程序仍有该按钮维护网站,请务必先进行后续操作。
请根据您使用的浏览器点击下方对应的说明,并按照说明中的步骤操作即可。(360(极速)浏览器、搜狗浏览器等国产厂商推出的浏览器请参照步骤操作)
、Edge 和
右键单击该按钮,然后单击选项/
点击重置按钮
苹果
虽然目前在 中已经支持,但是在 中爬取失败的情况较多。**建议使用 Edge、 或 浏览器进行爬取。
右键单击网页上的空白区域,然后单击
点击重置按钮
警告
这一步非常重要!请确保更新每个浏览器扩展的转换器!
当您单击“重置”按钮时,您还可以检查日志以确保转换器已成功更新。
重新启动浏览器。
此时您已完成转换器的更新。如果您的浏览器仍然无法识别文档,请重复步骤 3 几次,同时确保步骤 1-2 正确无误。
方法 2:手动替换转换器文件以更新高级
不推荐此方法
我们建议使用“方法一:自动更新”来完成转换器更新。
在“编辑-设置-高级-文件和文件夹”中找到您的数据存储位置。
例如下图中的数据存储位置为E:\File,您也可以点击此处的“打开数据文件夹”,快速打开您的数据文件夹。
在数据文件夹中找到该文件夹(上图中的E:\File\),该文件夹就是存放转换器的地方。
从中国维护组下载最新的转换器。
解压下载的zip文件,选择其中的所有转换器文件(.js文件),然后复制它们。
将所有转换器文件粘贴到步骤1的文件夹中并替换。此时转换器文件的更新已完成。
在每个浏览器扩展中更新转换器()。
暗示
从v5.0.124开始,设置->官方按钮已被移除,如果你的浏览器扩展程序仍有该按钮,请务必先进行后续操作。
请根据您使用的浏览器点击下方对应的说明,并按照说明中的步骤操作即可。(360(极速)浏览器、搜狗浏览器等国产厂商推出的浏览器请参照步骤操作)
、Edge 和
右键单击按钮,然后单击选项
点击重置按钮
苹果
虽然目前在 中已经支持,但是在 中爬取失败的情况较多。**建议使用 Edge、 或 浏览器进行爬取。
右键单击网页上的空白区域,然后单击
点击重置按钮
警告
这一步非常重要!请确保更新每个浏览器扩展的转换器!
单击“重置”按钮
您还可以通过检查日志来确保转换器已成功更新
此时您已完成转换器的更新。如果您的浏览器仍然无法识别文档,请重复步骤 6 几次,同时确保步骤 1-5 正确无误。
卸载并重新安装浏览器扩展
如果按照以上步骤操作后仍然抓取失败,建议卸载并重新安装最新版本的浏览器扩展。
请根据您使用的浏览器点击下方对应的说明,并按照说明中的步骤操作即可。(360(极速)浏览器、搜狗浏览器等国产厂商推出的浏览器请参照步骤操作)
、Edge 和
转到浏览器的“管理扩展”页面
:点击浏览器界面右上角的三个点按钮,然后点击扩展程序->管理扩展程序。
Edge:点击浏览器界面右上角的三个点按钮,然后点击扩展 -> 管理扩展。
:点击浏览器界面右上角的三条水平线按钮,然后点击扩展和主题。
找到它并单击三点按钮中的删除/删除/删除。
按照以下教程中的说明重新安装最新版本的浏览器扩展程序。
苹果
虽然目前在 中已经支持,但是在 中爬取失败的情况较多。**建议使用 Edge、 或 浏览器进行爬取。
浏览器扩展是随客户端一起安装的,重新安装时一般需要卸载客户端再重新安装。
一般来说,只删除客户端的可执行文件不会影响你的库文档、设置、插件等数据。重新安装后,所有内容都会保持之前的状态。如果你担心,也可以查看此文档先备份数据文件和用户配置文件:备份数据
打开,点击系统菜单栏左上角的浏览器,然后点击设置。
在弹出的窗口中点击上方的扩展选项卡,在左侧栏中找到它,然后在右侧界面点击卸载。
在弹出窗口中单击“在 中显示”。
彻底退出浏览器,然后回到上一步的界面,删除里面的程序文件(如果不小心关闭了刚弹出的窗口,也可以重新打开一个窗口,点击左边栏的应用程序,然后删除里面的程序文件)。
从官网重新下载新的安装包并完成安装。获取下载链接
运行一次后扩展就会自动安装。
重新运行浏览器。如果你没有看到扩展程序图标,你可以在第 2 步中的扩展程序选项卡左侧栏中找到它,并确保选中了它前面的复选框。
如果图标还是没有出现,您可以右键点击窗口上方按钮区域的空白处,点击自定义工具栏…,然后将下方的图标拖拽到上方按钮区域您想要的位置。
使用其他方法添加项目
如果以上所有步骤都无法解决您遇到的抓取问题,则可能是您访问的页面当前无法被抓取。您可以尝试从其他网站抓取,或使用替代方法,例如 、 和 。详细步骤请阅读添加条目教程。
贡献者
-L
页面历史
-更新插件下载地址,并将蒲公英移至单独页面 (#218)
- 完善抓取书目条目信息的常见问题并更新插件商店链接 (#208)
- 浏览器插件 -> 浏览器扩展 (#193)
-删除“不建议自动更新”的描述,重新整理自动更新步骤,修改图标资源 (#192)
- 删除了插件中的按钮,教程替换为重置按钮 (#189)
- 添加图标资源
-更新转换器更新提示,Style使用,以及同步盘部分内容(#177)
-:SSG 到,到 -/ repo (#172)
- 偏好设置->设置 (#135)
- 改进 Word 参考相关文档 (#120)
-维护:添加 Git Hooks (#107)
- 改进添加条目的文档(#100)