首页 > 组学教程 > 学术论文共享平台Authorea创始人直怼arXiv,是时候与时俱进了!
2023
10-03

学术论文共享平台Authorea创始人直怼arXiv,是时候与时俱进了!

学术论文共享平台Authorea的创始人Alberto Pepe、首席研究员Josh Nicholson以及加州大学-圣塔芭芭拉的科学家 Matteo Cantiello,一同撰写了一篇有有关arXiv的文章,对arXiv的历史变迁、优缺点及成功原因做了如下分享。

arXiv是世界上最受欢迎的预收录论文库。自1991成立以来,arXiv允许用户自由分享发表论文。

arXiv的普及使得学术论文的创建和传播更容易,它鼓励协作和数据共享。arXiv在通信发展史上具有独一无二的地位,但它自创办以来,却发生了不小的变化。

有了arXiv,我们可以确定什么样的论文,可以基于新技术做优缺点的改进。基于此,我们认为,当今的arXiv实际上可能不只是分享学术成果这么简单。

arXiv,发音为“档案”,是世界上最受欢迎的预印论文库。从1991开始,物理学家Paul Ginsparg以TeX文件的形式向同事发送物理预印本,在出版之前正式发表的论文要经过同行评审。

今天,arXiv每个月发表论文数量约10000余篇,从高能物理、计算机科学、定量生物学、统计、金融、到任何其他研究方面。它的存在,促使目前的科学出版更为开放共享。

arXiv的历史

在arXiv之前,“影印机是一种常用的分发系统”,预印论文只能通过一对一邮件交流。机构知识库,如spires-hep数据库(斯坦福物理信息检索系统的高能量物理)在斯坦福线性加速器中心(SLAC)和文件服务器,在欧洲核子研究中心仅提供目录服务,帮助科学家跟踪出版信息。

但SPIERS大大提高了元数据的流量,仍然很难检索的完整手稿。一个新的排版系统很快出现并改变了这种局面。

Tex,发音为“科技”,是由Donald Knuth在70年代后期创造的,是研究人员写论文和排版的主要方式。TeX被熟知后,Leslie Lamport又升级了一个标准的TeX格式,称为LaTeX,使得所有科研人员排版论文更容易。

该系统使共享文件比以前更容易和更方便的。事实上,这让研究者以一种轻量级的格式,通过电子邮件发送论文,写论文时可以直接下载和编译引用。

研究人员开始交换电子邮件预印本论文,越来越多的论文邮件导致存储空间被填满。1991年8月14日,为了解决这个问题,一个自动化的电子邮件服务器—最初称xxx.lanl.gov成立。

这项服务将使研究人员,能够通过电子邮件自动申请所需的预印本。它很快成为世界上第一个Web服务器,改名arXiv1998,今天仍然是世界上最开放的、最有效的科研交流形式。

1991年至2017年在生物科学和生命科学领域的预印文献数量。在这个时间窗口期,提交的阿片病毒(生命科学)预印的总数1263265(32284);

上图显示了最近的预印文献提交数量,生命科学领域扔快速增长(包括提交的"arXiv q-bio", "Nature Preceedings", "F1000Research", "PeerJ Preprints", "bioRxiv", "The Winnower", "preprints.org" and "Wellcome Open Research")。

数据源:arXiv和预PubMed

arXiv的优势

arXiv从第一天起,就为研究人员提供了一个传播研究的最简单有效的方法。这是作者快速分享发现与研究界的一个免费的方式,公众可以免费访问它。

arXiv还出现了一些世界上最有影响力的研究,一个众所周知的例子是Thurston几何猜想的证明,其中包括2002年11月,由Grigori Perelman上传。

信息的自由交换使得,越来越多的arXiv克隆者出现。开放、共享、简单、实用一直是arXiv的初衷。下面我们重点关注技术以及文化的影响,为何促成了arXiv的成功。

用LaTeX排版

论文在arXiv上绝大多数是用LaTeX撰写的。LaTeX使研究人员能够轻松地排版论文。物理学家和数学家,常需要写包含密集公式的文件。因此,LaTeX对于早期的论文写作和共享是至关重要。今天,它仍然是由物理学家、数学家、计算机科学家经常使用的工具,为复杂的数学符号绘制提供了最佳解决方案。

科学家和研究人员,从一开始就都知道,如何从中受益并愿意使用它,这让arXiv蓬勃发展,而且提高了科学研究的协同性,如化学和生物医药。稳定的web服务器以及LaTeX,是arXiv不可或缺的两个方面。

arXiv的劣势

自成立以来,由于一直采取基础技术服务(LaTeX、电子邮件、Web服务器),arXiv社区一直屹立不倒。然而,随着时间的推移,arXiv未能改善和反思本身与不断变化的技术和新科学的涌现。

一个最重要的因素,阻碍了arXiv的快速创新,我们相信是LaTeX。LaTeX让arXiv蓬勃发展,但也是其最可怕的缺点。

一个社区的局限性

物理学之外的大多数研究者,在arXiv上用word撰写手稿。在其最受欢迎的领域使用LaTeX的比例(数学、统计、物理、天文学、计算机科学)占到学术论文总比例的18%(佩佩2016年)。

PDF转存

当你上传一个LaTeX文件时,论文被汇编并生成一个PDF文件,这是一个标准的程序。在学术界,几十年的手稿以Post或PDF格式被共享和阅读。PDF是一种高效,打印手稿便携格式。

低能见度

arXiv的研究论文,主要是PDF文件格式。标题、摘要和作者名单,由作者提交元数据,这会发布在PDF文件中,并能够以HTML格式浏览。

搜索引擎越来越善于挖掘PDF文件,但任何当前或未来的搜索引擎,在爬取arXiv的论文时都会有相当的难度,原因是科学研究的关键词都很生僻。重要的是,我们共享论文不是为了让机器爬取,而是学术交流。

数据

在所有学科中,数据共享已成为一个重要的实践。

简单地说,如果一个已发表的研究论文是建立在数据基础上,作者必须在他们的研究中提供资源访问的集合(数据和代码)。但在arXiv,LaTeX共享数据格式模式是不可能的。

因此,arXiv给作者提供了相关数据资源的第三方链接。

给arXiv的建议

Web-native and web-first

在学术交流界,越来越多的人认识到,学术出版需要“超越PDF”(见第11部分的引用),我们坚信未来的文章将是网络版 (Goodman 2016)。因此,未来的arXiv将必须能够以HTML格式创建和/或获取论文。

将学术论文转移到HTML格式,是为未来的学术出版铺平道路的第一步。你正在阅读的论文,无论是阅读PDF还是HTML版本,都是web-first的。这里可以找到一个开放的网页版本 (https://www.authorea.com/173764), 将来的arXiv一定会 web-native 托管网络手稿。

多格式和格式中立

ArXiv在很大程度上依赖于LaTeX。在科研论文合作平台Authorea上,三位作者使用 LaTeX and Rich Text格式共同完成,用于插入数学符号、方程式、表格,无需排版和格式化整个手稿。

LaTeX可能是一种排版手稿最耗时的方式 ,最重要的是这种格式不允许转换成其它格式(例如,语义解析和嵌入到知识网络中,便于发现,因此影响)。 未来的arXiv应该是格式中立的。

数字对象标识符

数字对象标识符(DOI)是在学术发布中,用于识别和链接到一件作品的永久标识符。DOI被许多期刊强制引用,可以用于数据集、预印本、研究文章,网站和其他学术著作。

由于预先打印的做法,在所有学科领域都快速上升,因此可以通过DOI标准确定预印本:DOI。这篇文章是用Authorea编写的,它已经用DOI预先印刷(https://dx.doi.org/10.22541/au.149693987.70506124)。未来的arXiv是由DOI确定的预印数据库。

目前,托管许多研究工作的所有数据和代码,确实是不可能的,但是在大多数情况下,绝对有可能托管至少一部分数据和代码,以及一些重要的成果。

专为开放数据和开放研究而设

未来的存储库,不仅仅是具有文本和图像的PDF集合。未来的存储库是一个整合数据,代码以及重现科学成果所需资源的论文数据库。

解决目前的频发危机的唯一方法是,通过数据化驱动论文。能够点击论文相关联的数据标志,并能够可视化下载和阅读图表中显示的数据,以及代码(以Jupyter notebook 编辑)。

我同意,不损害社区声誉的激励体系是可取的,这可以最大限度地提高评论的质量和数量,可能促进有效的活跃,开放的同行评审系统。

评论和公开的同行评审

arXiv目前不允许其读者对作者评论。这个想法的初衷是,arXiv不经过同行评审 - 同行评审发生在其他地方,比如相应级别的期刊。因此,评论和审查制度难以维护和运行,而且没什么用。

然而,预印本提供了前所未有的机会。首先,开放;第二,增加手稿审阅和评论的数量。我们不主张取代传统的同行评审,而是通过对预印本的公开审查来补充。

我们认为更多的学者,应该参与到一篇论文的同行评议中来,同行评审应该在公开进行,这样审查本身就成为已发表(或预先印刷)研究的重要组成部分。

这似乎不仅是自然的,也是必要的,因为出版物和论文的平均作者人数越来越多的,使得当前的同行评议模式不可持续。

替代指标

在奖学金方面,目前评估研究论文影响力的、唯一有声誉的指标是引文(或引文附带的任何其他指标)。arXiv不会发布关于替代指标的信息(引用的替代方法),例如论文被下载,分享到推特或博客多少次。

我们认为,这些指标在评估研究工作的影响方面提供了重要的价值,而不是要替代传统的指标。

可发现、语义结构化、机器可读

论文的全文,不仅仅是标题和摘要,可以被搜索引擎和学术库编入索引,从而提升内容的可见性。此外,基于Web的文章,具有明确的sem antic结构,使其成为完全可读的对象。

未来的arXiv可以重新思考,打造语义结构化内容的API。



最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情