arXiv详细介绍
arXiv是什么——全球最早最大预印本开放获取平台
arXiv(读音archive——由美国数学家物理学家Paul Ginsparg于1991年8月在洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory——因而最初称为xxx.lanl.gov)创建——2001年起转由康奈尔大学运营维护——是全世界第一个大规模运作的开放获取学术预印本存储库(Open Access Preprint Repository)。arXiv的核心理念简单而革命性:科研工作者在将论文提交到传统同行评审学术期刊之前(或同步)将论文的草稿/最终手稿版本上传到arXiv上立即公开——供全球研究者免费阅读、下载和引用——无需等待数月甚至数年的漫长出版审稿流程。经过三十多年发展arXiv已成为物理学(高能物理/凝聚态物理/天体物理等)/数学/计算机科学(特别是人工智能/机器学习/计算机视觉/NLP等——目前论文量爆炸增长最大的板块)/定量生物学/定量金融/统计学/电子工程/系统科学等自然科学和交叉科学领域科研人员发布工作和建立研究优先权(Priority/First-to-disclose)的首选标准平台。arXiv的出现彻底革新了学术信息传播模式——过去仅限于少数人通过机构订阅期刊才能阅读的新研究——通过arXiv发布使全球任何有网络的人(研究机构学者到穷国学生和独立研究者)都可以平等第一时间获取新出现的顶尖前沿研究——因此arXiv被认为是现代开放科学运动和学术基础设施中最具影响力的成就之一。平台目前每年处理超过20万篇新提交论文——总文献库已超过200万篇——是物理学和AI领域事实上的主要文献发现和访问起点。
论文提交与发布流程——快速/开放/基本的审核检查
arXiv的论文发布机制与传统期刊同行评议截然不同:研究者将论文以PDF(由LaTeX或Word等编译生成)通过arXiv网站提交——系统自动检测PDF格式和基本合规性——然后由学科领域的主持人(moderator/endorser系统)做有限的质量预筛查(检查论文是否粗略属于该学科领域/排版是否可读等基本标准)但不进行深入的同行评审以确保投稿的快速和低成本——提交通过审核之后通常在一两天内(若走快速通道更快当年快至几小时)上线公开。在这种宽松门槛下只要基本属于一个该学科范围且不太明显胡闹的论文几乎都能被接受——形成了学术知识的开放快速交流场。提交到arXiv的论文同时具备了时间戳(自动签注准确的Time Stamping)以建立科研的工作时间优先权(谁先发布成果的争议裁定凭时间戳)。但是arXiv不承诺正式发表的同行评审质量标签——因此用户需要对arXiv上的论文抱有一定谨慎——(尤其是医学和临床这些可能有争议健康误导风险不收录的领域arXiv已经明确限制)。提交者一般需要所属机构的关联认证(可经机构或现有arXiv作者代背书(Endorsement))以防恶意垃圾的滥用。访问者无需任何注册即可完全免费在线访问所有论文全文+下载PDF——且arXiv多年一直承诺坚守免费(靠康奈尔大学资金支持+全球200多家合作机构的联盟赞助费(Institutional Membership)支撑运营—至今没有付费墙、不采用广告模式)。
学科分类体系——物理/数学/CS/AI/统计/量化金融/生物
arXiv经过发展形成了精细的学科分类(Subject Classifications)体系——每个分类代码和名称供提交者自行选择标注归属(一篇论文可以选多个分类标签)。主要学科大类:Physics(物理学大类)——细分astrophysics(astro-ph)/condensed matter(cond-mat)/general relativity(gr-qc)/hep-ex/hep-lat/hep-ph/hep-th(高能物理相关)/nuclear(nucl-)等等几十个小子分类对应专业物理研究各方向;Mathematics(数学)——代数/代数几何/分析/微分几何/Dynamical Systems/数论/Optimization/统计理论和概率等subcodes;Computer Science(计算机科学——cs大类)——目前增长最快最活跃板块——覆盖AI(cs.AI)/机器学习(cs.LG)/计算机视觉(cs.CV)/自然语言处理(cs.CL)/计算语言学/信息检索(cs.IR)/计算与社会(cs.CY)/计算机图形学/人机交互/操作系统/编程语言/密码学与安全/网络/机器人与自动化等几十个子分类;Quantitative Biology(q-bio)——生物分子网络/基因组学/群体生物学/神经元与认知/生物数学等领域;Quantitative Finance(q-fin)——金融经济物理学/统计金融/套利定价/投资组合优化/风险管理等等;Statistics(stat)——方法论/机器学习/概率理论/基因组统计/生物统计等;Electrical Engineering and Systems Science(eess)——信号处理/图像和视频处理/系统控制/通信等。这种有条理的分类结构使得按学科浏览arXiv上的最新papers非常高效——同时支持按分类的RSS Feed与邮件订阅每天自动推送arXiv每日新论文列表(每日arXiv邮件订阅是许多科学家的每日晨读仪式和跟踪最新研究常态标配)。
AI/ML板块爆炸式增长——AI研究论文第一来源阵地
过去十年尤其是2017年Transformer的提出和后续GPT浪潮以来——arXiv的计算机科学(特别是cs.LG/machine learning和cs.CV/cs.CL/cs.AI子分类)的论文提交量以指数级的速度暴涨——截至2025年单月全球新AI/ML预印本提交量已达到数千篇以上规模的庞大涌现过程——时常被领域研究者戏称一天不刷arXiv就感觉落伍了一个新领域。整个全球AI研究界已形成在论文正式投稿到顶级会议(NeurIPS/ICML/ICLR/CVPR/ACL等)之前和投稿同期即把论文手稿立刻就上传到arXiv这一成为刚需学术社区文化习惯的行为——因此可以说现在全球95%以上的AI/ML重要研究成果的最初首次查看地点都在arXiv而非正式会议或期刊——因为会议审稿周期长达3-6个月以上——而论文在arXiv的开放则立即可供全球同行阅读/批评/复现和进步建设。同时推动了AI研发生态的两个显著结果:一是Paper以极高的速度涌现并且互相引用链也出现在arXiv的引用基础上形成了极快速的领域整体加速反馈和迭代;二是arXiv上相对较低的采纳门槛也造成了一些问题如在AI领域出现了大量模型滥用或弄虚作假的论文质量不可靠性及增加了审稿区分信号噪声的挑战。但无可否认——arXiv已经是AI和整个计算机科研工作者信息获取体系的无可替代的第一资料库。
arXiv邮件订阅/RSS——按学科每日推送最新论文
对于几十万活跃研究者和学者——arXiv的每日邮件通知推送服务(arXiv mailing lists)是最广泛被使用的文献跟踪工具之一——被研究者亲切称为arXiv每日清单(daily list)或今日论文邮件。研究者可以在arXiv网站上注册账号并选择自己想要追踪的学科分类/子分类或关键词——然后arXiv会每天(周末和节假日也可)自动把当日所有新提交到所选分类的论文标题/作者/摘要打包为邮件发送订阅者的邮箱里。订阅分类可以为最少一个子分类(如只订阅cs.LG机器学习或者astro-ph.GA天体物理星系类型)最多组合多个。对于每日论文量较大且读不过来的领域很多研究者也会搭配使用Semantic Scholar或者论文推荐工具阅读,不过原生的arXiv邮件订阅仍旧是最基础和可靠的高覆盖率新文献发现工具在学术圈中持续使用。除了邮件外每个分类都有对应的RSS/Atom feed能够以更标准化的聚合订阅加入Feedly/Inoreader等RSS阅读器工具。也有第三方的Web服务如arXiv.sanity(Andrej Karpathy开发)/PaperDigest等对arXiv论文进行推荐排序过滤和筛选以提高过载信号时代的筛选效率。这是arXiv在学术信息生态中最具实效有效的内容分发服务之一——也是很多教授要求研究生每天要做的事情(每天阅读arXiv上的与自己科研方向相关的最新预印本)。
arXiv vs 正式期刊 vs Semantic Scholar vs bioRxiv vs OpenReview
在学术出版与论文分发体系生态下各平台定位差异巨大:arXiv本身不发表审稿不提供同行评审,而是纯粹提供开放存储和分发服务——这与正式期刊和会议议论文集含同行评审质量评价和编辑审稿区分能力有本质不同——论文虽然挂在了arXiv并不自动等于已经被正式接收发表甚至可能很快就被撤稿不靠谱。arXiv定位是确保学术发现的迅速开放首发和可获取权——是学术论文进行过程中的交流地基——而期刊/会议是在arXiv基础之上给论文加上被验证的同行评价标签。bioRxiv(biorxiv.org)——冷泉港实验室创办的面向生命科学(生物学/医学方向)的预印本平台与arXiv模式一致但仅限生命科学领域且部分期刊已经官方允许在bioRxiv发布(不视为一稿多投),且bioRxiv上的预印本越来越多也被直接引用在SCI期刊中。MedRxiv则是医学临床预印本。Semantic Scholar——偏重于在arXiv/PubMed已存在的论文基础上提供AI增强搜索摘要和引用网络分析,但论文原始存储还是arXiv/PubMed/期刊。OpenReview(openreview.net)——由U Mass Amherst建立的开放式同行评审+预印本发布集成的平台——一些新兴的AI会议如ICLR已经使用OpenReview作为官方的审稿流程平台——论文直接提交到OpenReview公开给所有人看名审稿交互审阅然后接受论文在平台发布——可以说是arXiv+透明公开评审融合的次世代学术发表演进。但几十年形成的学术习惯而言高能物理和AI两大学科都已经将arXiv当作研究生态不可替代的日常部分并没有替代品的预印本基础设施符号。
🚀 arXiv独有功能特点
📝 预印本快速发布——建立研究优先权的开放传播
论文手稿上传后1-2天内全球免费公开——时间戳建立首次发现优先权
📂 全学科分类——物理/数学/CS/AI/统计/生物/金融
数十个学科分类与子分类体系——按分类浏览/订阅/搜索最新论文
🤖 AI/ML领域论文第一来源——全球研究者的arXiv依赖
AI/CS研究发布首选平台——每日数千篇新AI预印本——顶级会议论文同步首发在这里
📬 每日邮件订阅——按学科推送最新论文的传统
每日自动邮箱发送所选分类新论文列表——全球学术界的标准文献跟踪习惯
🔥 最新重大更新动态
arXiv持续运营35年
从1991年由Paul Ginsparg创立至今,arXiv已发展成为全球学术预印本基础设施。
arXiv转入康奈尔大学
arXiv从洛斯阿拉莫斯国家实验室转由康奈尔大学图书馆运营维护至今。
arXiv创立
Paul Ginsparg在洛斯阿拉莫斯国家实验室创立arXiv(最初为xxx.lanl.gov)。
📋 产品总结
arXiv(arxiv.org——1991年由物理学家Paul Ginsparg创立——现由康奈尔大学运营)是全球最大最具影响力的开放获取预印本(Preprint)存储库和学术交流基础设施——在物理学/数学/计算机科学/AI/定量生物学/定量金融/统计学/电子工程系统科学等领域——研究者将学术论文手稿在正式同行评审发表前上传至arXiv立刻完全公开供全球免费阅读下载引用——从根本上颠覆了传统学术出版时间滞后和信息封闭格局。arXiv的核心价值是速度和开放性——论文从提交到上线通常只需1-2天充分满足研究者快速传播成果和建立优先权的需求。平台拥有精细的学科分类体系(包括物理多个子类/数学/计算机cs大类的AI/cv/nlp等数十个子类/定量生物/量化金融/统计等)——用户可按分类浏览或订阅每日邮件通知(每日arXiv清单一研究者追踪最新研究进展的常态化标准路径)。AI/机器学习领域尤其重度依赖arXiv——几乎全部NeurIPS/ICML/ICLR/CVPR/ACL等顶级会议论文都在审稿前或审稿同期上传到arXiv公开——使其成为全球AI研究最新成果事实上的首发平台。运营模式基于非营利:康奈尔大学图书馆+全球合作联盟机构赞助维持——坚持永久免费开放不设付费墙。补充替代平台:bioRxiv(生物预印本)和medRxiv(医学预印本)分别面向生命科学和临床领域;OpenReview融合预印本与透明同行评审。arXiv因其历史地位/学科覆盖广度/使用深度已成为全球学术开放科学理念最标志性的成功实践之一。
📝 用户体验调查
这个arXiv介绍页面对您是否有帮助?
感谢您的反馈!我们会持续优化页面内容。