Tutorial
欢迎使用 SpectrumLab!本教程将帮助你快速了解谱学分析、SpectrumLab 平台以及如何使用它来评估大语言模型在光谱学任务上的表现。
什么是谱学?
谱学(Spectroscopy)是研究物质与电磁辐射相互作用的科学分支。通过分析物质吸收、发射或散射的光谱,我们可以获得关于物质结构、组成和性质的详细信息。
谱学的重要性
谱学在现代科学中具有重要地位,它通过分析物质与电磁辐射的相互作用,为理解物质的组成、结构和性质提供了关键手段。在化学中,谱学用于分子结构解析和反应机理研究;在材料科学中,它能表征纳米材料并进行表面分析;在生物学中,则用于研究蛋白质折叠和代谢物检测。同时,谱学在临床医学中也被广泛应用,如通过光谱技术实现无创诊断和疾病早期检测,使其成为现代科学研究和应用中不可或缺的工具。
常见谱学技术
- 红外光谱(IR):分析分子振动,识别官能团。IR 谱特征吸收峰(如 C=O、O–H、C–H 等)在特征频率范围内具有标志性,是判断官能团的核心工具
- 核磁共振(NMR):通过化学位移、信号强度和偶合常数提供分子中原子环境和结构连接信息,常用于确定分子结构(尤其有机化合物)
- 紫外-可见光谱(UV-Vis):研究分子的电子跃迁和共轭体系,尤其用于判断电子结构、共轭长度和光学性质,不直接提供结构连接信息
- 质谱(MS):测定分子量并通过碎片组合推断分子结构,是判断分子组成和次级结构的重要工具
- 拉曼光谱(Raman):提供分子振动信息,能识别与 IR 类似的化学键振动,尤其对对称分子和无极性键敏感,经常作为 IR 的互补方法
- HSQC 谱图:一种二维 NMR(^1H–^13C 或 ^1H–^15N)实验,每个交叉点代表一个直接键连接的质子–杂核对,可用于明确 ^1H–^13C(或 ^15N)一键归属,辅助峰归属和结构解析
什么是 SpectrumLab?
概述
SpectrumLab 是一个开创性的统一平台和综合工具包,为加速和系统化化学光谱学领域的深度学习研究而设计。它旨在简化从数据预处理到模型评估的整个 AI 驱动的光谱学研究生命周期,为研究人员和开发者提供一个模块化、可扩展且易于使用的 Python 库和工具生态系统,以推动光谱学领域的人工智能研究和应用。
核心功能
模块化与可扩展架构
SpectrumLab 采用灵活的模块化设计,其核心组件包括:
- 基准测试组 (Benchmark Group):将 SpectrumBench 数据集进行分层组织,支持多种光谱模态和任务类型,并允许用户根据需求灵活组合,创建定制化的评测任务
- 模型集成 (Model Integration):提供统一的框架和标准化的 API,可以无缝接入和评测各类外部模型,无论是商业闭源模型(如 GPT-4o)还是本地部署的开源模型
- 评估器 (Evaluator):作为评估引擎的核心,支持根据不同任务(如选择题、生成题)定制评估指标和协议,确保评估的严谨性和任务适应性
全面的工具链生态系统
提供一个通过 PyPI 分发的 Python 库,集成了数据处理、模型开发、自动评估和可视化等核心模块,极大地简化了整个研究工作流程。
自动化基准生成 (SpectrumAnnotator)
紧密集成了创新的 SpectrumAnnotator 组件,该组件能利用先进多模态大模型的推理能力,从种子数据集自动生成高质量、多样化的基准测试数据,高效构建评测任务。
公开排行榜 (Leaderboards)
为确保透明度和可复现性,SpectrumLab 建立了一个公开的排行榜系统。该系统系统地追踪和比较各类模型在所有 14 项任务上的性能表现,促进公平竞争和领域的共同进步。