「凌晨2点,你正赶ICML投稿——突然发现:实验原始数据在三年前那台报废的MacBook里,备份U盘又插错了实验室的Windows电脑……」
? 雷区1:用个人网盘传组会数据?UCSD教授当场叫停
- ● UC San Diego生物信息组明文规定:所有RNA-seq原始FASTQ文件必须存在lab-wide NAS的/project-2024/sequencing/raw/目录下,严禁上传百度云、iCloud或微信文件传输助手;
- ● 亲测后果:去年有同学用Google Drive共享未脱敏临床数据,触发IRB自动告警邮件,整组暂停数据访问权限3天。
? 雷区2:代码+数据不同步?CMU机器人组的‘双保险命名法’
- ● 卡耐基梅隆实操规范:每个项目文件夹必须含两个同名.txt——
README_data.txt(记录原始数据路径/校验码)和README_code.txt(标注Git commit hash及运行环境); - ● 场景化提醒:用Zoom开远程debug会时,导师常要求你立刻共享
data_checksum.log——没这个文件?会议直接暂停。
? 雷区3:论文投稿前,别碰这3个‘共享陷阱’
- ● AAAI投稿硬规:所有补充数据必须通过OSF.io托管,并嵌入DOI链接;禁止使用临时链接、Bit.ly短链或微信小程序生成的分享页;
- ● 真实踩坑:上届学长把模型权重打包进
final_submission.zip,结果因解压后路径错位被拒稿——现在全组统一用tar -zcf data_v2.tar.gz --transform='s/^data_/project_2024_data_/'。
? 亲测有效的两条保命提示:
① 每周五下午3点,用rsync -av --delete /local/data/ lab-nas:/backup/$(date +%Y%m%d)/同步一次——比设闹钟管用;
② 把.gitignore模板贴在笔记本第一页——包含*.DS_Store, __pycache__, *.log, .env,永远不手误传敏感配置。


