
好消息!好消息!
SEER又出新更啦!
SEER又出新更啦!
……
慢着,什么是SEER?
一
SEER,神一般的存在,只因为尺度太大
根据笔者的观察,对SEER这个英文缩写,最为熟知的是00后们,尤其是小鲜肉。国产某款针对儿童的网游“赛尔号”的英文缩写就是SEER。
而让我们这些搞肿瘤的,值得如此喜大奔普的SEER,是米国国立癌症研究所(Nation Cancer Institute, NCI)的The Surveillance,Epidemiology, and End Results (SEER) Program,可直译为“监测、流行和终点项目”,其实就是1个肿瘤登记项目。具体点就是米国部分地区肿瘤(癌症为主)的发病率和生存率,兼顾患病率的监测项目。
对的!不包括死亡率。
类似的项目不是遍布全球的吗?
为什么米国的SEER就是神一般的存在呢?
只因为TA公开资料的尺度实在太大了。
二
SEER官网
官网地址为https://seer.cancer.gov,其母网站为https://www.cancer.gov,即NCI的官网。
米国NCI的官网和世界卫生组织下属国际癌症研究机构(International Agency for Research on Cancer, IARC)的官网http://www.iarc.fr(其总部在法国),是从事肿瘤相关专业技术人员必上的2个网站。
如果入门1年,还没有上去过的童鞋,请自觉面壁5分钟。立刻痛改前非,上去瞅瞅,必有收获。
SEER的官网上,不仅有该项目的详细介绍、工作指南、数据摘要、年度报告……
竟然~竟然~竟然~把基础数据库也都放在上面,还明目张胆地可供任何人*载下**。
这些数据,竟然~竟然~竟然~全部以个案形式发布。
范围从1973年诊断的新发病例起,逐年累积,每年更新,目前可*载下**的数据量已超过上百万条!
是不是尺度特别大?是不是有点丧心病狂?听了是不是有点小激动,手痒痒了 ?
反正10多年前笔者与SEER的第一次亲密接触就是这样的兴奋,还没*载下**呢,想想都感觉特别爽。
三
SEER数据库*载下**指引
近年来,SEER数据库的年更期都固定在4月份,正好都在我国的肿瘤防治宣传周期间。
所以笔者每年都是一过愚人节就要天天上网报到,关注动态。终于在2017年4月18日(美国当地时间17日)盼到了最新截止到2014年新发病例的数据库上线。以下是笔者的*载下**过程,供各位有兴趣的童鞋参考。
1) 在官网的右下角Latest Releases & Highlights栏中点击SEER Data,1973-2014,或直接进入https://seer.cancer.gov/data/网页
2) 点击Datasets左侧栏的SEER Data 1973-2014下的Accessing the Data,进入Accessing the 1973-2014 SEER Data网页。

3) 正文第2栏就是Datasets Included by Access Method,其中第1项为All AccessOptions (Client-server mode, DVD, and Compressed Data Files),包括了2个数据库:
-
SEER Research Data, 1973-2014 (9, 13, and 18 registriesdatabases)
-
County Attributes data
TA毫无废话的告诉我们数据库的获取途经包括:客户端-服务器模式、DVD和压缩数据文件3种:
-
客户端-服务器模式:无需*载下**的在线分析模式,鉴于横跨2国的网络极其不稳定性,笔者不推荐使用。
-
DVD:直接把数据库刻在DVD上寄给申请者,而且是免费的。无论多远,都是江浙沪包邮的待遇。笔者曾抱着好奇的心态,试了一次,果然在1个月后收到了从大洋彼岸寄来的DVD。罪过罪过,浪费了美国纳税人好多刀。
-
压缩数据文件:通过在线*载下**可以获取。
数据库也分为2个:
-
第1个就是我们最常用的SEER项目的精华数据,按收集起始年份的不同还分成了9个、13个和18个登记点的数据,每个数据库包含的字段是越来越丰富的,具体内容以后有必要的话再分享给大家。
-
第2个是带有County属性的数据,这个说来话长,对我们来说应用性也不强,以后有机会也不大会介绍。
你可能注意到,下面还有US Mortality的字样,但是由于肿瘤死亡数据收集并非SEER的工作范围,所以这是从别的机构拿来的数据,因此使用上有所限制,只能通过Client-Server的方式获取。不过该数据覆盖的年头更长,从1969年就开始了,有需要的可以自己先折腾一下,此处不做详细介绍。
4) 点击SEER Research Data, 1973-2014 (9, 13, and 18 registries databases),进入AccessOptions网页。

告诉你,要数据可以,先给我签1份*身卖**契……
噢,不!是协议:SEER Research Data Agreement
5) 点击SEER Research Data Agreement,发现其实又回到了Accessingthe Data网页,有关SEER Research Data Agreement的介绍。

6) 点击submit a request,进入Request Access to the SEER 1973-2014 Research Data,问你2个问题。

像笔者这种,装软件从不看过程说明文本,直接按“下一步”的人,请不疑有TA的按Submit按钮。
7) 于是进入了SEER 1973-2014 Research Data Access Request网页,请你填写个人信息,打红色星号的是必填项。

身为中国公民,当然是诚信第一,完全如实填写。填妥后直接按Submit。
这里有个小贴士:最后的Email是最为关键的信息,因为系统会自动生成1份属于申请者个人的Agreement发到登记的Email邮箱。
一般来说都是秒发秒收的,如果过了1天还没动静,垃圾邮件里都没有,可能是登记的邮箱已经被米国河蟹了。不必挣扎纠结,直接换个邮箱试下。根据笔者经验,国内几大门户网站的邮箱都很靠谱。
8) 接下来就直接进入登记的邮箱,等邮件,一般来说都是秒发秒收的(我为什么喜欢这么啰嗦呢),是seertrack发来的,开门见山第一句是“Thank you for your interest in the SEER Research Data.”。
笔者虽然英语不太好,但是Thank you还是认识的,免费拿人家这么老多东西,人家还先谢我,真是怪不好意思的。
邮件大意是Agreement需要sign和return,31天内不办就自动删除了,已给申请者生成了1个SEER-ID。
还给出1个类似https://seer.cancer.gov/seertrack/data/request/data/pending_pua/(个人专属码)/的网址,点击进去就是个人专属的1张网页版Agreement。

9) 可以打印出来手签,也可以像最讲诚信如笔者一样,网页另存为pdf,在pdf软件里画签名和日期。然后发传真到301-680-9571或者将扫描件发到seerfax@imsweb.com邮箱。
那么笔者选了哪种方式呢?不说你也猜得出来。
10) 最多不超过2天,登记的邮箱会收到seertrack发来的第2封邮件,开头依然是Thank you。关键是给你1个用户名和密码。
但不贴心的是这次不直接给你进入的网页地址链接。
11) 自行回到Access Options网页 (https://seer.cancer.gov/data/options.html),找到“2.Download compressed files from the Internet”。

可见2种*载下**方式:
Binary version of the data and the SEER*Stat software: Windows Executable [EXE - 1.2 GB]
ASCII text version of the data: Windows Executable [EXE -358 MB] | ZIP [ZIP - 358 MB]
要选哪一种呢?
此时,笔者脑海里浮现的是:菩提祖师让孙悟空选,是学多的72般变化,还是少的36般变化……
这里的1.2GB和358M所包含的数据量是一样一样的,但前者虽大且自带分析程序,操作起来傻瓜,而后者虽小,却可以导入通用的数据分析软件,但是需要操作者熟悉个案记录的数据结构和字典表,入门难度甚大。
笔者当然是傻瓜。
12) 点击后,网页会跳出登录界面。

输入用户名和密码,点击登录就开始自动*载下**了。
这里还有个小贴士:是否能够*载下**及*载下**的速度,跟所用浏览器软件和所处的网络环境有较大关联,建议直接请出打入冷宫的微软IE,也不必使用*载下**软件。笔者的经验是家里比单位*载下**得快。
整个流程下来,只要能上网,会点粗浅的英语,就能获得米国的肿瘤登记数据。实际耗时,操作时间不到10分钟,等待时间2天左右。
如果您连这点时间都没有,或者嫌麻烦,想直接问笔者拷一下。
诚信如故的笔者,只想用一句川普回答您:滚犊子!
本文是春晓医生参与肿瘤登记项目的心得体会,所有文字仅代表个人观点,用于分享交流。
欢迎参与和关注本项目的同行留言,您的想法和建议,将有助于工作的开展。