一、美國seer數(shù)據(jù)庫怎么用
SEER數(shù)據(jù)庫是臨床常用的公共數(shù)據(jù)庫,它收錄了大量的臨床回顧性研究資料,數(shù)據(jù)獲取方便并且公開免費,因而深受科研工作者的喜愛。里面包括各式各樣的腫瘤類型,如肺癌、乳腺癌、胃癌、結(jié)直腸癌、前列腺癌等等。
數(shù)據(jù)庫的使用權(quán)限
1.進入官網(wǎng),【SEER Data&Software】<【How to Request Data Access】
2.點擊【Continue to Request Form】
3.機構(gòu)賬戶點擊左邊,非機構(gòu)賬戶填寫好郵箱后點擊右邊(我們主要介紹非機構(gòu)賬戶的申請方法)。
4.信息填寫好后點擊【Sumbit】,之后 SEER 會發(fā)一封郵件到你注冊的郵箱,點擊鏈接。
5.信息填寫好后點擊【Sumbit】,之后 SEER 會發(fā)封郵件到你注冊的郵箱,點擊鏈接下載SEER*Stat。
6.點擊鏈接,信息填寫好后點擊【Request Download】,之后 SEER會發(fā)3封郵件到你注冊的郵箱,分別是SEER*Stat下載地址,還有軟件登錄的賬戶密碼。
軟件常用功能介紹
使用前,記得先登錄,賬號密碼就是前面申請的。點擊紅框指示的表格按鈕,也就是【case listing session】,此時需要輸入賬號密碼。里面顯示了每個腫瘤患者的個人信息(如性別、年齡、TNM 分期等),常規(guī)發(fā)表 SEER 數(shù)據(jù)庫相關(guān)的文章,都是用這部分的數(shù)據(jù)。
延伸閱讀:
二、信息抽取是什么
信息抽?。╥nfromation extraction)信息抽取是一種自動化地從半結(jié)構(gòu)化和無結(jié)構(gòu)數(shù)據(jù)中抽取實體、關(guān)系以及實體屬性等結(jié)構(gòu)化信息的技術(shù)。關(guān)鍵技術(shù)包括:實體抽取、關(guān)系抽取和屬性抽取。
1、實體抽取,也稱為命名實體識別(named entity recognition,NER),是指從文本數(shù)據(jù)集中自動識別出命名實體。
當前主流技術(shù)為面向開放域(open domain)的實體抽取。
2、關(guān)系抽取,為了得到語義信息,從相關(guān)語料中提取出實體之間的關(guān)聯(lián)關(guān)系,通過關(guān)系將實體聯(lián)系起來,才能夠形成網(wǎng)狀的知識結(jié)構(gòu)。其技術(shù)研究已經(jīng)從早期的“人工構(gòu)造語法和語義規(guī)則”(模式匹配),“統(tǒng)計機器學(xué)習(xí)”發(fā)展到“面向開放域的信息抽取方法”與“面向封閉領(lǐng)域的方法”相結(jié)合。
3、屬性抽取,目標是從不同信息源中采集特定實體的屬性信息,如針對某個公眾人物,可以從網(wǎng)絡(luò)公開信息中得到其昵稱、生日、國籍、教育背景等信息。采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性和屬性值之間的關(guān)系模式,據(jù)此實現(xiàn)對屬性名和屬性值在文本中的定位。