產業專利知識平台
PubChem化學文獻資料庫檢索導覽

 

 

 

PubChem化學文獻資料庫檢索導覽

一、前言

PubChem(https://pubchem.ncbi.nlm.nih.gov/)是有機化學分子及其生物活性的資料庫,目前由美國國家生物技術資訊中心(National Center for Biotechnology Information, NCBI)維護,該中心隸屬於美國國家醫學圖書館(The United States National Library of Medicine, NLM),更上層單位是美國國家衛生院(National Institutes of Health, NIH)。PubChem與美國化學學會(American Chemical Society, ACS)的化學文摘服務搜索系統(https://pubs.acs.org/)並列全球最知名的化學資料庫。

二、PubChem化學文獻資料庫

(一)PubChem化學文獻資料庫介紹

PubChem典藏數據量龐大,截至2022年7月,收錄項目有:

  1. Compounds:1.11億個化合物。
  2. Substances:2.82億個物質。
  3. BioAssay:146.6萬個生物檢定法。
  4. Bioactivities:2.95億個源自BioAssays的生物活性資料點。
  5. Genes:10.3萬個利用BioAssays和PubChem Pathways測定的基因,並且在專利(PubChem Patents)中有記載。
  6. Proteins:18.5萬個利用BioAssays且存在於PubChem Pathway的蛋白質,並且在專利(PubChem Patents)中有記載。
  7. Taxonomy:11.2萬個利用BioAssays測試的基因或蛋白質且存在於PubChem Pathway的分類法,並且在專利(PubChem Patents)中有記載。
  8. Pathways:23.8萬個化學物質、基因和蛋白質之間的相互作用路徑。
  9. Literature:3432萬篇文獻帶有PubChem資料鏈結。
  10. Patents:4239萬篇專利帶有PubChem資料鏈結。
  11. Data Sources:目前有868個組織為PubChem提供資料。

(二)對企業之效用

PubChem對從事化學相關的企業是難得的寶庫,對公眾開放且提供FTP下載服務,可批次下載大量資料,便於企業下載後利用,網址是https://ftp.ncbi.nlm.nih.gov/pubchem/,圖1是PubChem FTP服務的畫面,每個目錄的說明如下:

  1. Bioassay:PubChem生物測定數據。。
  2. Compound:PubChem化合物的全部資料,不含註釋和3D構象(conformer)模型。
  3. Compound_3D:計算生成PubChem化合物的3D結構,以及其他3D屬性,例如分子體積、形狀四極桿(shape quadrupoles)、形狀指紋(shape fingerprint)等。
  4. Other:其他PubChem資料,例如Google Patents和IBM的化學專利資料。
  5. RDF:以資源描述框架(Resource Description Framework, RDF)呈現的PubChem數據。
  6. Substance:PubChem物質的完整資料。
  7. Target:PubChem BioAssays標的之基因列表。
  8. Presentations與PubChem有關的投影片。
  9. publications:與PubChem有關的文章,完整的出版物列表請見https://pubchemdocs.ncbi.nlm.nih.gov/publications。
  10. specifications:PubChem記錄的數據規範。

圖1

圖1、PubChem FTP服務

 

 

三、如何使用PubChem化學文獻資料庫

PubChem首頁如圖2,搜尋框可接受化學物質的多種表達方式作為關鍵字,因為PubChem檢索標的是化學分子並提供與其有關的資料,不像期刊資料庫有作者、研究機構等書目資料並提供進階檢索功能,PubChem只有簡易檢索服務。

圖2

圖2、PubChem首頁

 

PubChem首頁功能項目有:

  1.   網站操作及說明:點選首頁最上方的About會開啟PubChem Docs,提供各類說明文件,圖3是點選Tutorials後展示的教學文獻,PubChem是重要的研究工具,為配合研究需求,PubChem提供各項功能的深入說明。Submit是給研究人員上傳成果的連結,PubChem審核通過後,上傳的資料會出現在對應的資料庫並提供公眾使用。
  2.   檢索功能:搜尋框可輸入關鍵字進行檢索,如果對PubChem操作不熟悉,可先嘗試PubChem提供的檢索建議,例如covid-19。
  3.   化學結構檢索:提供繪製化學結構式的介面,使用者繪製化學結構後進行檢索。
  4.   清單檢索:可上傳多個化學分子的編號進行檢索。
  5.   資料瀏覽:以多種分類架構瀏覽化學分子相關資料。
  6.  元素週期表:可選擇顯示不同訊息的化學元素週期表。。

圖3

圖3、PubChem的教學文獻

 

1.1 檢索功能與下載

PubChem的檢索條件非常多樣化,常用的有化學分子的名稱,例如通用的商品名稱、IUPAC命名(International Union of Pure and Applied Chemistry chemical nomenclature)、其他命名等,也可使用分子式、PubChem CID、CAS編號、InChI、InChIKey、SMILES等當作檢索條件。

使用分子式檢索會在檢索結果得到同分異構物,同分異構物指彼此擁有相同分子式,但結構式不相同的多種分子,例如丙醇的分子式是C3H8O(或C3H7OH),1-丙醇和2-丙醇是兩個同分異構物,三者的化學特性並不相同,使用分子式檢索會降低檢索效率

PubChem CID是PubChem指定給化學分子的編碼;CAS編號(CAS Registry Number)是美國化學會的化學文摘社分配之識別碼。

InChI是國際化合物標識(International Chemical Identifier),是唯一標識化合物IUPAC名稱的字串;InChIKey是InChI的雜湊函數,固定以27字元表示,便於資料庫檢索。

SMILES是簡化分子線性輸入規範(Simplified molecular input line entry specification),以ASCII字串描述分子結構,可用來產生2D圖形或3D分子結構。

以Aspirin(阿斯匹靈)為例,常用做為檢索條件的資料如圖4所示。

圖4

圖4、Aspirin的多種辨識資料

 

PubChem的搜尋框如圖5隨著輸入條件變化,自動調整推薦檢索建議,並分成化學分子、基因、分類法三類。化學分子的命名非常多樣化,推薦清單可能有一種以上符合檢索目標,使用者須自行確認檢索結果。

圖5

圖5、PubChem自動推薦檢索清單

 

選定檢索名稱後,PubChem展示檢索結果頁面如圖6,有最佳檢索結果(Best Match)、其他的相關化學分子、物質、路徑、Bioassays、學術文獻和專利等檢索結果頁籤,以及限縮檢索結果的過濾器、檢索結果下載等功能區。

圖6

圖6、PubChem檢索結果頁面

 

過濾器針對不同檢索結果提供相異限縮條件,如圖7,使用方式為拖曳過濾器端點的圓圈以調整過濾範圍。相關化學分子頁籤的過濾器,過濾條件以分子特定為核心,包含分子量、可旋轉化學鍵數、重原子數、氫鍵供給者數量、氫鍵接受者數量、極性表面積以及其他參數。專利頁籤過濾器的過濾條件很單純,只有優先權日和公告日;學術文獻頁籤過濾器的過濾條件只能選擇一般文章(Article)以及回顧文章(Review)。

圖7

圖7、檢索結果過濾器

 

PubChem提供每種檢索結果頁籤的資料下載,先選定結果頁籤並確認選項,再點選下載,以相關化學分子頁籤為例,選項如圖8所示,點選Download後,出現三種下載方式:

  1. 檢索結果摘要:可以選擇CSV文字檔、JSON或XML格式下載。
  2. 化學結構紀錄:可以選擇下載2D或3D結構,檔案格式可以選擇SDF、JSON、XML或ASNT格式。
  3. 化學結構圖檔:只提供PNG格式,但可以選擇大圖或小圖。

圖8

圖8、檢索結果下載

 

學術文獻和專利等檢索結果頁籤的下載方式如圖9,建議一般使用者下載CSV格式便於後續使用。專利清單提供的欄位有專利號、涉及的化學分子編號CID、涉及的物質編號SID、專利名稱、摘要、優先權日、公開或公告日、發明人、申請人、Bioassay生物檢定紀錄AID、涉及的基因Gene ID、涉及的蛋白質ID、涉及的分類法ID等。

圖9

圖9、學術文獻和專利檢索清單

 

 

1.2 化學結構檢索

對於研究者來說,直接以化學結構進行檢索至關重要,可確認是否有結構上相近的化學分子存在。PubChem提供Chemical Structure Sketcher繪製結構式,詳細的操作方法請參考教學文件,點選首頁最上方的About會開啟PubChem Docs,再於右上角的搜尋欄檢索Chemical Structure Sketcher或直接輸入文件網址:https://pubchemdocs.ncbi.nlm.nih.gov/chemical-structure-sketcher2。

Chemical Structure Sketcher提供以分子結構、InChI、InChIKey、SMILES等檢索條件,圖10以Aspirin輸入InChI檢索為例,先選擇StdInChl並輸入Aspirin的InChI字串,系統即自動產出結構式,再點選檢索此結構式,最後PubChem導向檢索結果頁面。

  1. 拼寫造成的勘誤。
  2. 作者更正姓名或引用文獻以及與研究方法有關的錯誤,但僅限於不會改變已發表文章的整體基本結果或結論的錯誤,如果涉及變更作者、數據或其他重大議題,各方需以書面表示同意,必要時會徵詢編輯的意見。
  3. 對論文中的特定問題進行澄清和重新審查,且作者將回覆提問。
  4. 撤稿,撤回出現重大錯誤或違反道德規範的論文,例如數據來源可疑或對實驗結果和文獻結論的有效性有疑問。

圖10

圖10、Aspirin的化學結構式檢索

 

1.3 清單檢索

如需一次檢索多個化學分子、物質、Bioassay、基因、蛋白質、反應路徑、PubMed文獻或專利,且已知其識別碼,清單檢索提供批次檢索功能。使用方式如圖11,先選擇要檢索的項目亦即識別碼種類,再選擇輸入以逗號或空格分隔的識別碼,或是上傳識別碼檔案。

圖11

圖11、清單檢索

 

1.4 資料瀏覽

PubChem整合如圖12共35種分類方式以階層架構供使用者瀏覽資料,絕大多數是化學、生物醫學相關的分類架構,例如醫學主題詞Medical Subject Headings (MeSH)或是WHO的解剖學治療學及化學分類系統(Anatomical Therapeutic Chemical (ATC) Classification System),根據藥物作用器官或系統(A)、藥物治療及藥理機制(T)、化學屬性(C)或對藥物的活性成分進行分類,PubChem提供國際專利分類(International Patent Classification, IPC),讓使用者採用不同於生物醫學的專利觀點瀏覽化學分子資料。

圖13以IPC專利分類為例,選擇WIPO後,網頁下方出現IPC樹狀結構,可點選名稱展開次階層內容。每個分類名稱後面有兩個標示,箭頭符號是開啟WIPO介紹此分類的網頁,數字標識是PubChem資料庫中屬於此分類的化學分子或專利數量。

圖12

圖12、PubChem資料瀏覽器(1)

 

圖13

圖13、PubChem資料瀏覽器(2)

 

進一步以關鍵字限縮IPC分類數量,在圖14的Keyword欄位輸入virus,得到106筆名稱內含virus的IPC分類,並會以黃色底色反白標示關鍵字出現位置,預設顯示化學分子數量,也可視需求改成顯示專利數量。預設顯示化學分子數量時,點選數字會開啟新頁面顯示化學分子清單;如果改成顯示專利數量,點選數字則開啟新頁面顯示專利清單,並且如圖15頁面所示,提供過濾器篩選檢索結果。

圖14

圖14、PubChem資料瀏覽器(3)

 

圖15

圖15、PubChem資料瀏覽器(4)

 

1.5 元素週期表

化學元素週期表是每個中學生都會接觸到的,傳統的週期表紀錄資訊局限於元素符號和原子量,PubChem提供數種週期表選擇並可下載,例如圖16下方的氧化態(Oxidation state)週期表,氫原子的氧化態有+1和-1兩種;電子親和力(Electron Affinity, eV)週期表,氫原子的電子親和力是0.754 eV。為了讓學習週期表更有趣,PubChem製作小遊戲寓教於樂,考考大家能否找到指定的元素在週期表的位置。

圖16

圖16、元素週期表

 

 

四、總結

PubChem是收集化學分子資料最完整的公開資料庫,所有資料都對公眾開放並可下載,對於有機化學、分析化學、生物醫學、材料科學等領域都很重要。PubChem資料量龐大、功能繁複,建議有興趣的讀者閱讀網站操作及說明文件,獲得完整深入的學習體驗。

 

 

 

僅分享專家個人經驗,不代表本局意見

經濟部智慧財產局 版權所有 ©2022

地址:臺北市辛亥路二段185號3樓