PubChem(https://pubchem.ncbi.nlm.nih.gov/)是有機化學分子及其生物活性的資料庫,目前由美國國家生物技術資訊中心(National Center for Biotechnology Information, NCBI)維護,該中心隸屬於美國國家醫學圖書館(The United States National Library of Medicine, NLM),更上層單位是美國國家衛生院(National Institutes of Health, NIH)。PubChem與美國化學學會(American Chemical Society, ACS)的化學文摘服務搜索系統(https://pubs.acs.org/)並列全球最知名的化學資料庫。
(一)PubChem化學文獻資料庫介紹
PubChem典藏數據量龐大,截至2022年7月,收錄項目有:
(二)對企業之效用
PubChem對從事化學相關的企業是難得的寶庫,對公眾開放且提供FTP下載服務,可批次下載大量資料,便於企業下載後利用,網址是https://ftp.ncbi.nlm.nih.gov/pubchem/,圖1是PubChem FTP服務的畫面,每個目錄的說明如下:
PubChem首頁如圖2,搜尋框可接受化學物質的多種表達方式作為關鍵字,因為PubChem檢索標的是化學分子並提供與其有關的資料,不像期刊資料庫有作者、研究機構等書目資料並提供進階檢索功能,PubChem只有簡易檢索服務。
PubChem首頁功能項目有:
1.1 檢索功能與下載
PubChem的檢索條件非常多樣化,常用的有化學分子的名稱,例如通用的商品名稱、IUPAC命名(International Union of Pure and Applied Chemistry chemical nomenclature)、其他命名等,也可使用分子式、PubChem CID、CAS編號、InChI、InChIKey、SMILES等當作檢索條件。
使用分子式檢索會在檢索結果得到同分異構物,同分異構物指彼此擁有相同分子式,但結構式不相同的多種分子,例如丙醇的分子式是C3H8O(或C3H7OH),1-丙醇和2-丙醇是兩個同分異構物,三者的化學特性並不相同,使用分子式檢索會降低檢索效率
PubChem CID是PubChem指定給化學分子的編碼;CAS編號(CAS Registry Number)是美國化學會的化學文摘社分配之識別碼。
InChI是國際化合物標識(International Chemical Identifier),是唯一標識化合物IUPAC名稱的字串;InChIKey是InChI的雜湊函數,固定以27字元表示,便於資料庫檢索。
SMILES是簡化分子線性輸入規範(Simplified molecular input line entry specification),以ASCII字串描述分子結構,可用來產生2D圖形或3D分子結構。
以Aspirin(阿斯匹靈)為例,常用做為檢索條件的資料如圖4所示。
PubChem的搜尋框如圖5隨著輸入條件變化,自動調整推薦檢索建議,並分成化學分子、基因、分類法三類。化學分子的命名非常多樣化,推薦清單可能有一種以上符合檢索目標,使用者須自行確認檢索結果。
選定檢索名稱後,PubChem展示檢索結果頁面如圖6,有最佳檢索結果(Best Match)、其他的相關化學分子、物質、路徑、Bioassays、學術文獻和專利等檢索結果頁籤,以及限縮檢索結果的過濾器、檢索結果下載等功能區。
過濾器針對不同檢索結果提供相異限縮條件,如圖7,使用方式為拖曳過濾器端點的圓圈以調整過濾範圍。相關化學分子頁籤的過濾器,過濾條件以分子特定為核心,包含分子量、可旋轉化學鍵數、重原子數、氫鍵供給者數量、氫鍵接受者數量、極性表面積以及其他參數。專利頁籤過濾器的過濾條件很單純,只有優先權日和公告日;學術文獻頁籤過濾器的過濾條件只能選擇一般文章(Article)以及回顧文章(Review)。
PubChem提供每種檢索結果頁籤的資料下載,先選定結果頁籤並確認選項,再點選下載,以相關化學分子頁籤為例,選項如圖8所示,點選Download後,出現三種下載方式:
學術文獻和專利等檢索結果頁籤的下載方式如圖9,建議一般使用者下載CSV格式便於後續使用。專利清單提供的欄位有專利號、涉及的化學分子編號CID、涉及的物質編號SID、專利名稱、摘要、優先權日、公開或公告日、發明人、申請人、Bioassay生物檢定紀錄AID、涉及的基因Gene ID、涉及的蛋白質ID、涉及的分類法ID等。
1.2 化學結構檢索
對於研究者來說,直接以化學結構進行檢索至關重要,可確認是否有結構上相近的化學分子存在。PubChem提供Chemical Structure Sketcher繪製結構式,詳細的操作方法請參考教學文件,點選首頁最上方的About會開啟PubChem Docs,再於右上角的搜尋欄檢索Chemical Structure Sketcher或直接輸入文件網址:https://pubchemdocs.ncbi.nlm.nih.gov/chemical-structure-sketcher2。
Chemical Structure Sketcher提供以分子結構、InChI、InChIKey、SMILES等檢索條件,圖10以Aspirin輸入InChI檢索為例,先選擇StdInChl並輸入Aspirin的InChI字串,系統即自動產出結構式,再點選檢索此結構式,最後PubChem導向檢索結果頁面。
1.3 清單檢索
如需一次檢索多個化學分子、物質、Bioassay、基因、蛋白質、反應路徑、PubMed文獻或專利,且已知其識別碼,清單檢索提供批次檢索功能。使用方式如圖11,先選擇要檢索的項目亦即識別碼種類,再選擇輸入以逗號或空格分隔的識別碼,或是上傳識別碼檔案。
1.4 資料瀏覽
PubChem整合如圖12共35種分類方式以階層架構供使用者瀏覽資料,絕大多數是化學、生物醫學相關的分類架構,例如醫學主題詞Medical Subject Headings (MeSH)或是WHO的解剖學治療學及化學分類系統(Anatomical Therapeutic Chemical (ATC) Classification System),根據藥物作用器官或系統(A)、藥物治療及藥理機制(T)、化學屬性(C)或對藥物的活性成分進行分類,PubChem提供國際專利分類(International Patent Classification, IPC),讓使用者採用不同於生物醫學的專利觀點瀏覽化學分子資料。
圖13以IPC專利分類為例,選擇WIPO後,網頁下方出現IPC樹狀結構,可點選名稱展開次階層內容。每個分類名稱後面有兩個標示,箭頭符號是開啟WIPO介紹此分類的網頁,數字標識是PubChem資料庫中屬於此分類的化學分子或專利數量。
進一步以關鍵字限縮IPC分類數量,在圖14的Keyword欄位輸入virus,得到106筆名稱內含virus的IPC分類,並會以黃色底色反白標示關鍵字出現位置,預設顯示化學分子數量,也可視需求改成顯示專利數量。預設顯示化學分子數量時,點選數字會開啟新頁面顯示化學分子清單;如果改成顯示專利數量,點選數字則開啟新頁面顯示專利清單,並且如圖15頁面所示,提供過濾器篩選檢索結果。
1.5 元素週期表
化學元素週期表是每個中學生都會接觸到的,傳統的週期表紀錄資訊局限於元素符號和原子量,PubChem提供數種週期表選擇並可下載,例如圖16下方的氧化態(Oxidation state)週期表,氫原子的氧化態有+1和-1兩種;電子親和力(Electron Affinity, eV)週期表,氫原子的電子親和力是0.754 eV。為了讓學習週期表更有趣,PubChem製作小遊戲寓教於樂,考考大家能否找到指定的元素在週期表的位置。
PubChem是收集化學分子資料最完整的公開資料庫,所有資料都對公眾開放並可下載,對於有機化學、分析化學、生物醫學、材料科學等領域都很重要。PubChem資料量龐大、功能繁複,建議有興趣的讀者閱讀網站操作及說明文件,獲得完整深入的學習體驗。