疑似目标篩查是開展新污染物篩查工作時承前啟後的環節。借助高分辨質譜和侯選物的一級或二級質譜庫,一方面拓展了目标分析的邊界,另一方面提高了非目标分析的效率和置信度。然而,随着新興化學品的指數級增長并進入環境,僅依賴傳統的分析手段而忽視曆史數據的追溯,将使篩查難以企及邊界,更難以滿足效率。由人工智能和大數據主導的第四次工業革命将改變很多過去研究的形式,我們也大膽的嘗試了利用自然語言處理技術開展新污染物篩查的模式(表1)。通過文本挖掘中的命名實體識别和關系提取技術,機器閱讀曆史文獻并獲取提及的總污染物名稱和環境濃度數據,策展區域特征污染物賦存信息和風險熵,從曆史數據中追溯到了大灣區水體風險分布和典型污染物列表。
太阳集团app首页環境學院暨廣東省環境污染與健康重點實驗室程飛博士、遊靜教授、李慧珍副教授及其合作者等選擇了具有芳香烴受體激活轉導(AhR)和抗氧化反應(ARE)效應的兩類特征污染物,基于90萬種物質清單,從約25000篇大灣區英文文獻中發現5247種物質在水環境中被檢出,其中包括1159種AhR類污染物和1562種ARE類污染物。由環境報道濃度和ToxCast數據中的效應阈值,估算出了生物活性風險熵(BEQ)并繪制出了大灣區水風險地圖(圖1A)。同時,利用主成分分析提取出了分别能夠代表AhR(86%)和ARE(91%)效應的主要組分,生成了共計九類的大灣區特征新污染物列表(圖1B和圖1C)。研究利用了近幾年環境科學文獻指數增長、報道信息豐富的特點,利用大數據研究模式,總結出了“未知的”而又“已知的”那些新污染物,以供後續研究工作為參考。同時,效應相關污染物數據集的策展,為非目标分析中結構規律性的探索提供了便利。
表1傳統和大數據支持下的疑似目标分析比較
圖1. 珠三角地區大數據疑似目标篩查:
A. 區域風險分布 B. 區域典型芳香烴受體類污染物 C. 區域典型抗氧化反應類污染物
相關成果近期發表在ES&T,ES&T Letters雜志上,本研究受到本研究受到廣東省科技廳(2019B151502020)、國家自然科學基金(41977343, 42007365)資助。
CHENG F, HUANG J, LI H, 等. Text mining-based suspect screening for aquatic risk assessment in the big data era: Event driven taxonomy links chemical exposures and hazards[J/OL]. Environmental Science and Technology Letters, 2023. DOI:10.1021/acs.estlett.3c00250.
CHENG F, ZHOU Z, WU F, 等. Data-driven endpoint selection in data-poor scenarios: Bioassay design for shale gas flowback and produced waters[J/OL]. Environmental Science and Technology Letters, 2022, 9(12): 1074-1080. DOI:10.1021/acs.estlett.2c00648.
CHENG F, LI H, BROOKS B W, 等. Signposts for aquatic toxicity evaluation in China: Text mining using event-driven taxonomy within and among regions[J/OL]. Environmental Science and Technology, 2021, 55(13): 8977-8986. DOI:10.1021/acs.est.1c00152.