1. [地质云]地热
基于NLP技术的地质图向量化方法及其找矿预测应用
详细信息   
摘要
寨上-马坞矿集区位于西秦岭多金属成矿带,有寨上金矿、马坞金矿、锁龙金矿、新庄里金矿、雪花山钨矿、半沟铅锌矿等矿床产出。前人对寨上-马坞矿集区的地质特征,成矿规律,成矿模式,物化探特征,矿床成因等方面开展了大量深入研究,然而,传统找矿预测方法进展有所减缓,急需一种新方法为该地区找矿预测工作带来新进展以及新思路。人工智能以及NLP(Natural Language Processing)技术在该区域的应用开展较少。如何充分挖掘利用地质图以及文本资料,提取其中的找矿预测信息,提高找矿预测的效果是目前急需攻克的研究方向。本文在收集、整理寨上-马坞地区图件、数据资料的基础上,针对文本资料展开收集,并构建语料库,训练、获取四种语言模型并进行词嵌入,以及句子嵌入,以此作为研究区地质图网格化的内容,将向量化地质图及物化探数据作为输入层,利用卷积神经网络进行找矿预测,圈定了3处找矿靶区。研究工作对于人工智能找矿预测方法具有探索意义,同时对寨上-马坞矿集区的找矿勘探具有实际应用价值。主要研究内容及取得的认识如下:(1)完善了一套语料库构建的流程:针对“西秦岭”、“寨上-马坞”等关键词收集期刊文献、学位论文、报告、专著等文献资料,构建了三百万余词的地质语料库。(2)在所构建语料库的基础上,训练Word2vec、BERT等语言模型。针对研究区地质图整理包含“岩性+时代”两方面信息的地质体属性句。输入语言模型获取句向量嵌入。将句子向量赋予对应的属性网格,构建向量化地质图,为地质图赋予语义信息。(3)使用卷积神经网络,以赋予属性文本句向量的网格,以及物化探数据作为网络输入。提取研究区内的已知矿床(点)坐标作为网络输出,来训练网络。来预测找矿靶区。结合地质信息,共圈定3处找矿靶区。另外,测试数据集、参数、词嵌入方法等方面对预测效果的影响。为研究区找矿勘探提供了新的方向。