取证案例
侦探资讯
- 正规调查公司-Dean Song被从后续行动中解雇了:他在班级中被取笑,妻子的身份暴露了,他是最大的
- 侦探调查事务所-周振的梦想诠释妻子有外遇:周振的梦想诠释使他的妻子用自己的眼睛出轨
- 侦探社电话-中国有多少人出轨?我丈夫的多次出轨值得补救吗?
- 婚姻调查的费用-人民法院案件图书馆:如果您要求第三方获得婚外情事务的赔偿,但没有非法财产的目的,则不
联系我们
联系人:陈先生
手机:13728687007
电话:13728687007
邮箱:youweb@126.com
地址:广东省佛山市
取证案例
情感吧 出轨调查-搜索代码,存储库,用户,问题,拉请求
- 浏览 ()
1。背景和下载地址
为了促进自然语言处理技术在金融技术领域的应用和开发,Enjian Technology AI实验室最近开放了Finbert 1.0的来源,Finbert 1.0是基于BERT体系结构的金融领域的预培训的语言模型。据我们所知,这是中国第一个开源的中国BERT预培训模型,可以在金融领域接受大规模语料库进行培训。与Google发行的中国本地BERT相比,开源的Bert-WWM和Roberta-wwm-Ext模型的Iflytek实验室模型情感吧 出轨调查-搜索代码,存储库,用户,问题,拉请求,开源Finbert 1.0预培训模型已在多个金融领域的下游任务方面取得了重大的绩效提高。没有任何其他调整,F1得分将直接提高至少2到5.7个百分点。
对于深度学习时代的自然语言处理技术,我们通常认为有两个主要的里程碑工作。第一个里程碑是2013年Word2Vec代表的矢量技术一词;第二个里程碑是伯特(Bert)在2018年代表的深度预训练的语言模型。一方面,由伯特(Bert)代表的深度预培训模型在几乎所有子场中都达到了新的最新技术,包括文本分类,名为“实体识别,Q&A”和其他子场;另一方面,作为一般训练的一般模型,BERT的出现还显着降低了NLP算法工程师在特定应用中的重大工作,并且已经从以前的魔术改造的网络转变为微调BERT,因此可以快速获得具有出色性能的基线模型。因此,深度训练的模型已成为一项基本技术,对于各个AI团队至关重要。
但是,目前在各个中国领域的开源深入培训模型主要用于一般领域的应用需求,并且在包括Finance在内的许多垂直领域中都没有看到相关的开源模型。 Enjian Technology希望通过此开源来促进金融领域中NLP技术的应用和开发。我们欢迎学术界和行业的同事下载和使用它。当时间合适时,我们还将推出Finbert 2.0和3.0的性能。
模型下载地址:
如何使用:与Google发布的本机Bert相同佛山私人调查取证,只需直接替换相应的路径。对于使用不同深度学习框架的使用,请参阅以下项目:
注意:我们的Pytorch版本模型通过TensorFlow下的模型转换。有关特定的转换代码,请参考此处。
2。模型和预训练方法
2.1。网络结构
熵简化的Finbert采用了与Google在网络结构中发布的本机Bert相同的架构,其中包括两个版本:Finbert-Base和Finbert-Large。前者采用12层变压器结构,后者采用了24层变压器结构。考虑到实际使用的便利性和普遍性,这次发布的模型是Finbert-Base版本,本文的后面是指Finbert-Base。
2.2。培训材料
Finbert 1.0中使用的预培训的语料库主要包括三个主要的财务语料库,如下:
对于以上三种类型的语料库,在金融业务专家的指导下,我们筛选和预处理各种语料库的重要部分,然后获得最终用于模型培训的语料库,包括总共30亿个代币,超过了中国本地伯特本地培训量表。
2.3。预训练方法
训练框架图
如上图所示,芬伯特(Finbert)采用了两个主要类别的培训任务,即单词级预训练和任务级预训练。两种类型的预训练任务的详细信息如下:
(1)在单词级别进行预训练
单词级预训练首先包括两种类型的子任务,即芬兰整个单词掩码(FWWM)和下一个句子预测(NSP)。同时,在培训中,为了节省资源,我们采用了类似于Google的两阶段预训练方法。第一阶段预训练的最大句子长度为128,第二阶段预训练的最大句子长度为512。两种任务类型的特定形式如下:
芬兰整个单词面具(FWWM)
整个单词蒙版(WWM)通常翻译为完整单词掩码或整个单词掩码,是Google于2019年5月发布的BERT升级版本,该版本主要改变了原始预训练阶段的训练样本生成策略。简而言之,原始的基于文字的单词分割方法将一个完整的单词分为几个子字。在生成训练样本时,这些分开的子词将被随机掩盖。在整个词掩码中,如果一个完整单词的文字子字是蒙版,则同一单词的其他部分是蒙版,即完整的单词蒙版。
在Google的中国本地BERT中,该输入被单词粒度分开,并且不考虑该领域中同时发生的单词或短语之间的关系,因此无法学习领域中隐性的先验知识,从而降低了模型的学习效果。我们在金融领域的Corpus预培训中应用了完整单词掩码的方法,即,所有由同一单词组成的汉字均已映射。首先,我们在金融领域构建了一个字典,其中大约有100,000个来自金融词典和金融学术文章的单词。然后,提取了前科普斯和金融词典中出现的单词或短语以进行全词掩护前训练,以便该模型可以在现场学习先验知识,例如财务概念与财务概念之间的相关性,从而增强模型的学习效果。
下一个句子预测(NSP)
为了训练一个了解句子之间关系的模型,引入了下一个句子预测任务。有关特定方法,请参考原始BERT文献。 Google的论文结果表明,这项简单的任务对问答和自然语言推理任务非常有益。在训练过程中,我们还发现,删除NSP任务后,模型效应略有降低。因此,我们保留了NSP预训练任务,学习率基于Google正式推荐的2E-5,而热身步骤为10,000步。
(2)在任务级别进行预训练
为了使模型能够更好地学习语义层面的财务领域知识,并更全面地学习了金融领域的单词和句子的特征的分布,我们还介绍了两种类型的监督学习任务,即研究和报告行业分类和财务新闻的财务实体识别任务,如下所示:如下:如下:如下:
研究报告行业分类
有关公司评论和行业评论的研究报告自然具有良好的行业属性,因此我们使用此研究报告自动与行业标签一起生成大量语料库。基于此,构建了用于行业分类的文档级监督任务。各个行业类别的语料库在5K到20K之间,共有约40万个文件级语料库。
金融新闻的金融实体识别
与研究和报告行业分类任务类似,我们使用了现有的企业工业和商业信息数据库以及上市公司的董事,主管和高级管理人员的公开可用信息,以建立一个基于财务和财务新闻的指定实体识别的任务语料库,包括总计500,000个受监管的语料库。
总体而言,为了使Finbert 1.0模型能够在金融领域学习更多语义知识,我们根据本地BERT模型的预培训进行了以下改进:
2.4。预训练加速度
目前,NVIDIA为软件和硬件提供的完整的深度学习和炼金术系统提供了丰富的技术支持和框架优化,一个非常重要的一点是如何加速培训。在Finbert训练中,我们主要使用Tensorflow XLA和自动混合精度进行预训练加速度。
2.4.1。 Tensorflow XLA用于训练加速度
XLA称为加速线性计算。如果在TensorFlow中启用了XLA,则编译器将在执行阶段中优化TensorFlow计算图,从而通过生成特定的GPU Core序列来节省计算过程的硬件资源的消耗。一般而言,XLA可以提供40%的加速度。
2.4.2。自动混合精度
一般的深度学习模型培训过程采用单精度(Float 32)和双重精确(双重)数据类型,从而导致预先训练的模型对机器视频记忆具有很高的要求。为了进一步减少内存开销并加快Finbert预训练和推断,我们尝试了最新的Tesla V100GPU进行混合精确训练。混合精度训练是指混合FP32和FP16的训练方法。考虑到FP32的稳定性和FP16的速度,使用混合精度训练可以在减少内存开销的同时加速训练过程。尽管确保模型的准确性不会降低,但模型的视频记忆使用量减少了大约一半,并且模型的训练速度提高了约3次。
3。下游任务实验结果
为了比较基线效应,我们从Enchan Jian Technology实际业务(包括句子级别和章级任务)中提取了四个典型的财务领域数据集。在此基础上,我们对下游任务进行了比较和测试,其中包括Finbert和Google本地中国Bert,Bert-WWM和Roberta-WWM-Ext,包括三种类型的模型,这些模型由Iflytek实验室开放。在实验中,为了维持测试的公平性,我们没有进一步优化最佳学习率,并且BERT-WWM的最佳学习率直接用于所有四个模型:2E-5。
所有实验结果都是五个实验测试结果的平均值,托架中五个测试结果的最大值,评估指数为F1得分。
3.1。实验1:财务短信类型分类
3.1.1。实验任务
此任务来自与仙境技术信息流有关的产品。它的核心任务是根据文本内容对简短的财务文本进行分类,并标记它们,以便用户可以更及时,更准确地访问他们感兴趣的内容。
我们简化了原始任务,并从原始15个类别中提取了六个最困难的类别,以进行实验。
3.1.2。数据集
该任务的数据集包含总共3,000个样本,包括约1,100个培训集数据和约1,900个测试集数据。每个类别的分布如下:
3.1.3。实验结果
任务\ Modelbertbert-wwmroberta-wwm-extfinbert
财务短信类型分类
0.867(0.874)
0.867(0.877)
0.877(0.885)
0.895(0.897)
3.2。实验2:金融短信行业分类
3.2.1。实验任务
The core task of this task is to classify short texts in finance according to the text content, and use CITIC's first-level industry classification as the classification benchmark, including 29 industry categories such as catering and tourism, commerce and retail, textile and clothing, agriculture, forestry, animal husbandry and fishery, construction, petroleum and petrochemicals, communications, and computers.它可用于多个下游应用程序,例如财务公众舆论监控,研究报告/公告智能搜索。
3.2.2。数据集
该任务的数据集包含1200个样本,包括约400个培训集数据和约800个测试集数据。训练集中的类别数量在5到15之间,这是一个典型的小样本任务。每个类别的分布如下:
3.2.3。实验结果
任务\ Modelbertbert-wwmroberta-wwm-extfinbert
金融短信行业分类
0.939(0.942)
0.932(0.942)
0.938(0.942)
0.951(0.952)
3.3。实验3:财务情感分类
3.3.1。实验任务
这项任务来自恩格里亚技术的财务质量控制相关产品。其核心任务是根据财务事件或目标评论文本的文本内容对财务情绪进行分类,并将其用于随后的市场情绪观察和个人股票相关分析。
这项任务总共有4个类别,对应于不同的情绪极性和强度。
3.3.2。数据集
此任务的数据集包含2,000个样本,包括约1,300个培训集数据和约700个测试集数据。每个类别的分布如下:
3.3.3。实验结果
任务\ Modelbertbert-wwmroberta-wwm-extfinbert
财务情感分类
0.862(0.866)
0.850(0.860)
0.867(0.867)
0.895(0.896)
3.4。实验4:金融领域的命名实体识别
3.4.1。实验任务
此任务来自与Enchan Jian技术知识图有关的产品。它的核心任务是识别和提取出现在财务文本中的实体(公司或人员名称)情感吧,主要用于实体提取和实体链接知识图的链接。
3.4.2。数据集
数据集总共包含24,000个样本,包括3,000个培训集数据和21,000个测试集数据。
3.4.3。结果显示
任务\ Modelbertbert-wwmroberta-wwm-extfinbert
公司名称实体识别
0.865
0.879
0.894
0.922
字符名称实体识别
0.887
0.887
0.891
0.917
3.5。概括
在此基线测试中,我们从在财务方案中遇到的四种实际业务问题和比较实验中遇到的数据开始,包括金融文本行业分类任务,财务情感分析任务和财务实体识别任务。比较Finbert和Google本地中文Bert,Bert-WWM和Roberta-Wwm-Ext的三个共同领域
可以看出,芬伯特大大改善了其效果,并且在F1得分上平均可以增加2〜5.7个百分点。
4。结论
本文介绍了Finbert的开源背景,培训细节和四种类型的比较实验结果。欢迎来自相关领域的其他团队提供更多,更丰富的比较实验和申请案例,以便我们可以共同促进自然语言处理技术在金融领域的应用和开发。接下来,恩卡曼·吉安·AI团队将根据预期的规模,培训时间和培训前方法进行更多的创新和探索,以开发预培训模型,以更好地了解财务领域,并在正确的时间发布Finbert 2.0和Finbert 3.0。敬请关注。
出于任何疑问,请与我们联系:
5。参考
[1]Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. (2018). https://doi.org/arXiv:1811.03600v2 arXiv:1810.04805
[2]Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, and Jaewoo Kang. 2019. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics
[3]Kexin Huang, Jaan Altosaar, and Rajesh Ranganath. 2019. Clinicalbert: Modeling clinical notes and predicting hospital readmission. arXiv:1904.05342.
[4]Iz Beltagy, Kyle Lo, and Arman Cohan. 2019. Scibert: Pretrained language model for scientific text. In Proceedings ofEMNLP.
[5]Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101, 2019.
[6]Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. RoBERTa: A robustly optimized BERT pre-training approach. arXiv preprint arXiv:1907.11692, 2019.
[7]Micikevicius, Paulius, et al. “Mixed precision training.” arXiv preprint arXiv:1710.03740 (2017).
[8]https://github.com/ymcui/Chinese-BERT-wwm/
[9]https://github.com/huggingface/transformers