取证案例

侦探资讯

联系我们

联系人:陈先生

手机:13728687007

电话:13728687007

邮箱:youweb@126.com

地址:广东省佛山市

取证案例

情感 找调查侦探-情感分析(文本分类)数据集汇总

  • 浏览 ()

我想在推荐之前对评论做一些情感分析工作。我参考了网上其他博主的博客,整理了情感分析数据集的内容。大致分为两类——多分类和二分类(我比较关心)。 ),对中文和英文数据集进行了总结和整理。稍后我们会关注相关的较新论文(工作)。欢迎各位同仁补充和推荐。我们还处于探索和收集信息的阶段。

情感分析(文本分类)流程

中文数据集多分类(文本类别)THUCNews数据集

THUCNews是根据新浪新闻RSS订阅频道2005年至2011年的历史数据生成的,包含74万条新闻文档(2.19GB),全部为UTF-8纯文本格式。在原有新浪新闻分类体系的基础上,我们重新整合分类了14个候选类别:金融、彩票、房产、股票、家居、教育、科技、社会、时尚、时事、体育、星座、游戏、娱乐。使用THUCTC工具包对该数据集进行评估,准确率可以达到88.6%。

数据集地址:

今日头条文本分类数据集

数据来源:今日头条客户端数据规模:共382,688条,分布在15大类。资料格式:65524363_!_102_!_新闻娱乐_!_谢娜为李浩飞澄清网络谣言,事后她的两个动作给自己加分了_!_佟丽娅、网络谣言、快乐大本营、李浩飞、谢娜、观众

每一行都是一条数据,字段之间用_!_分隔。从前到后分别是新闻 ID、类别代码(见下文)、类别名称(见下文)、新闻字符串(仅标题)和新闻关键字。

数据集地址:

全网新闻数据(SogouCA)

多家新闻网站2012年6月至7月国内、国际、体育、社交、娱乐等18个频道的新闻数据,提供URL和文字信息

数据格式为


页面URL
页面ID
页面标题
页面内容

注意:内容字段已删除 HTML 标签并存储新闻文本。

数据集地址:

搜狐新闻数据(SogouCS)

搜狐新闻2012年6月至7月18个国内、国际、体育、社交、娱乐频道的新闻数据,提供URL和文字信息

数据格式为

页面URL
页面ID
页面标题
页面内容

注意:内容字段已删除 HTML 标签并存储新闻文本。

数据集地址:

dmsc_v2数据集

情感_情感机构_情感表达情感反应

28部电影,超过70万用户佛山私家侦探推荐,超过200万条评分/评论数据

数据集地址:

原始数据集地址:

yf_大众点评数据集

24万家餐厅、54万用户、440万条评论/评分数据

数据集地址: 原始数据集地址:

yf_亚马逊数据集

52万种商品,1100多个品类情感 找调查侦探-情感分析(文本分类)数据集汇总,142万用户,720万条评论/评分数据

原始数据集地址: 数据集地址:

二元分类(正面或负面的文本情绪)

包括领域:酒店、外卖平台、网上商城、新浪微博

ChnSentiCorp_htl_all数据集

7000余条酒店点评数据,5000余条好评,2000余条差评

数据字段:
Label:1表示正向评论,0表示负向评论
Review:评论内容

数据集地址:

waimai_10k数据集

某外卖平台收集的用户评论包括 4000 条正面评论和约 8000 条负面评论。

数据字段:
Label:1表示正向评论,0表示负向评论
Review:评论内容

数据集地址:

online_shopping_10_cats 数据集

10大类(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、电脑、酒店),共6万余条评论数据,各约3万条正面评价和负面评价

数据集下载地址:

情感表达情感反应_情感机构_情感

weibo_senti_100k数据集

新浪微博上带有情感注释的评论超过10万条,正面和负面评论各约5万条。

数据集下载地址:

简化weibo_4_moods数据集

新浪微博上有超过36万条情绪注释,包括4种情绪,其中快乐约20万条,愤怒、厌恶和抑郁各约5万条。

数据集下载地址:

其他 Datahub 数据中心

数据集包括文本分类、情感分析和知识图谱

相关地址:

知乎看山北数据集

数据集下载地址: 提取码:qbiw

AI_challenger情感分析数据集

数据集分为训练、验证、测试A和测试B四个部分。数据集中的评估对象根据不同粒度分为两个级别。第一层次是粗粒度的评价对象,例如评论文本中涉及的服务、地点等要素;第二个层次是细粒度的情感对象,比如“服务”属性中的。 “服务人员态度”、“排队等待时间”等细粒度要素。

数据集下载地址:

复旦中文文本分类语料库

资料链接: 密码:zyxa

英语数据集 Yelp

该数据集中有两个数据集,一个有 5 个评级标签(Yelp-5)情感,一个有积极和消极情绪标签(Yelp-2)。

互联网医学数据库

电影评论的情感分类。包含相同数量的积极和消极情绪样本,每个样本有 25,000 个样本。

该数据集已下载。 Liming只有两个属性:评论、情感(正面或负面)

电影评论(MR)竖起大拇指?:使用机器学习技术进行情感分类

电影文本分为积极情绪和消极情绪,共包含10662个样本。该数据集通常使用 10 倍交叉验证和随机剪切进行测试。

斯坦福情绪树库 (SST)

介绍链接:SST-2 数据集 |论文与代码

【看最优模型的代码,有点多】

在线客服
联系方式

热线电话

13728687007

上班时间

周一到周五

公司电话

13728687007

二维码
线