一.MMC-PCL-Activity
1.数据集描述
我们开发了支持多种设备、多种传感器动态适配的实时行为数据自动采集系统,支持设备热插拔。采集了14位学生31天的实时行为数据流,标注了9类日常事件和16类日常活动,共计6944个事件样本。我们采集的连续数据包含8种类型,包括 手环上的心率、步数,手机上的加速度计、陀螺仪、天气、GPS、图像/视频、APP使用情况。
2.采集系统
3.数据来源
数据来源 |
数据类型 |
智能手机 |
加速度 |
陀螺仪 |
天气信息 |
GPS |
图片 |
App使用情况 |
智能手环 |
心率 |
步数 |
4.数据示例
5.数据量
事件 |
活动 |
数量 |
休息 |
睡觉 |
399 |
小憩 |
390 |
饮食 |
吃饭 |
410 |
做家务 |
拖地 |
340 |
扫地 |
347 |
雇员工作 |
开会 |
343 |
电脑办公 |
391 |
学习 |
阅读 |
388 |
沟通与交流 |
打电话 |
382 |
在线聊天 |
382 |
谈话 |
373 |
娱乐 |
看电视 |
392 |
听音乐 |
386 |
玩游戏 |
390 |
锻炼身体 |
跑步 |
380 |
通勤 |
走路 |
413 |
6.下载
二.MFKG & MFQA
1.MFKG描述
我们从中文食物网站美食杰上爬取到超过127K的食谱,包括43K个食谱成份、304个标签信息和超过1.2M张的食物图片。
我们将食谱(名字)、食谱成份和食谱标签定义为图谱的实体,将食谱名字、食谱图片、制作流程和营养分析作为食谱实体的属性,并且定义了三种实体之间的三类关系(食谱和食谱成份实体之间的关系—拥有成分(Has_ingredient),食谱和标签之间的关系—适合该标签(Has_tag)和不适合该标签(Has_tag_neg))。
最终我们得到一个包括超过171k实体和1.9M条三元组的大型多模态食物知识图谱(MFKG)。
2.MFQA描述
通过手工创建模板做替换的方法,我们从知识图谱提取出大量自监督信息构建了一个食物健康领域的问答数据集。
该图谱包含三类标签:描述性标签,疾病标签,功能性标签。为了研究食物与健康的关系,我们使用一种功能性标签减肥和三种疾病类型的标签(高血糖,高血压,高血脂)来构建问题。每一个标签,我们选取至少1000条“适合该标签”关系和1000条“不适合该标签”关系。最终得到一个9476条数据的数据集,并以8:1:1的比例划分为训练、验证和测试集。
统计类型 |
数据类型 |
数据量 |
标注类型 |
减肥 |
3476 |
高血糖 |
2000 |
高血压 |
2741 |
高血脂 |
2735 |
数据划分 |
训练集 |
7580 |
验证集 |
948 |
测试集 |
948 |
3.下载