数据集介绍

一.MMC-PCL-Activity

1.数据集描述

我们开发了支持多种设备、多种传感器动态适配的实时行为数据自动采集系统,支持设备热插拔。采集了14位学生31天的实时行为数据流,标注了9类日常事件和16类日常活动,共计6944个事件样本。我们采集的连续数据包含8种类型,包括 手环上的心率、步数,手机上的加速度计、陀螺仪、天气、GPS、图像/视频、APP使用情况。

2.采集系统

3.数据来源

数据来源 数据类型
智能手机 加速度
陀螺仪
天气信息
GPS
图片
App使用情况
智能手环 心率
步数

4.数据示例

5.数据量

事件 活动 数量
休息 睡觉 399
小憩 390
饮食 吃饭 410
做家务 拖地 340
扫地 347
雇员工作 开会 343
电脑办公 391
学习 阅读 388
沟通与交流 打电话 382
在线聊天 382
谈话 373
娱乐 看电视 392
听音乐 386
玩游戏 390
锻炼身体 跑步 380
通勤 走路 413

6.下载

数据集已放在谷歌云盘上:MMC-PCL-Activity

二.MFKG & MFQA

1.MFKG描述

我们从中文食物网站美食杰上爬取到超过127K的食谱,包括43K个食谱成份、304个标签信息和超过1.2M张的食物图片。 我们将食谱(名字)、食谱成份和食谱标签定义为图谱的实体,将食谱名字、食谱图片、制作流程和营养分析作为食谱实体的属性,并且定义了三种实体之间的三类关系(食谱和食谱成份实体之间的关系—拥有成分(Has_ingredient),食谱和标签之间的关系—适合该标签(Has_tag)和不适合该标签(Has_tag_neg))。 最终我们得到一个包括超过171k实体和1.9M条三元组的大型多模态食物知识图谱(MFKG)。

2.MFQA描述

通过手工创建模板做替换的方法,我们从知识图谱提取出大量自监督信息构建了一个食物健康领域的问答数据集。 该图谱包含三类标签:描述性标签,疾病标签,功能性标签。为了研究食物与健康的关系,我们使用一种功能性标签减肥和三种疾病类型的标签(高血糖,高血压,高血脂)来构建问题。每一个标签,我们选取至少1000条“适合该标签”关系和1000条“不适合该标签”关系。最终得到一个9476条数据的数据集,并以8:1:1的比例划分为训练、验证和测试集。

统计类型 数据类型 数据量
标注类型 减肥 3476
高血糖 2000
高血压 2741
高血脂 2735
数据划分 训练集 7580
验证集 948
测试集 948

3.下载

数据集已放在百度云盘上:MFKGMFQA