正在阅读:创建数据管理计划的十项简单规则

创建数据管理计划的十项简单规则

2016-06-27 10:12:02来源:数据分析网 原标题:创建数据管理计划的十项简单规则 关键词:数据管理计划大数据原则阅读量:31880

导读:数据管理计划(DMP)是一个文档,描述了在项目期间你将如何进行数据的处理,以及在项目结束后数据将会发生什么变化。
  【中国智能制造网 技术前沿】研究论文和数据产品是科学企业的核心成果。政府、非政府组织,以及科研的私人基金会赞助商正愈加认识到研究数据的价值。其结果是,多数出资人现在要求足够详细的数据管理计划应该作为研究建议提交的一部分。数据管理计划(DMP)是一个文档,描述了在项目期间你将如何进行数据的处理,以及在项目结束后数据将会发生什么变化。
  
  创建数据管理计划的十项简单规则
  
  这类计划通常涵盖数据全部或部分生命周期——从数据发现、收集和组织(如电子表格,数据库)、通过质量保证/质量控制、文档(例如数据类型,实验室方法),以及数据的使用,到数据保存及其与他人的分享(如数据政策和传播方法)。图1刻画了假设研究和数据生命周期之间的关系,并突出了文件中提出的规则的联系。该DMP经过了同行的审查,其中的一部分用来评价一个项目的价值。该计划还记录与投资项目相关的数据管理活动,并可以在绩效考核阶段重新审核。
  
  研究生命周期(A)的数据生命周期(B)的关系
  
  图1.研究生命周期(A)的数据生命周期(B)的关系。突出圆圈指的是与数据生命周期的步骤关联性密切的规则。
  
  作为研究生命周期(A)的一部分,很多科研人员通过采集(2)掺入(3)了各种分析和可视化元素的数据进行想法和假设的测试(1),形成了之后发表(4)在文献上面的诠释研究结果的论文,并通过其它机制传播(例如,会议演讲,博客,微博),而且这常常会导致重新返回(1)新的想法和假设。在数据生命周期(B)中,研究者们一般制定(1)数据在该项目期间和项目后期的管理计划,发现(2)并采集现存的数据资源,收集(3)并组织新的数据资源,确保(4)数据的质量,描述(5)数据,使用(6)分析,模型,可视化等方面的数据,保存(7)数据并于他人(例如,研究人员,学生,决策者)分享(8),这种步骤可能导致新的想法和假设。
  
  1确定研究赞助商的要求
  
  研究机构通常制定自己的标准方法和途径来管理和传播数据。同样,研究赞助商往往对DMP有非常具体的期望。比如说,维康信托基金会、戈登和贝蒂穆尔基金会(GBMF)、美国国立卫生研究院(NIH)以及美国国家科学基金会(NSF)同样都资助了计算生物学的研究,但在他们的DMP要求明显不同。
  
  首先了解该组织规定的要求可以节省大量的时间和精力。科研赞助商通常会把DMP的开发需求写在邀标书(RFP)中,或者发布到网上的标书指南中。
  
  不管之前你是否已将提案提交给特定资助项目,始终重要的是要记得检查新版的RFP,并研究赞助商的网站,以核实他们的要求近是否已经改变,以及如何改变。请记住,主要目标应该是建立一个对你的项目非常有用的计划。因此,良好的数据管理计划可以而且常常包含比研究自助者所要求的多得多的信息。
  
  2确定将要收集的数据
  
  每个DMP的组成都取决于你对将要收集的数据了解多少,以及所收集的数据的类型。显然数据量是很重要的,因为管理10TB级的数据量要比管理10兆字节数据量花费更多的基础设施和人员方面的成本。但是,数据的其它特性也影响成本的投入,包括元数、数据的质量保证和保存策略,甚至包括数据的策略。一个好的计划应该包括充分了解所收集数据的信息性质,包括:
  
  数据类型。一个良好的步就是列出你希望收集或创建各种数据的类型。这可以包括文本、电子数据表软件和算、模、图像和电、音频文件以及患者的病历。请注意,许多研究赞助商把数据定义得很广泛,包括实体馆藏、软件和源代码以及课程教材。
  
  数据来源。数据可能来自人类直接观测结果、实验室和现场仪表、实验、模拟,以及其他研究的数据的汇编。评审员和赞助商可能对数据的专用性的理解、从其他研究中编制数据、涉及人类受试者特别感兴趣,他们也感兴趣是否你的数据按照其规定限制了他们的使用或者再发布的权限。
  
  数据量。预期收集的数据总体积和文件总数都会可能会影响其他数据的管理活动。
  
  数据与文件格式。今天我们可以接受的技术变化和格式可能很快就会过时。的选择,包括那些被科学界并广泛采用的基于开放标准的非专有格式。如果数据未经压缩,也未加密,并使用标准字符编码储存的话,数据可以被长期的读取。的类型,来源,体量,以及数据的格式可以不事先知道,这取决于研究的性质和独特性。在这种情况下,该解决方案应该对计划迭代更新。(详见规则9)
  
  3确定组织数据的方式
  
  一旦理解了要收集数据的体积和类型,下一个明显步骤就是确定如何组织和管理数据。对于许多项目,会产生少量数据表,这些数据表可以借助商业或开源电子表格程序进行有效的管理。较大的数据量,并具有使用约束性质的,可能需要使用像ORACLE或mySQL这样的关系数据库管理系统(RDBMS)进行管理,或者使用地理信息系统(GIS)进行地理空间数据层的管理。
  
  有关如何组织和管理数据的细节,可以写满好几页的文本,事实上,这些文本应记录为项目的进展细节。那些在项目中所使用的软件工具应该可以满足项目预期的任务要求。根据赞助商的要求和空间限制,指定文件命名、标识符以及版本控制的规定非常重要。
  
  4解释数据将的记录方式
  
  数字和字符的每一行每一列具有很少或几乎没有意义,除非它们以某种方式记录。元数据——关于是什么、何地、何时、为何以及如何对数据进行收集,处理和解释的细节——提供一种使数据和文件被发现、使用和正确的引用的信息。元数据包括了数据和文件如何被命名、物理结构以及存储的描述,也包括了关于实验、分析方法、研究场景的细节。创造全面综合的元数据所需要的努力可能会因为数据复杂性,类型和数据量有实际上的不同。
  
  一个健全的文档策略,可以基于三个步骤。首先,应确定被捕获数据信息的类型,以使研究人员发现、获取、解释,使用并引用您的数据。第二,确定是否存在可以被采取以社区为基础的元数据模式或标准(即,元数据元素的优选集)。第三,确定可用于创建和管理元数据内容(例如,Metavist,形态)的软件工具。
  
  好的做法是指定一个负责人来维护一个包含所有的项目细节的电子实验室笔记本。笔记本好能定期由其他团队成员审查、修改以及复制。记录在笔记本中的元数据为那些和存储、重复使用并共享的数据产品有关的元数据提供了基础。
  
  5描述如何保证数据质量

  
  质量保证和质量控制(QA/QC)指的是用于测量,评估和改进产品(例如,数据,软件等)的质量的过程。这可能需要遵循特定的QA/QC准则,取决于研究资助的性质。它是描述您计划在项目聘请QA/QC措施很好的做法。这些措施可以包括训练活动、仪器校准和验证测试,双盲数据输入,以及统计和可视化的方法的错误检测。简单的图形化数据探索的方法(例如,散点图,映射)可宝贵的检测异常和错误的方法。
我要评论
  • 物流智能转型新引擎:DeepSeek+物流

    DeepSeek 物流不仅是技术的革新,更是城市发展的重要推动力。它通过智能化手段提升物流效率、优化资源利用、减少环境影响,并为智慧城市建设提供支撑。未来,随着AI技术的不断进步,物流行业将迎来更深刻的变革。
    物流大数据服务平台
    2025-04-30 10:11:15
  • 2025年4月1日开始施行的重要新规一览

    四月,一系列新规定即将实施,包括《公共安全视频图像信息系统管理条例》、《车联网网络安全异常行为检测机制》等。
    大数据服务平台
    2025-04-02 09:31:36
  • 铁塔大数据灾害分析平台:提升自然灾害智能化预警水平

    目前,我国灾害预防面临着监测预警网络不健全、实效性不高、精准性不强,“三断”(断路、断网、断电)无法及时发现等问题,亟需建立防灾减灾预警网络,实现“灾后救助”向“灾前预防”转变的目标。
    大数据灾害分析平台
    2025-03-19 10:47:45
  • 淄博市召开大数据系统工作会议暨“三拼三比”动员部署会

    会议指出,2024年是新一轮机构改革后全市大数据系统全面履职的第一年,全市大数据系统在市委市政府的坚强领导和省大数据局的有力指导下,数据要素价值加速释放、数字经济发展步伐加快、数字政府建设深入推进、数字支撑底座更为夯实,数字淄博建设取得明显成效。
    大数据服务平台
    2025-03-18 10:07:30
  • 公司重要动态速览|海康威视、新华三、宇树科技......

    近期,智慧城市领域的企业有哪些动态呢?小编整理了一下,一起来回顾。海康威视发布视觉大模型周界摄像机;宇树科技入驻阿里速卖通AliExpress出海......
    大数据服务平台
    2025-03-16 14:10:47
  • 贵州省大数据局召开数字企业座谈会

    会上,朱宗尧介绍了全省数据工作“一体两翼三大转型”总体思路及数字产业重点发展方向,数字产业处就起草促进数字产业发展相关政策措施有关情况作了说明。
    大数据服务平台
    2025-03-10 11:14:27
版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了