【慧聪广电网】大数据正在成为许多单位重要的工具,而且随着数据本身的快速增长,用户部署的存储和数据管理解决方案变得越来越重要。随着用户面临各种挑战,比如实施分析工具和掌控大型数据文件,它们也需要在各种不同的存储方案中找到最好的工具。
使用元数据和政策管理
一些有大数据存储需求的机构将关注于在相对较低的成本的基础上获得大量的容量。对一些应用程序,存储解决方案和服务的一个重要属性就是它们的元数据能力。这包含了支持灵活的元数据和用户定义元数据的能力。
另一个重要的功能是政策管理,即使用元数据来实施或驱动一些功能,比如多长时间保留数据,何时何地安全地处置数据,以及在哪里保存数据(包括与应用程序相关的信息)。这给非结构化数据带来了一定的灵活的结构,同时没有与结构化数据管理相关的限制或约束。
寻找合适的媒介
找到合适的存储媒介可以帮助用户满足它的需求。硬盘驱动器(HDD)长期以来是流行的方式来为许多应用提供均衡的性能、容量、存储密度和成本效率。随着用户需要在更长的时间内保存更多的数据,这个趋势将继续。
大数据还可以得益于如今的使用动态随机访问记忆体或NAND闪存记忆体--或两者结合--来支持带宽需求的固态驱动器解决方案。SSD可以被用于存储元数据和其他经常被访问的数据。
磁带继续在大数据中扮演几种角色。这些角色包括定时地将大量数据迁移,提供归档或为磁盘上的数据提供备份。
降低大数据资源占用
重复数据删除并不总是最大化大数据容量的有效方式。用户可以考虑其他工具、技术来缓解由于存储和保护不断增长的数据集而带来的压力。
例如,一个大数据项目可以使用归档或自动分层技术来将一些数据迁移到更低层或低成本存储层,比如磁带。
另一个降低数据占用的方法就是重新思考如何、何时、何地以及为何数据要被保护。另一个减少数据占用的技术就是数据压缩(实时的或异步的),用不同的压缩算法来降低存储需求。
保护和服务于大数据
2020年全球将有4.0026万EB(1EB=10亿GB)的数据预计将产生,14倍于2012年创建的数据的量。
来源自IDC Digital Universe 2012(2012年IDC数字宇宙报告)
保护大数据要求基本的可靠性、可用性和可服务性--比如冗余电源、冷却、控制器、节点和接口。用户还必须确保数据的完整性和耐用性,执行后端数据检查来探测校验码或保护错误和比特损坏等意外情况。这些后端检查必须对正常运行的操作是透明的,而且必须在它们发展成问题之前纠正这些情况。
用户还必须重新检查RAID(独立磁盘冗余阵列)水平以优化他们的大数据存储解决方案。需要考虑得因素包括有多少驱动器在RAID池或组中,数据块或I/O大小,以及正在使用的设备的大小和类型,哪些可以进行优化以便适应更小量的数据。
考虑存储系统选项
一些用于分析工具的大数据解决方案采用集群或网格的配置内部或专用存储以及应用程序软件的行业标准x86或ia64服务器。
大数据应用程序还可以利用现有的针对不同使用情境进行优化的存储系统。一些用于传统的高性能计算的存储系统可能适合于使用块或文件访问方式的带宽密集型并发或并行访问应用程序。
配置对象访问(包括HTTP、XML和云数据管理接口)的存储解决方案也可以用于大数据存储需求,比如视频、音频、图片、监控、地震数据或地质数据,以及其他需要有大型文件需要存储的应用程序。对象存储系统支持各种大小和不同类型的数据。
大数据存储小贴士:
- 使用不损害性能的智能电源管理解决方案
- 利用各种工具和技术来降低数据的资源占用
- 留意不同解决方案下总的裸存储和可用存储
- 评估那些可能可以优化的领域的存储设置(包括RAID或保护)
- 如果遇到很长的硬盘修复时间,找出磁盘故障的原因
- 在可行的情况下使用混合的SSD、HDD和磁盘存储来摊低预算
- 云可以辅助大数据应用程序下的SSD、HDD和磁盘存储
- 自加密驱动器提供安全性并减少驱动器处置时间
用程序的许多不同方面有不同的存储需求。了解一家机构的需求和选项可以帮助支持数据增长并同时最小化预算增长。
进行了大改进的小硬盘
制造商们在硬盘驱动器上取得了明显的进步,包括4TB容量(未来还可以更大)的3.5英寸驱动器,以及容量更大速度更快的2.5英寸硬盘驱动器。
一些新的1万转2.5英寸硬盘驱动器相比旧的1.5万转3.5英寸驱动器有相同的(或更好的)性能。其他硬盘上的改进包括瓦片磁记录和热辅助磁记录技术,这些技术能够提高驱动器单位面积的存储密度(在一个磁片上给定物理空间内所能存储的比特数)。硬盘在继续增长和增加功能,使得它们也适用于大数据环境。
总体上,大数据的存储选择包括:
- 专门用于使用内部或外部设备的服务器的存储
- 通过共享软件在服务器之间共享的存储
- 使用块、文件和对象的存储,或使用一个可以在线、近线或离线访问的应用程序编程接口(API)的存储
- 固态驱动器、硬盘驱动器、磁带或云上的存储
- 使用得到擦除码、副本、快照、和广域网分散等方式进行保护的RAID的存储