首页 科技频道 互联时代 正文

川庆物探:IT运维能力决定“找油”能力(2)

字号: 2013-09-11 21:30

核心提示:郭玲表示,让所有计算资源的状态实现可视化是IT运维的基础,所以运维软件必须要能直观反映出机群整体及节点服务器部件的运行情况,帮他们快速衡量出软件对硬件的实际需求,准确、高效地建立软件与硬件之间的对应关系。郭玲表示。。“川庆的三个数据中心现在也只能各管各的,远程监控还没有实现。

川庆物探研究中心计算所的高性能计算平台的规模并不算小,但按照郭玲的话说,项目忙的时候,计算资源依旧捉襟见肘。从长远发展的角度看,计算资源也是非常有限的资源。为了解决这个问题,他们咨询了不少IT运维管理软件厂商,最后发现并行科技的Paramon和Paratune运维软件和他们的需求相对匹配,破解了他们的第一个运维难题。

“过去,最影响计算平台效率的是看不见这些资源的状态,更看不见它们与应用的关系。我们需要更直观的方法去查看、了解所有计算资源的状态,并分析、统计这些计算资源是否被充分利用,空闲的资源能否被分配给其他软件,在用的资源是否正常运转,出问题的资源在哪儿,是否需要调整。”郭玲表示,让所有计算资源的状态实现可视化是IT运维的基础,所以运维软件必须要能直观反映出机群整体及节点服务器部件的运行情况,帮他们快速衡量出软件对硬件的实际需求,准确、高效地建立软件与硬件之间的对应关系。

“CPU、GPU的相关数据,温度、利用率、内存都可以直观看到,用了这些运维管理工具和过去有很大不同。现在,不管是机群监控,还是管理都可以更便捷、更高效,虽然还不能自动调配资源,但通过可视化的运维,进行资源调配时完全可以有的放矢,机群的整体工作效率明显有所提升。”她说,现在还可以在运维平台上查看应用运行特征的状态分析,为软件系统优化提供了客观的基础数据,保证了软件优化的正确性和高效性。

有可视化、图形化的运维平台做保障,实现系统预警就有了基础。虽然目前计算资源的调度工作依旧只能依靠手工实现,但至少他们可以知道问题出在哪儿,哪些资源已经超负荷,而哪些资源还被闲置。 “现在可以相对轻松地监控运行在计算平台上的应用能否顺利完成,了解什么时候分配给应用的计算节点已达到峰值。如果当前CPU利用率较低,就可以将要运行的软件加载上去,提高平台的处理效率。如果某个应用占用了10个节点,我们可以清晰地看到这10个节点的运行状态、内存占用状态等。”郭玲表示。

在项目忙的时候,郭玲和她的同事们不会再手忙脚乱了。

机房管理将决定“找油”效率

“机房管理的自动化是我们迫不及待想解决的问题。”在郭玲看来,像川庆物探研究中心计算所这样,承载地学研究、勘探数据分析等任务的石油勘探行业的研究所或计算中心都面临着同样的难题。随着数据规模不断增长,计算压力逐渐变大,计算所的规模也在扩大。光川庆物探就有三个数据中心,两个在成都,一个在新疆,需要管理的硬件、软件的数量越来越多,管理人员的数量却没有增加,手动管理已不现实。要想确保业务顺利开展,所有的可监控的业务都应该做到提前报警,并做好监测预案。

郭玲强调,在这个行业,最耽误不起的是时间。现在项目进度快、压力大,配合项目完成数据处理和解释的时间都是有严格规定的,一旦出现问题或丢失数据,只能靠投入更多的时间、人力、物力去弥补,用户就“不答应”。如果不能保证项目的进度,每一年计算所对IT投入的规划就必然会受到质疑。

从整个行业目前机房运维的状况来看,自动化程度还非常低。运维管理软件只能做到“半自动”,计算、存储资源的控制、调度还是要手动操作。“川庆的三个数据中心现在也只能各管各的,远程监控还没有实现。实际上,我们更希望在这个领域多做研究,实现机房统一、远程、自动化的管理,让投资的硬件、软件资源的利用率更高,保障业务、为业务服务。”

Tags:计算资源 郭玲 节点 监控 硬件

责任编辑:wb001

查看心情排行你看到此篇文章的感受是:

已有0人参与

网友评论

用户名: 快速登录


今日热点

本周排行

焦点图片