佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

搜索
查看: 7428|回复: 29

找好工作,学Hadoop

  [复制链接]
发表于 29-12-2011 05:27 PM | 显示全部楼层 |阅读模式
很多IT同好都抱怨薪酬一年比一年低,但笔者却发现有些朋友薪酬不跌反升,关键是他们掌握一些一般人所没有的技术,最近热门的Hadoop便是其中之一。

要数2011年的IT业界流行用语,就非海量数据(Big Data)莫属。Hadoop是根据Google公开的两篇介绍其基建技术的论文的内容开发而成的开源软体,本身的用途很多,在企业环境下主要用来分析大量数据的相互关系,例如从消费者以往的购买记录预测未来的销售等等。这些分析往往可以成为企业的指路明灯,因此越来越受到业界重视。但Hadoopd本身是非常难以掌握的技术,目前全世界至少有数万个有关的职位空缺,令具备相关知识的人员薪酬上升。



很多人都知道Hadoop很难学,但难在什么地方?最困难的是Hadoop的程式架构MapReduce,目前能驾驭Map和Reduce的人实在少之又少。那么不懂MapReduce的话便不能够使用Hadoop吗?也不一定,一个名为Asakusa Framework的开源架构便是因此而诞生的。透过Asakusa Framework用户便再不需要在MapReduce直接记述复杂的程式码,只要使用Java Based的DS记述,再变换成MapReduce使用的程式码即可。换言之只要拥有Java的知识,就可以使用Hadoop。Asakusa Framework在2011年12月19日已经发布了最新版本0.2.4,具有可整合任何RDB资料库的WindGate。

Hadoop另外一个重要元素,便是新一代的资料库NoSQL,顾名思义便是没有SQL构造的资料库,特点是扩充时比传统的RDBMS来得容易,因此十分适合用来分析海量数据。现时出名的开源NoSQL包括CouchDB、Cassandra和HBase,此外Oracle和IBM也有相关产品提供。当中最受注目的便是MongoDB。MongoDB本身是由10gen提供的开源产品,10gen的业务则是提供MongoDB的顾问服务、技术支援和培训。根据10gen在2011年12月21日公布的业绩,2011年营收激增300%,顾客数目超过400家,本年更得到2,000万美元的注资。Amazon Web Services、Joyent Cloud、Windows Azure、Red Hat OpenShift和VMware Cloud Foundry都与MongoDB建立夥伴关系,今后不论在技术上还是投资上都值得注意。

-------------------

Hadoop........有谁会???
回复

使用道具 举报


ADVERTISEMENT

发表于 29-12-2011 10:01 PM | 显示全部楼层
很多IT同好都抱怨薪酬一年比一年低,但笔者却发现有些朋友薪酬不跌反升,关键是他们掌握一些一般人所没有的 ...
anakmal 发表于 29-12-2011 05:27 PM



big data = EMC Isilon
回复

使用道具 举报

发表于 31-12-2011 10:18 PM | 显示全部楼层
不是每家公司都需要到Big Data吧 =.=

其实,讲真,Big Data有多big?
回复

使用道具 举报

发表于 31-12-2011 10:48 PM | 显示全部楼层
1000人同时上线的系统算Big Data吗?
或者说银行Internal系统(只给Staff access)的算Big Data吗?
回复

使用道具 举报

发表于 31-12-2011 11:15 PM | 显示全部楼层
1000人同时上线的系统算Big Data吗?
或者说银行Internal系统(只给Staff access)的算Big Data吗?
nsda 发表于 31-12-2011 10:48 PM


1000 concurrent client不算是Big Data吧 =.= 那个是scalability 问题。
讲明是Data……就是数据。而数据的大小是根据系统而定的。问题就是:大,有多大才算大? 通常Big Data是指上到TeraByte甚至到PetaByte的海量数据。除非你公司有十多年的陈年旧数据,不然几乎没有到那么多吧

Hadoop的MapReduce可以在很多地方找到有关它的tutorial... Single Machine也可以设置Hadoop系统。

我觉得,真正重要的是Data Scientist...懂得如何处理/分析 海量数据人,才最重要。 Machine Learning/ Data Mining在这个海量数据里面占据了非常重要的地位。 Hadoop只是一个道具,去抽取所要的数据罢了。
回复

使用道具 举报

发表于 1-1-2012 12:01 AM | 显示全部楼层
1000 concurrent client不算是Big Data吧 =.= 那个是scalability 问题。
讲明是Data……就是数据。而数 ...
faiko 发表于 31-12-2011 11:15 PM



多谢指教!
回复

使用道具 举报

Follow Us
发表于 1-1-2012 03:56 AM | 显示全部楼层
首先必了解RDBMS 和 NoSQL的特點, 就要知道 acid 和cap 的不同.

我相信金融界的 IT 會比較難用到NoSQL(Transaction Management 是其弱点)

我只能說就算會Hadoop, 充其量也只是會用人家的 Framework, 很難保證短時間裡不會新的 Framework出現

我不是鼓励大家不要學, 只是希望大家在學習当中不要忘了自己行業的 Domain Knowledge, 這才會自己的 Core Value
回复

使用道具 举报

发表于 1-1-2012 05:21 AM | 显示全部楼层
果然很复杂
回复

使用道具 举报


ADVERTISEMENT

发表于 1-1-2012 06:49 PM | 显示全部楼层
多谢分享  
回复

使用道具 举报

发表于 6-1-2012 06:01 PM | 显示全部楼层
EMC Isilon....流口水。。。我好想要 Isilon....
回复

使用道具 举报

发表于 14-1-2012 12:47 AM | 显示全部楼层
EMC Isilon....流口水。。。我好想要 Isilon....
我行我素 发表于 6-1-2012 06:01 PM



    本来讲要送一架给我玩的。
现在什么都没有。

在新加坡EMC training, 看到人家上isilon的class, 我就非常的羡慕。
除了羡慕还是羡慕。

netapp真的可以丢掉了,买ISILON比较好。

最近那个cisco UCS也是非常的强劲,尤其是vmware 的deployment。
回复

使用道具 举报

发表于 16-1-2012 11:00 AM | 显示全部楼层
Hadoop 是一个distributed computing的框架,不止局限于处理数据库。所以你可以发挥创意运用map reduce来实现的复杂计算或海量数据处理基本上都可以用hadoop来执行。不过,和其他的DS所面对问题一样,即使用了hadoop你还是得考虑许多问题,例如consistency/replication, synchronization,只不过hadoop替你解决了大部分的问题。
回复

使用道具 举报

发表于 22-1-2012 05:53 PM | 显示全部楼层
并不是全部人会遇见这么庞大 的数据。因为并不是全部的问题都用到那么多数据。

也不是全部问题都适合用hadoop。例如real time processing。因为hadoop是用batch processing。是有方法用hadoop来作real time processing,但是还需要改良才可以。
回复

使用道具 举报

发表于 4-10-2012 04:07 PM | 显示全部楼层
c2pigisme 发表于 1-1-2012 03:56 AM
首先必了解RDBMS 和 NoSQL的特點, 就要知道 acid 和cap 的不同.

我相信金融界的 IT 會比較難用到NoSQL(T ...

我想问学习hadoop 的话,个人电脑要什么spec? 因为我没有server environment, 只能用vmware.
回复

使用道具 举报

发表于 10-12-2014 05:24 PM | 显示全部楼层
這幾天在試著安裝,安裝程序很頭痛一下 :S
回复

使用道具 举报

发表于 10-12-2014 11:35 PM | 显示全部楼层
典型宅男 发表于 4-10-2012 04:07 PM
我想问学习hadoop 的话,个人电脑要什么spec? 因为我没有server environment, 只能用vmware.

8GB应该是基本需求, 因为你应该还需要动到其他东西, 比如oozie, zookeeper, hive, pig等等
回复

使用道具 举报


ADVERTISEMENT

发表于 10-12-2014 11:36 PM | 显示全部楼层
karokzai 发表于 10-12-2014 05:24 PM
這幾天在試著安裝,安裝程序很頭痛一下 :S

如果只是要玩玩的话, 可以去MapR或HortonWorks下载他们的Sandbox, 很方便...
回复

使用道具 举报

发表于 11-12-2014 08:47 AM | 显示全部楼层
nsda 发表于 10-12-2014 11:36 PM
如果只是要玩玩的话, 可以去MapR或HortonWorks下载他们的Sandbox, 很方便...

哦,那天同事有介紹horton work,我現在找網上的是apache+cloudera,幾個step by step都有些出入,應該省掉一些步驟了,謝謝告知
回复

使用道具 举报

发表于 26-1-2015 11:28 PM | 显示全部楼层
最近越来越少年轻人要混这行了。
薪水看到慢慢上升了。
回复

使用道具 举报

发表于 27-1-2015 05:43 PM | 显示全部楼层
给大家分享一个华语学hadoop的网站。
http://edu.51cto.com/course/courseList/id-122.html
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT


本周最热论坛帖子本周最热论坛帖子

ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2026 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 5-5-2026 05:18 PM , Processed in 0.091053 second(s), 10 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表