-
个人简介:
PHP开发者,高可用性、分布式集群实践者,伪Python、GAE开发者,伪Linux系统管理员,伪MySQL管理员
2009年8月至今服务于阿里巴巴云计算公司
2008年8月至2009年7月31日服务于博客大巴
-
归档
- 2012 年一月
- 2011 年十一月
- 2011 年九月
- 2011 年八月
- 2011 年七月
- 2011 年六月
- 2011 年五月
- 2011 年三月
- 2011 年二月
- 2011 年一月
- 2010 年十二月
- 2010 年十一月
- 2010 年十月
- 2010 年九月
- 2010 年八月
- 2010 年七月
- 2010 年六月
- 2010 年五月
- 2010 年四月
- 2010 年三月
- 2010 年二月
- 2010 年一月
- 2009 年十二月
- 2009 年十一月
- 2009 年十月
- 2009 年九月
- 2009 年八月
- 2009 年七月
- 2009 年六月
- 2009 年五月
- 2009 年四月
- 2009 年三月
- 2009 年二月
- 2009 年一月
- 2008 年十二月
- 2008 年十一月
- 2008 年十月
- 2008 年九月
- 2008 年八月
- 2008 年七月
- 2008 年六月
- 2008 年五月
- 2008 年四月
- 2008 年三月
- 2008 年二月
- 2008 年一月
- 2007 年十二月
- 2007 年十一月
- 2007 年四月
-
杂项
作者归档:崔玉松
五个最佳的Hadoop项目
本文来自SD Times高级编辑Alex Handy同学。他列出了当前使用Hadoop的项目中他认为最成功的五个。下面是这五个列表。 原文链接:The top five most powerful Hadoop projects 1.Cascading:Cascading是基于Hadoop集群之上的数据处理API。它通过实现了丰富的功能化API,使你不需要接触MapReduce任务就能使用分布式计算能力,其核心概念是基于管道和流的数据处理。 2.Mahout:Mahout是一个基于Hadoop实现各种机器学习与数据挖掘算法库。被用来提供推荐服务。 3.Hive:Hive由Facebook出品,它为Hadoop提供了一种类似于SQL的操作接口。 4.Avro:Avro是一个基于二进制数据传输高性能的中间件。Avro通过将数据进行序列化,以使得大批量数据交互过程更方便。 5.Storm:Storm由BackType Technology出口,其口号是“实时的Hadoop系统”。
Hive使用笔记
Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同时,HiveQL语言能力不足时,它也能允许使用传统的map/reduce进行复杂数据分析。 Hive是搭建在Hadoop平台之上的。Hive并不是一个真正的数据库,它的元数据需要存储在其他数据库中(例如mysql)。。Hadoop平台提供了HDFS分布式存储系统和map/reduce分布式计算系统,而Hive在这两个系统之上,使得用户只需使用熟悉SQL语言就能进行分布式计算,而map/reduce编程往往是相当复杂的。Hive在少量数据运算或是短时间内的重复查询上,是不能和Oracle那样的数据库相比的。它的查询量通常相当大,一个大的job运行几个小时算是正常的。 数据类型 。HiveQL只支持以下几种基本数据类型TINYINT, SMALLINT, INT, BIGINT, DOUBLE, STRING。 支持的复杂数据类型有Structs, Maps, Arrays。 创建表。 Hive不同于其他数据库,它只有一个默认数据库”default” ,所有的table都保持在里面。 CREATE TABLE user(id BIGINT, name STRING); 可以指定将表创建到外部hdfs文件系统中。 CREATE EXTERNAL TABLE foo(id INT) STORED AS TEXTFILE LOCALTION ‘/user/foo/foo_data’; 将数据文件导入到Hive表中。 LOAD DATA [LOCAL] INPATH ‘/data/userdata’ [OVERWRITE] INTO … 继续阅读
博客迁移到国内
如果你能看到这篇文章说明已经成功了,更快,更稳定,更和谐的开始 迁移的原因,你懂的,最近所谓的访问国外网站的配额已经全面启动了,即使浏览的是正常的网站也会消耗你的配额,其实对于我们这种搞IT的倒是还好,大不了就翻么,又不是没翻过,总有办法能够搞定,只是麻烦点。倒是苦了那些由于工作需要,没了不行的朋友了,比如做外贸的,比如要看国外论文的,做研究的等等类型,其实又何必呢,不过是掩耳盗铃而已,埃及、突尼斯、叙利亚都是榜样,和谐人别人的人总有一天被别人和谐掉
MySQL通信协议
MySQL实现了四种通信协议 TCP/IP协议,通常我们通过来连接MySQL,各种主要编程语言都是根据这个协议实现了连接模块 Unix Socket协议,这个通常我们登入MySQL服务器中使用这个协议,因为要使用这个协议连接MySQL需要一个物理文件,文件的存放位置在配置文件中有定义,值得一提的是,这是所有协议中最高效的一个。 Share Memory协议,这个协议一般人不知道,肯定也没用过,因为这个只有windows可以使用,使用这个协议需要在配置文件中在启动的时候使用–shared-memory参数,注意的是,使用此协议,一个host上只能有一个server,所以这个东西一般没啥用的,除非你怀疑其他协议不能正常工作,实际上微软的SQL Sever也支持这个协议 Named Pipes协议,这个协议也是只有windows才可以用,同shared memory一样,使用此协议,一个host上依然只能有一个server,即使是使用不同的端口也不行,Named Pipes 是为局域网而开发的协议。内存的一部分被某个进程用来向另一个进程传递信息,因此一个进程的输出就是另一个进程的输入。第二个进程可以是本地的(与第一个进程位于同一台计算机上),也可以是远程的(位于联网的计算机上)。正因为如此,假如你的环境中没有或者禁用TCP/IP环境,而且是windows服务器,那么好歹你的数据库还能工作。使用这个协议需要在启动的时候添加–enable-named-pipe选项 Named Pipes和Shared Memory协议都非常的低效,而且只能用于windows环境,非必要情况尽量避免使用
MySQL 5.1.56 使用 InnoDB Plugin
[root@localhost mysql-5.1.56]# ./configure –prefix=/usr/local/mysql/ \ –without-debug \ –with-unix-socket-path=/usr/local/mysql/tmp/mysql.sock \ –with-client-ldflags=-all-static \ –with-mysqld-ldflags=-all-static \ –enable-assembler \ –with-charset=utf8 \ –with-collation=utf8_general_ci \ –with-extra-charsets=latin1,gb2312 \ –with-pthread –enable-thread-safe-client \ –with-plugins=myisam,innodb_plugin
那些事儿
由于我住的小区位置的关系,最近经常看到一些学生提到打包小包的找房子,搬家,问路。总是感叹道:又是一个离别的季节。转眼间,离我真正的毕业也两年了,回想过去,虽然不曾后悔什么,倒也挺心酸的。不知道为了什么,也许为了自己逐渐逝去的梦想,也许为了分开了再也未曾碰面的同学,也许为了大学时代意气风发、挥斥方遒的情怀,也许是真的留恋那风则江畔的垂柳,亦或是回忆穿梭于图书馆与宿舍的背影,总之感慨很多。 两年来事业未有所成,梦想依然漂泊,朝九晚六的工作再加上不同程度的“被自愿”加班,我居然比出校门的时候胖了十多斤,或许是压力过大导致内分泌失调?额头的皱纹慢慢爬上来了,手腕和颈椎偶尔也是酸痛难忍,也许这就是做IT职业的代价,每个行业都要为自己的职业付出代价,就像挖煤的工人要随时面对塌方、渗水和持续不断的吸入粉尘一样。如果你运气好或者上面有人,亦或是你实在太优秀了,上天惜才,你不小心从一个挖煤工人变成了一个经理或者煤场的厂长,你就走运了,你终于不用担心自己被埋在矿井里面了,于是你开始担心别人埋在矿井里面会让自己丢了乌纱帽,然后一如既往的抱怨生活是多么的无趣。 每到一个毕业的季节,总是能听到很多关于工作、关于职业、关于理想与现实的声音。而由于我已经毕业快两年,加入了业界还算知名的公司,拿着一份还算能糊口的薪水,做着一份还算体面的工作、在家人和朋友面前露出还算过得去的笑容,我也收到过很多电话,无非就两件事情,最直接的就是帮忙找工作,还有一个就是问IT有没有“钱途”。每每我的回答都令他们很失望,要求帮忙介绍工作的怀疑我不肯帮忙,咨询我职业前景的人都觉得IT行业不适合他们快速致富的梦想。 对于那些不是来IT行业做事的人,我想说: 1、IT行业不能使你一夜暴富,暴富的都是老板,跟你没有半毛钱关系 2、如果你想发财,去做生意,没本钱也没关系,先去给人家打工,总之你要先入行 3、如果你不够聪明但是想做点事情,去做生意,真的 4、如果你不肯努力却羡慕别人的待遇,去做公务员,或者在投胎的时候选择一个叫李刚的爸爸 5、如果你在这个行业不能坚持5年以上,去做生意 6、如果你没做好吃苦的准备,去考研、考博或者家里蹲吧 7、这个世界每天都在发生变化,而IT这个行业是与变化同步更新的最快的一个行业之一,所以你必须要知道怎么熟悉,光知道百度是不行的,那意味着你学习的是已经经过别人消化过的残渣,如果不能熟练阅读最新的外文资料,你的职业将会受到巨大的限制,所以,学好外语是必须的,如果你没打算把它学好,去当老板吧,再请个漂亮女秘书 8、如果你不能接受无论如何也挥不走的加班,IT行业也不适合你 9、溜须拍马对你升迁或许有帮助,特别是中国这样的环境,但如果你只会溜须拍马,那去考公务员吧
简单工厂模式和策略模式区别
这两种模式的作用就是拥抱变化,减少耦合。在变化来临时争取做最小的改动来适应变化。这就要求我们把那些“善变”的功能从客户端分离出来,形成一个个的功能类,然后根据多态特性,使得功能类变化的同时,客户端代码不发生变化。 简单工厂模式 简单工厂模式:有一个父类需要做一个运算(其中包含了不同种类的几种运算),将父类涉及此运算的方法都设成虚方法,然后父类派生一些子类,使得每一种不同的运算都对应一个子类。另外有一个工厂类,这个类一般只有一个方法(工厂的生成方法),这个方法的返回值是一个超类,在方法的内部,根据传入参数的不同,分别构造各个不同的子类的对象,并返回。客户端并不认识子类,客户端只认识超类和工厂类。每次客户端需要一中运算时,就把相应的参数传给工厂类,让工厂类构造出相应的子类,然后在客户端用父类接收(这里有一个多态的运用)。客户端很顺理成章地用父类的计算方法(其实这是一个虚方法,并且已经被子类特化过了,其实是调用子类的方法)计算出来结果。如果要增加功能时,你只要再从父类中派生相应功能的子类,然后修改下工厂类就OK了,对于客户端是透明的。 策略模式 策略模式:策略模式更直接了一点,没有用工厂类,而是直接把工厂类的生成方法的代码写到了客户端。客户端自己构造出了具有不同功能的子类(而且是用父类接收的,多态),省掉了工厂类。策略模式定义了算法家族,分别封装起来,让他们之间可以互相替换,此模式让算法的变化,不会影响到使用算法的客户。这里的算法家族和简单工厂模式里的父类是同一个概念。当不同的行为堆砌在一个类中时,就很难避免使用条件语句来选择合适的行为,将这些行为封装在一个个独立的策略子类中,可以在客户端中消除条件语句。 简单工厂模式+策略模式:为了将工厂方法的代码从客户端移出来,我们把这些代码搬到了父类的构造函数中,让父类在构造的时候,根据参数,自己实现工厂类的作用。这样做的好处就是,在客户端不用再认识工厂类了,客户端只要知道父类一个就OK,进一步隔离了变化,降低了耦合。 在基本的策略模式中,选择所用具体实现的职责由客户端对象成端,并转给客户端。这本身并没有减除客户端需要选择判断的压力,而策略模式与简单工厂模式结合后,选择具体实现的职责也可以由父类承担,这就最大化地减轻了客户端的职责。
提问的智慧
IT技术这个行业混久了,作为一路走到现在的人,很多事情看不习惯,很多新手非常的浮躁,总是问,学什么赚钱,我要是知道学什么赚钱,我自己就去了,还轮到你么?再说不管什么行业,只要你处于金字塔的中上层,钱都不会少的。钱不是目的,他只是提升的自己的一个过程。新手遇到问题,劈头就问怎么解决,怎么办?甚至问题都不想清楚就问,我非常讨厌这样的提问方式。国内产出文章质量比较高的社区之一 —啄木鸟社区为想做程序员这个行当的人树立了很好的榜样,建议新人去看看,你不一定要学Python,但是其中的一些精髓是值得每个程序员学习的。 提问的智慧 全文在此,图如下:
Python Web.py框架实现的简易REST服务原型
Web.py是python web框架中比较轻量级的,只实现了一些必要的组件,个人比较喜欢这样的框架,虽然功能并不完整,在我所做过的项目中,实际上并没有一款框架能够适合,或许是因为电子商务领域特殊性,也或许是因为公司太大,依赖的东西更多,直接导致了任何一款框架拿过来,写着写着就需要动框架本身的东西,不动它就实现不了业务,由于这个原因,我更偏爱简洁、轻量的框架,修改起来方便,至于组件,既然别的框架已经实现了,拿来改改就能用上了。当然,如果只是普通的CMS之类的开发,没有很多复杂的业务,我更推荐各位使用功能丰富,大而全的框架,比如Rails,比如Django,或者PHP里的很多类似的框架,可以省不少时间,至少分页类不用自己搞了。在复杂的项目中,这些时间是不能省的,否则会导致日后业务的灾难性后果或者需要更多的时间去修改框架。 废话多了,关于web.py可以参考官方网站,中文的入门文档也很全,写起来非常的简单,基本上不用改什么就可以迁移到Google App Engine上。下面上代码: import web import json from mimerender import mimerender render_xml = lambda message: ‘<message>%s</message>’%message render_json = lambda **args: json.dumps(args) render_html = lambda message: ‘<html><body>%s</body></html>’%message render_txt = lambda message: message urls = ( ‘/(.*)’, ‘greet’ … 继续阅读
XAMPP集成环境中安装PHPUnit
PHPUnit是一个轻量级的PHP测试框架。它是在PHP5下面对JUnit3系列版本的完整移植,是xUnit测试框架家族的一员(它们都基于模式先锋Kent Beck的设计)。单元测试是几个现代敏捷开发方法的基础,使得PHPUnit成为许多大型PHP项目的关键工具。这个工具也可以被Xdebug扩展用来生成代码覆盖率报告 ,并且可以与phing集成来自动测试,最后它还可以和Selenium整合来完成大型的自动化集成测试。 Windows平台LAMP环境XAMPP 1.7.3下如何安装PHPUnit呢? 首先,以管理员身份运行cmd,使用pear添加phpunit频道: D:\xampp\php>pear channel-discover pear.phpunit.de Channel “pear.phpunit.de” is already initialized 频道添加好,尝试安装PHPUnit: D:\xampp\php>pear install phpunit/PHPUnit Unknown remote channel: pear.symfony-project.com Unknown remote channel: pear.symfony-project.com Unknown remote channel: components.ez.no Unknown remote channel: components.ez.no phpunit/PHPUnit requires PEAR Installer (version >= … 继续阅读