Posted by & filed under Life Diary.

日子一天天过去,人也慢慢变懒了,虽然有每天坚持阅读的习惯,慢慢的动手实践的次数少了很多,不是没有时间,是实在不想动,肩膀和手腕都很痛,脖子也痛,游泳和台球能有明显治疗效果,有类似职业病的朋友不妨试试,现在越来越多的公司会放一些健身设备在公司,尽量利用吧,反正折腾坏了也不用自己赔。
我一直想给我过去的一段技术路做一个小结,后来发现哪有什么总结,不过是拾人牙慧而已,就好比泥瓦匠和建筑设计师的区别,那么就总结一些对我现在影响比较大的几本书吧,没有哪个影响最大的问题,按时间排序或许比较公平。

Thinking in Java (4th Edition)这是我除了教科书之外遇到的第一本我认为最好的书,我对对象的理解,对方法,对属性,对OOP对编译器,对Java甚至以后的面向对象语言的特点都打了很好的基础。我天生不怎么聪明,光对象这个概念就在图书馆发呆、翻书,研究有了将近一个月。读这本书是因为当初觉得谭浩强那本C语言写的太垃圾了,学完了都不知道能干嘛,纯粹为了学习而学习,学到最后很多人都放弃了,因为不知道有什么用。当初读英文原版是因为图书馆找不到中文版,美国亚洲基金会赠送给我们大学图书馆的书,有很多很多好书,很多是国外名校的原版教材,可惜其他学科完全看不懂,太多专业名词。

Framework的设计与应用我能走向IT技术这条路正是因为本书,黄忠成 老师深入浅出的讲解,真的让我当时刚入门的小伙子一下子豁然开朗,因为读了这本书,我一下子走到了好多人的前面,当时我读大二,和已经毕业多年的人交流的时候,他们常常被我问住,而我知道的答案,他们却不知道,这让我的信心得到了极大的膨胀。时不时安慰自己一下原来天生就是个搞编程的料。在B/S模式大行其道的今天,估计很多人不知道这本书了,现在回想起来,这本五六年前的书,放到今天,仍然有很多指导意义,优秀的架构思想依然可以应用到B/S模式上。也因为本书,我曾经一度自卑的小心灵慢慢得到了更多的精神上的YY,看是平视曾经仰视的人,这对我后来的生活改变很大。也许黄先生看到此文也会差异,一本技术书籍居然能对人影响如此之大。好书就是好书,不管影响的是技术还是精神,最终都会影响读者的生活。

代码大全这本书应该无数的人都熟悉,程序员走向高级程序员必读之书。作为一个编程人员,如果你没读过真的很遗憾。或许你可以先看下云风关于代码大全的读书笔记,电子版也有很多地方可以下到,但我依然建议你去买一本,偶尔翻翻也无妨,每次都会有新的收获。第一次看到这本书的时候,我以为这本书是一本代码示例,也没当回事,后来听朋友极力推荐此书,跑到学校边的书店找到此书,才知道被书名给骗了,或许说被书的翻译者给骗了,或许翻译成编程宝典,编程手册。此处的Code应该不是代码的意思。花了将近两个月的时间才读完,再花了一个半月的时间重读了一遍,从小学到读完大学,我唯一一次记读书笔记正是这本书,没办法,不记笔记的话很多东西消化不掉。而且也确实有太多值得记的东西了。

夜深了,明晚接着写,肩膀又隐隐作痛,悲剧

Posted by & filed under Excellence Article, Study & Reading.

本文来自SD Times高级编辑Alex Handy同学。他列出了当前使用Hadoop的项目中他认为最成功的五个。下面是这五个列表。

原文链接:The top five most powerful Hadoop projects

  • 1.CascadingCascading是基于Hadoop集群之上的数据处理API。它通过实现了丰富的功能化API,使你不需要接触MapReduce任务就能使用分布式计算能力,其核心概念是基于管道和流的数据处理。
  • 2.MahoutMahout是一个基于Hadoop实现各种机器学习与数据挖掘算法库。被用来提供推荐服务。
  • 3.HiveHive由Facebook出品,它为Hadoop提供了一种类似于SQL的操作接口。
  • 4.AvroAvro是一个基于二进制数据传输高性能的中间件。Avro通过将数据进行序列化,以使得大批量数据交互过程更方便。
  • 5.StormStorm由BackType Technology出口,其口号是“实时的Hadoop系统”。

 

Posted by & filed under Excellence Article, Study & Reading.

Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同时,HiveQL语言能力不足时,它也能允许使用传统的map/reduce进行复杂数据分析。

Hive是搭建在Hadoop平台之上的。Hive并不是一个真正的数据库,它的元数据需要存储在其他数据库中(例如mysql)。。Hadoop平台提供了HDFS分布式存储系统和map/reduce分布式计算系统,而Hive在这两个系统之上,使得用户只需使用熟悉SQL语言就能进行分布式计算,而map/reduce编程往往是相当复杂的。Hive在少量数据运算或是短时间内的重复查询上,是不能和Oracle那样的数据库相比的。它的查询量通常相当大,一个大的job运行几个小时算是正常的。

数据类型 。HiveQL只支持以下几种基本数据类型TINYINT, SMALLINT, INT, BIGINT, DOUBLE, STRING。

支持的复杂数据类型有Structs, Maps, Arrays。

创建表。 Hive不同于其他数据库,它只有一个默认数据库”default” ,所有的table都保持在里面。

CREATE TABLE user(id BIGINT, name STRING);

可以指定将表创建到外部hdfs文件系统中。

CREATE EXTERNAL TABLE foo(id INT)

STORED AS TEXTFILE LOCALTION ‘/user/foo/foo_data’;

将数据文件导入到Hive表中。

LOAD DATA [LOCAL] INPATH ‘/data/userdata’ [OVERWRITE] INTO TABLE user;

使用LOCAL选项将使用本地文件系统 ,否则将使用hdfs文件系统。使用OVERWRITE选项将删除原来table中的数据,否则将新数据添加到文件末尾。

Load data导入数据将仅仅将文件拷贝到hive管理的目录下,并用table的元数据去解释这个文件。所以必须保证数据文件的结构必须和table的结构一 致,否则可以load data成功但是数据解释不正确。特别注意fields分隔符和lines分隔符要和Table一致。我使用自定义分隔符导入数据,一直没有成功。不管我 怎么指定,Hive总是使用默认的分隔符来解释我的文件(默认使用001(ctrl-A)分隔列,012(\n)分隔行 )。问题未解决。

查询语句。 这里列出一些和标准SQL不同的地方。

不能使用select count(*);需要指定count的列下标,select count(1) 。

不能使用CREATE TABLE newtable SELECT * FROM user;必须事先Create table,再用INSERT向其中写入数据。

排序关键字是SORT BY。

LIMIT关键字只能跟一个数字,即从第一条记录开始选出若干条。

INSERT语句变换很大,不能直接插入一条记录。插入的数据必须用SELECT子查询获取或者从某个文件导入。我还没细看。

> SELECT * FROM user LIMIT 10;

> INSERT OVERWRITE TABLE foo SELECT DESTIN(id) FROM user;

> SELECT M.id FROM user M JOIN foo S ON M.id = S.id;

> SELECT id FROM user GROUP BY id;

Posted by & filed under Life Diary.

如果你能看到这篇文章说明已经成功了,更快,更稳定,更和谐的开始

迁移的原因,你懂的,最近所谓的访问国外网站的配额已经全面启动了,即使浏览的是正常的网站也会消耗你的配额,其实对于我们这种搞IT的倒是还好,大不了就翻么,又不是没翻过,总有办法能够搞定,只是麻烦点。倒是苦了那些由于工作需要,没了不行的朋友了,比如做外贸的,比如要看国外论文的,做研究的等等类型,其实又何必呢,不过是掩耳盗铃而已,埃及、突尼斯、叙利亚都是榜样,和谐人别人的人总有一天被别人和谐掉

Posted by & filed under Database.

MySQL实现了四种通信协议

  1. TCP/IP协议,通常我们通过来连接MySQL,各种主要编程语言都是根据这个协议实现了连接模块
  2. Unix Socket协议,这个通常我们登入MySQL服务器中使用这个协议,因为要使用这个协议连接MySQL需要一个物理文件,文件的存放位置在配置文件中有定义,值得一提的是,这是所有协议中最高效的一个。
  3. Share Memory协议,这个协议一般人不知道,肯定也没用过,因为这个只有windows可以使用,使用这个协议需要在配置文件中在启动的时候使用–shared-memory参数,注意的是,使用此协议,一个host上只能有一个server,所以这个东西一般没啥用的,除非你怀疑其他协议不能正常工作,实际上微软的SQL Sever也支持这个协议
  4. Named Pipes协议,这个协议也是只有windows才可以用,同shared memory一样,使用此协议,一个host上依然只能有一个server,即使是使用不同的端口也不行,Named Pipes 是为局域网而开发的协议。内存的一部分被某个进程用来向另一个进程传递信息,因此一个进程的输出就是另一个进程的输入。第二个进程可以是本地的(与第一个进程位于同一台计算机上),也可以是远程的(位于联网的计算机上)。正因为如此,假如你的环境中没有或者禁用TCP/IP环境,而且是windows服务器,那么好歹你的数据库还能工作。使用这个协议需要在启动的时候添加–enable-named-pipe选项

Named Pipes和Shared Memory协议都非常的低效,而且只能用于windows环境,非必要情况尽量避免使用


Posted by & filed under Database.

[root@localhost mysql-5.1.56]# ./configure --prefix=/usr/local/mysql/ \
--without-debug \
--with-unix-socket-path=/usr/local/mysql/tmp/mysql.sock \
--with-client-ldflags=-all-static \
--with-mysqld-ldflags=-all-static \
--enable-assembler  \
--with-charset=utf8 \
--with-collation=utf8_general_ci \
--with-extra-charsets=latin1,gb2312 \
--with-pthread --enable-thread-safe-client   \
--with-plugins=myisam,innodb_plugin

Posted by & filed under Life Diary.

由于我住的小区位置的关系,最近经常看到一些学生提到打包小包的找房子,搬家,问路。总是感叹道:又是一个离别的季节。转眼间,离我真正的毕业也两年了,回想过去,虽然不曾后悔什么,倒也挺心酸的。不知道为了什么,也许为了自己逐渐逝去的梦想,也许为了分开了再也未曾碰面的同学,也许为了大学时代意气风发、挥斥方遒的情怀,也许是真的留恋那风则江畔的垂柳,亦或是回忆穿梭于图书馆与宿舍的背影,总之感慨很多。
两年来事业未有所成,梦想依然漂泊,朝九晚六的工作再加上不同程度的“被自愿”加班,我居然比出校门的时候胖了十多斤,或许是压力过大导致内分泌失调?额头的皱纹慢慢爬上来了,手腕和颈椎偶尔也是酸痛难忍,也许这就是做IT职业的代价,每个行业都要为自己的职业付出代价,就像挖煤的工人要随时面对塌方、渗水和持续不断的吸入粉尘一样。如果你运气好或者上面有人,亦或是你实在太优秀了,上天惜才,你不小心从一个挖煤工人变成了一个经理或者煤场的厂长,你就走运了,你终于不用担心自己被埋在矿井里面了,于是你开始担心别人埋在矿井里面会让自己丢了乌纱帽,然后一如既往的抱怨生活是多么的无趣。
每到一个毕业的季节,总是能听到很多关于工作、关于职业、关于理想与现实的声音。而由于我已经毕业快两年,加入了业界还算知名的公司,拿着一份还算能糊口的薪水,做着一份还算体面的工作、在家人和朋友面前露出还算过得去的笑容,我也收到过很多电话,无非就两件事情,最直接的就是帮忙找工作,还有一个就是问IT有没有“钱途”。每每我的回答都令他们很失望,要求帮忙介绍工作的怀疑我不肯帮忙,咨询我职业前景的人都觉得IT行业不适合他们快速致富的梦想。
对于那些不是来IT行业做事的人,我想说:
1、IT行业不能使你一夜暴富,暴富的都是老板,跟你没有半毛钱关系
2、如果你想发财,去做生意,没本钱也没关系,先去给人家打工,总之你要先入行
3、如果你不够聪明但是想做点事情,去做生意,真的
4、如果你不肯努力却羡慕别人的待遇,去做公务员,或者在投胎的时候选择一个叫李刚的爸爸
5、如果你在这个行业不能坚持5年以上,去做生意
6、如果你没做好吃苦的准备,去考研、考博或者家里蹲吧
7、这个世界每天都在发生变化,而IT这个行业是与变化同步更新的最快的一个行业之一,所以你必须要知道怎么熟悉,光知道百度是不行的,那意味着你学习的是已经经过别人消化过的残渣,如果不能熟练阅读最新的外文资料,你的职业将会受到巨大的限制,所以,学好外语是必须的,如果你没打算把它学好,去当老板吧,再请个漂亮女秘书
8、如果你不能接受无论如何也挥不走的加班,IT行业也不适合你
9、溜须拍马对你升迁或许有帮助,特别是中国这样的环境,但如果你只会溜须拍马,那去考公务员吧

Posted by & filed under Excellence Article.

这两种模式的作用就是拥抱变化,减少耦合。在变化来临时争取做最小的改动来适应变化。这就要求我们把那些“善变”的功能从客户端分离出来,形成一个个的功能类,然后根据多态特性,使得功能类变化的同时,客户端代码不发生变化。

简单工厂模式

简单工厂模式:有一个父类需要做一个运算(其中包含了不同种类的几种运算),将父类涉及此运算的方法都设成虚方法,然后父类派生一些子类,使得每一种不同的运算都对应一个子类。另外有一个工厂类,这个类一般只有一个方法(工厂的生成方法),这个方法的返回值是一个超类,在方法的内部,根据传入参数的不同,分别构造各个不同的子类的对象,并返回。客户端并不认识子类,客户端只认识超类和工厂类。每次客户端需要一中运算时,就把相应的参数传给工厂类,让工厂类构造出相应的子类,然后在客户端用父类接收(这里有一个多态的运用)。客户端很顺理成章地用父类的计算方法(其实这是一个虚方法,并且已经被子类特化过了,其实是调用子类的方法)计算出来结果。如果要增加功能时,你只要再从父类中派生相应功能的子类,然后修改下工厂类就OK了,对于客户端是透明的。

策略模式

策略模式:策略模式更直接了一点,没有用工厂类,而是直接把工厂类的生成方法的代码写到了客户端。客户端自己构造出了具有不同功能的子类(而且是用父类接收的,多态),省掉了工厂类。策略模式定义了算法家族,分别封装起来,让他们之间可以互相替换,此模式让算法的变化,不会影响到使用算法的客户。这里的算法家族和简单工厂模式里的父类是同一个概念。当不同的行为堆砌在一个类中时,就很难避免使用条件语句来选择合适的行为,将这些行为封装在一个个独立的策略子类中,可以在客户端中消除条件语句。

简单工厂模式+策略模式:为了将工厂方法的代码从客户端移出来,我们把这些代码搬到了父类的构造函数中,让父类在构造的时候,根据参数,自己实现工厂类的作用。这样做的好处就是,在客户端不用再认识工厂类了,客户端只要知道父类一个就OK,进一步隔离了变化,降低了耦合。

在基本的策略模式中,选择所用具体实现的职责由客户端对象成端,并转给客户端。这本身并没有减除客户端需要选择判断的压力,而策略模式与简单工厂模式结合后,选择具体实现的职责也可以由父类承担,这就最大化地减轻了客户端的职责。

Posted by & filed under Study & Reading.

IT技术这个行业混久了,作为一路走到现在的人,很多事情看不习惯,很多新手非常的浮躁,总是问,学什么赚钱,我要是知道学什么赚钱,我自己就去了,还轮到你么?再说不管什么行业,只要你处于金字塔的中上层,钱都不会少的。钱不是目的,他只是提升的自己的一个过程。新手遇到问题,劈头就问怎么解决,怎么办?甚至问题都不想清楚就问,我非常讨厌这样的提问方式。国内产出文章质量比较高的社区之一 —啄木鸟社区为想做程序员这个行当的人树立了很好的榜样,建议新人去看看,你不一定要学Python,但是其中的一些精髓是值得每个程序员学习的。
提问的智慧 全文在此,图如下:
提问的智慧

Posted by & filed under Programming.

Web.py是python web框架中比较轻量级的,只实现了一些必要的组件,个人比较喜欢这样的框架,虽然功能并不完整,在我所做过的项目中,实际上并没有一款框架能够适合,或许是因为电子商务领域特殊性,也或许是因为公司太大,依赖的东西更多,直接导致了任何一款框架拿过来,写着写着就需要动框架本身的东西,不动它就实现不了业务,由于这个原因,我更偏爱简洁、轻量的框架,修改起来方便,至于组件,既然别的框架已经实现了,拿来改改就能用上了。当然,如果只是普通的CMS之类的开发,没有很多复杂的业务,我更推荐各位使用功能丰富,大而全的框架,比如Rails,比如Django,或者PHP里的很多类似的框架,可以省不少时间,至少分页类不用自己搞了。在复杂的项目中,这些时间是不能省的,否则会导致日后业务的灾难性后果或者需要更多的时间去修改框架。
废话多了,关于web.py可以参考官方网站,中文的入门文档也很全,写起来非常的简单,基本上不用改什么就可以迁移到Google App Engine上。下面上代码:

import web
import json
from mimerender import mimerender
 
render_xml = lambda message: '<message>%s</message>'%message
render_json = lambda **args: json.dumps(args)
render_html = lambda message: '<html><body>%s</body></html>'%message
render_txt = lambda message: message
 
urls = (
    '/(.*)', 'greet'
)
app = web.application(urls, globals())
 
class greet:
    @mimerender(
        default = 'html',
        html = render_html,
        xml  = render_xml,
        json = render_json,
        txt  = render_txt
    )
    def GET(self, name):
        if not name:
            name = 'world'
        return {'message': 'Hello, ' + name + '!'}
 
if __name__ == "__main__":
    app.run()

最后使用CURL加模拟的header参数的输出是这样的:
web.py output