淘宝在数据处理领域的项目及开源产品介绍

Posted by & filed under Tools.

淘宝在数据存储和处理领域在国内互联网公司中一直保持比较靠前的位置,而且由于电子商务领域独特的应用场景,淘宝在数据实时性和大规模计算及挖掘方面一直在国内保持着领先,因此积累了很多的实践的经验和产品。   TimeTunnel  基于Hbase打造的消息中间件,具有高可靠、消息顺序、事务等传统特性,还能按时间维度反复订阅最近历史的任意数据 高性能的broker,单节点达2万TPS,实际支持上千长链接并发 承载海量的数据传输,日同步数据达10TB,并且包含淘宝主营收入等关键性数据 在各IDC内,部署了超过2000个客户端,覆盖全网日志传输 Scribe、flume、activemq、ZeroMQ?我们可以做得更强大 TBFS 基于Hdfs 0.20进行全面改造,设计目标:单个集群可达10000台服务器,支持10亿文件、100PB的数据的存储 领先于社区的全新设计,彻底解决namenode单点问题,并可实现集群在线升级 期待你来挑战:snapshot、异地数据复制、多级的cache、软硬链接支持 Hbase 基于Hbase0.90.3进行改造,目前有上百台的Hbase服务器,支淘宝7个online应用,online数据存储达100T 支持本地化数据计算、二级引索 期待你来挑战:无阻塞的compact、更多的事务支持、更短的请求响应时间、更强大的索引(Lucene for hbase) Mapreduce 基于Hadoop0.19改造,最大单个集群规模达2000台服务器,兼容hadoop0.20 绝大多数API 实际存储数据超过10PB,日运行mapreduce job达5万个 期待你来挑战:更高效任务调度、更优雅的计算资源管理、更灵活的分布计算模型 Hive 基于hive0.6改造,修改的patch达上百个,支持SQL中间结果复用等众多特性 支持淘宝几乎所有的商业数据分析任务,是各行业数据分析师和数据开发工程师必备的技能 期待你来挑战:Hive & Pig能混合编程?现在不能,你敢想就可以来做! Taobao-pamirs-schedule  taobao-pamirs- schedule是一个基于分布式环境的多线程任务处理框架。目的是让一种批量任务或者不断变化的任务,能够被动态的分配到多个主机的JVM,不同的线程组中并执行。所有的任务能够被不重复,不遗漏的快速处理。它将需要执行的任务抽象成一致的任务模型,进行统一的管理和监控。运用schedule,任务能够比较均匀的分发到多台机器上进行处理,并且可以动态的进行水平扩展。 QLExpress  一个轻量级的脚本引擎,作为一个嵌入式规则引擎在业务系统中使用。让业务规则定义简便而不失灵活。让业务人员就可以定义业务规则。 支持标准的JAVA语法,还可以支持自定义操作符号、操作符号重载、函数定义、宏定义、数据延迟加载等。 UIC Uic是个海量数据的高稳定高并发高响应高可靠高一致性的系统。海量数据:现在整个用户中心的注册用户数接近6亿,加上地址,支付宝绑定数据,接近20亿。现在通过分库分表存在了16个库1024张表里面。高稳定,高可靠:用户中心是淘宝最为核心的系统之一,一个完整的交易流程需要访问UIC高达几十次,所以UIC的稳定是整个淘宝的重中之重,我们为了UIC的稳定做了很多容灾的方案,包括多机房的备份,缓存的容灾,mysql的容灾,流量的控制等等,可以说UIC的核心就是各种容灾体系和在各种极端情况的下解决措施高并发,高响应:每天访问UIC的数据在200亿左右,我们使用了tair做为缓存,使用protobuf序列化, 尽可能的提高缓存的命中率,现在用户数据的命中率在99%。 Prom  海量数据实时计算框架。基于搜索技术对海量明细数据做实时计算。目前主要对交易数据做分析,应用于数据魔方中 特点: 多维索引组合查询 支持任意维度的计算 实时响应(秒级) 结果精确 Andes  Andes是基于HBase的任意数据长时间维度高性能数据查询集群系统。解放数据魔方在查询时间段上的限制。 采用key-list存储方式,对于任何时间长度的查询均仅需一次数据库访问即可完成,规避查询时间对于查询性能的影响。 KeyKeys  用户搜索query数据分析系统。应用于淘词中,提供实时匹配用户输入query做关键query、关键热词的查询计算。 Myfox/Nodefox  MyFOX是一个针对海量统计数据设计的高性能分布式MySQL集群中间层,承担着数据魔方90%以上的数据存储和查询需求。MyFOX能够提供: •… Read more »

Google App Engine项目收集

Posted by & filed under Tools.

http://right.appspot.com/ 类似eemap的玩意 http://code.google.com/p/cpedialog 很不错的Blog程序 www.topea.net 外汇智能交易信号实时发布 http://im.huhaitai.com 仿twitter的一个应用,单用户 http://www.bus-line.cn 一个gae做的公交网站,现有北京 上海 南京 广州 天津 重庆 成都 深圳 等城市的公交线路。 http://my-todo.appspot.com/ 是任务管理, 适用于在 Firefox 侧边栏载入. 另外一个重要的特性是支持 Google Gears, 可以在没有网络的情况下使用. http://images.kangye.org 分享网络图片,挖图网 http://www.themv.cn LAST+YOUTUBE的应用,平时可以上去听听音乐 http://web-proxy.appspot.com 华丽的web proxy http://xiudaima.appspot.com 在线的代码高亮工具,只需复制粘贴就可以把高亮代码加入到你的Blog、邮件、Word中 http://ttlicai.appspot.com 天天理财网 http://proxycgi.appspot.com proxy http://uuopenchat.appspot.com 用django和jquery做的聊天室 http://sms4twitter.appspot.com 可以用短信更新twitter的玩意 http://gae-django-cms.appspot.com 一个简洁的CMS http://trygroovy.appspot.com/ 一个Groovy Web Console,带有一个交互式的Groovy学习教程。教程的输入界面完全实现了一个命令行窗口。输入下面教程的脚本,如果输入正确,教程会自动进入下一章。 交互式教程的形式受TryRuby启发,是对它的模仿。 http://rss4py.appspot.com RSS聚合 http://tedtalksubtitledownload.appspot.com/ 下载TED字幕 http://t.yibin.us 利用twitter… Read more »

Firefox使用SSH配合autoproxy自动翻山图文教程

Posted by & filed under Tools.

在这个特殊的日子里,我没有什么可以做的,在西厢计划没有成型之前,希望此文能够让翻山的人少折腾,少排出一点二氧化碳。 每个人都抱着“我们不能改变什么,那是别人玩的游戏”,我们的未来还有希望吗。围观也是一种态度,起码我们有勇气去寻求真相。也许我们不能改变什么,但是我们应该为那些有勇气的人鼓掌。 Google走了,周围有人说:因为他们没有遵守中国的法律。其实是你自己被剥夺了寻求真相的权利,而他在帮你把它争取回来,而你依然是一名不明真相的群众。 这篇文章将介绍另一种翻山手段,SSH代理山墙,对于购买类似Dreamhost主机的用户,会有SSH帐号可以使用,通过这个SSH帐号,即可实现更为安全可靠并且稳定的翻山术。 名词解释:SSH 安全外壳协议(Secure Shell Protocol / SSH)是一种在不安全网络上提供安全远程登录及其它安全网络服务的协议。最初是UNIX系统上的一个程序,后来又迅速扩展到其他操作平台。 常用的SSH工具有开源软件putty,后面介绍的MyEntunnel最终还是靠pLink调用putty实现SSH的加密通道。 第一步:获取拥有SSH权限的帐号和密码。 对于购买类似Dreamhost主机的用户,会有SSH帐号可以使用,也可以通过其他方式购买或者获取SSH帐号。 友情提示:没有SSH帐号的朋友可以去淘宝、有啊,拍拍等网站自行搜索,并购买,目前报价普遍10元左右每月 第二步:配置MyEntunnel软件 下载并安装MyEntunnel,该软件全名为My Encrypted Tunnel。 按照上图将第一步收到的帐号信息填写到相应的地方后,点击 “保存”按钮,再点击“连接”按钮。 第一次连接过程中会出现一个认证对话框,按照提示选“yes”即可。以后的自动连接中将不再出现此认证对话框。 最后点击“隐藏”按钮,使对话框隐藏到右下角系统任务栏中。 提示: 为MyEntunnel创建一个快捷方式,将其复制到系统的【启动】(C:\Documents and Settings\当前用户名(需要修改成你自己的)\「开始」菜单\程序\启动)文件夹中,今后开机便可自动启动软件,并自动连接服务器。 如上图所示,myentunnel有三种颜色表示不同的状态,绿色代表连接成功且稳定;黄色代表正在连接或重新连接;红色代表连接失败。 第三步:配置Firefox浏览器 Firefox有一个扩展,叫做AutoProxy,它能够自动配置让被墙的站点通过代理服务器访问。你可以通过firefox访问以下地址安装:https://addons.mozilla.org/zh-CN/firefox/addon/11009 如下图所示,点击添加到Firefox。 点击 “立即安装” 安装完成后按照提示重新启动firefox以便配置 autoproxy。 重启后完成autoproxy的安装,我们在弹出的窗口中开始配置autoproxy,如下图: 在“代理规则”中“添加规则订阅” 如下图选中“gfwList”,然后点击右下角“订阅”按钮。 在“代理服务器”选项卡中,选中“选择代理服务器” 然后按照下图标示选择并确定。 如下图所示,在“选项” 标签中选择“自动模式” 最后,单击下方的“应用”并“确定”,到此设置完毕。 今后只要先启动MyEntunnel,然后启动Firefox就可以自动翻墙了,而不需要使用代理的站点依然是直接访问(不通过代理),所以速度不受影响。 最后测试一下,访问一下facebook吧: 好了,完全正常。 Update: 看了国新办网络局就谷歌搜索退出中国内地发表谈话 很受伤,引用锅巴的一句话,傻逼是永远死不光的,正如我本文开头所说的那样,自己不知道争取自由,别人帮你争取,那个人却成了坏人

为Firefox 3.6修改的两个小扩展

Posted by & filed under Tools.

在本子上装了window 7 ,索性就装了一下最新版的firefox 3.6,结果一些常用的扩展不支持了,有些就懒得要了,反正也不常用,等着作者更新吧,有两个扩展对我来说,没有是很郁闷的,一个是Hide Menu Bar,一个是Super Drag And Go ,顾名思义,前面一个是隐藏firefox的菜单栏的,对于我这样的宽屏用户来说,能扩大一点面积,算一点。后面一个是用来拖拽的,比如你看到一个新鲜的名词不知道什么东西,你可能需要打开一个新的标签,然后输入搜索引擎地址,然后复制,然后搜索,有了这个扩展之后,只要选中这个词,随便一拖,就自动到你默认的firefox 搜索引擎上去了,并且打开一个新标签,非常爽,这玩意的功能不仅仅这么简单,假如你拖的是个URL地址的话,就自动在新标签打开这个地址,还有其他的一些功能,非常小巧实用的。 我修改的这两个插件可以适用于3.*版本,都是基于原作者最新版修改的。 Hide Menu Bar: 下载地址:http://dl.dropbox.com/u/140847/hide_menubar-1.0.20091221-fx%2Btb.xpi Super Drag And Go : 下载地址: http://dl.dropbox.com/u/140847/super_dragandgo-0.2.6-fx.xpi

使用Firefox+foxyProxy+SSH翻山越岭

Posted by & filed under Tools.

每次我说能够自动进行代理访问一些被和谐的网站时候,别人都要问我一遍怎么弄,如果是身边,倒是好说,我随便帮你弄下就好了,如果是通过IM工具来问的朋友,我就不知道该怎么回答了,如果对方仅仅是为了翻山,而且计算机基础一般的话,那就更说不清了,我觉得我有必要搞个图文并茂的文章,下次,别人问我的时候,我就可以直接把这个链接给他了。 PS:转载请注明出处,请各位手续留情,谢谢。 完成配置的前提是你必须要有一个可以使用的SSH帐号,并且服务器是在墙外,比如美国、香港等地,如果你没有,你可以在此留言或者联系我,我不能保证你能获取到一个免费的SSH帐号,可能我可以告诉你一些获取途径和方法。 1、下载firefox, 并且双击安装好,如果你已经有firefox,省略此步,下载地址:http://www.mozilla.com/ 2、安装FoxyProxy扩展:如果你已经有这个扩展,省略此步,安装地址:https://addons.mozilla.org/zh-CN/firefox/addon/2464 ,点击打开的页面上的“安装到Firefox”,然后会问你是否允许,点击允许,如果没安装,再点一下“安装到firefox”按钮,重启firefox 3、下载MyEnTunnel, 你也可以使用Putty 或者 plink这样的工具,但是会多出来一个黑乎乎的窗口,很烦,这个小软件可以避免这样的问题,下载地址: http://dl.dropbox.com/u/140847/setup_myentunnel.exe ,下载完成后双击安装文件,完成安装。 4、启动MyEnTunnel, 在setting选项卡中,大致的设置如下图: SSH server中填入你的SSH服务器IP地址,SSH port是SSH帐号端口,一般默认即可,后面是你的用户名和密码,其他的设置正常情况下照抄即可 5、设置foxyproxy,点击firefox右下角黄色的狐狸图标,按照下面的图示进行设置: 新建代理服务器: 设置代理服务器名称,推荐勾选上perform remote dns的选项,防止DNS劫持: 设置代理服务器地址及端口,如果你的MyEnTunnel按照我上面的图配置,并且连接成功,那么此配置依然可以照抄。 设置代理模板,在访问Web的时候,foxyproxy会自动根据你访问的地址,来跟这个模板进行匹配,如果成功,则使用代理,如果不成功则不使用,这样做的好处是,当你的时间大部分是在浏览没有被和谐的网站时,就不用走代理服务器,这样既能给你带来速度也给代理服务器节省流量,一举多得啊。 上图中我用了一个twitter的例子,按照上面的设置,你在访问twitter时,会自动使用代理,访问其他网站则不会使用代理,非常方便。 这仅仅是个新手的教程,老鸟请略过,前面说了,只是为了以后给新手普及翻山越岭本领的时候,少说几句。

JavaScript完美验证URL正则

Posted by & filed under Programming, Tools.

这个url的正则表达式判断的JavaScript!比较全面的。它验证的情况包括IP,域名(domain),ftp,二级域名,域名中的文件,域名加上端口!用户名等等信息,貌似作者也是在网上找的,我从一个项目代码中扣出来的,是我见过的最强最全面的url验证方式!太猛了,贴在这里与大家共享先,以后不记得的时候来博客上找找,URL的验证实在是很频繁。 function IsURL(str_url){ var strRegex = "^((https|http|ftp|rtsp|mms)?://)" + "?(([0-9a-z_!~*'().&=+$%-]+: )?[0-9a-z_!~*'().&=+$%-]+@)?" //ftp的user@ + "(([0-9]{1,3}\.){3}[0-9]{1,3}" // IP形式的URL- 199.194.52.184 + "|" // 允许IP和DOMAIN(域名) + "([0-9a-z_!~*'()-]+\.)*" // 域名- www. + "([0-9a-z][0-9a-z-]{0,61})?[0-9a-z]\." // 二级域名 + "[a-z]{2,6})" // first level domain- .com or .museum + "(:[0-9]{1,4})?" // 端口- :80 + "((/?)|" // a slash isn’t required if there is no file… Read more »

OUTLOOK2007最小化到托盘显示

Posted by & filed under Tools.

由于公司的提供邮箱实在是小,而且几乎可以说是没有Web界面,出于有条件的情况下,一定使用正版和与大家保持一致的原则,选择了outlook 2007 ,这家伙居然默认不支持最小化到任务栏~~~ OUTLOOK启动后最小化总是在任务栏上占一个位置,工作起来碍事, 最后修改注册表解决之。 1.打开注册表 : 开始菜单 -> 运行, 输入”regedit”并回车 2.打开HKEY_CURRENT_USER\Software\Microsoft\Office\12.0\Outlook\Preferences项目 3.建立一个DWord的值(双字节值),名称为”MinToTray”, 取值改成 1 4.关闭注册表编辑器, 如果Outlook 2007运行中,关闭. 5.启动Outlook2007, 此时系统托盘区已经有一个Outlook2007的小图标了, 当你把Outlook2007最小化的时候, 它就会自己缩到托盘区了. 最后不得不感叹一句,这年头,微软的东西也设计得不易用啊~~

Firefox CPU 占用50%解决

Posted by & filed under Tools.

前几天突然发现Firefox启动时候CPU占用有50%,更要命的是居然启动不起来,总是崩溃,崩溃,由于开发任务忙,换成别的浏览器继续搞,这两天又去旅游了一趟,早上一到公司,就开始整,DBA Notes的Fenng大侠,在他的博客中说是quick time这个播放器引起的,我跑到安装目录下面,没找到quick time这个插件,最后google到这篇文章,说是由google desktop不兼容引起的,google的桌面软件一向兼容性不是很好,卸载之,果然firefox正常了,唉,惊叹一下google的工程师是不是都用Mac的,郁闷

迅雷去广告方法

Posted by & filed under Tools.

迅雷应该算是当前中国装机量最大的下载软件,很多人没听过快车,很少人没听过迅雷,不过迅雷在一开始就过度的关注商业利润,使得现在广告满天飞,严重影响用户体验,致使很多人使用修改版(去广告版)迅雷,修改版迅雷之所以受欢迎,不仅仅因为广告,还因为CPU消耗更多,更关注用户的隐私,更方便。这个很类似当年的珊瑚虫QQ,我觉得迅雷有必要去学学QQ了,QQ自从2009版本发布以后,允许用户自定义界面模块,并且边界可隐藏,广告体验大大的优化了,我看过大部分人都不隐藏界面上的东西,有些是因为他们不知道,有些是因为习惯了这样的界面,但无论如何,更好的UI体验,更自由的定制,都堵住了像我这样挑剔的用户的嘴巴,或者用说就是不给钱却要求很多的高端用户,迅雷做的还远远不够,弹出的广告太恶心。 其实修改版迅雷除了精简了一些模块和调整了一些默认设置之外,还做了一件最重要的事情就是修改hosts文件,关于这个文件的作用可以参考百度百科中的解释,这文件的位置位于:C:\WINDOWS\system32\drivers\etc,当然假如你的系统不是在C盘,那就看着办吧,在上面的路径中找到hosts文件,然后右键打开方式里面选择记事本,在文件的最后添上如下字段: 0.0.0.0   pubstat.sandai.net 0.0.0.0   mcfg.sandai.net 0.0.0.0   biz5.sandai.net 0.0.0.0   float.sandai.net 0.0.0.0   cl.kankan.xunlei.com 0.0.0.0   mtips.xunlei.com 0.0.0.0   211.94.190.80 0.0.0.0   adsresult.joywell.com.cn 0.0.0.0   advstat.xunlei.com 0.0.0.0   wy.xunlei.com 0.0.0.0   kkpgv.xunlei.com 0.0.0.0   statis.kankan.xunlei.com 0.0.0.0   server1.adpolestar.net 0.0.0.0   mpv.sandai.net 目前可以达到去除所有广告的目的,不知道以后会不会改地址,暂且用之。另外,修改版迅雷可能会被插入一些用户行为统计的代码或程序,比如尼尔森,艾瑞所思之流就经常和流氓软件的作者合作干这种勾当,这也是我不使用修改版的一个重要原因之一。

Windows Vista/Win 7下安装P2P终结者-8月20日更新

Posted by & filed under Tools.

下载Winpcap 4.0.2及以上版本,P2P终结者是基于这个windows平台的著名网络管理工具制作的,截至写作本文时(2009-05-03)P2P 3.6和最新的4.04内置的版本都过低,不能在vista 及以上版本使用。 下载npptools.dll文件,因为Vista 或者window 7 中都没有这个dll文件,这个文件是window XP中用来管理ARP的工具,P2P终结者是通过修改和使用npptools来实现路由欺骗把自己伪装成路由器,从而实现对子网内计算机进行控制。我从XP中找了这个文件,可以通过Box.net 下载npptools.dll 去p2p终结者官方网站下载P2P终结者,最新版是4.04,不过我不习惯这个界面,所以一直使用3.6版本。安装之后,以管理员权限启动即可。 2009-08-20 更新:由于box.net被和谐,可以到大米盘下载:npptools.dll 2009-10-15更新:最近发现大米盘也不稳定,增加 纳米盘下载