`
文章列表
转自:http://www.tech126.com/hadoop-lzo/ 自从Hadoop集群搭建以来,我们一直使用的是Gzip进行压缩 当时,我对gzip压缩过的文件和原始的log文件分别跑MapReduce测试,最终执行速度基本差不多 而且Hadoop原生支持Gzip解压,所以,当时就直接采用了Gzip压缩的方式 关于Lzo压缩,twitter有一篇文章,介绍的比较详细,见这里: Lzo压缩相比Gzip压缩,有如下特点: 压缩解压的速度很快 Lzo压缩是基于Block分块的,这样,一个大的文件(在Hadoop上可能会占用多个Block块),就可以由多个MapReduce并行 ...
转自:http://www.4ucode.com/Study/Topic/1925466     第一步,启动hadoop,命令:./start-all.sh 第二步,启动hive,命令: ./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0/lib/hbase-0.20.3.jar,/home/dream-victor/hive-0.6.0/lib/zookeeper-3.2.2.jar -hiveconf hbase.master ...
总结一下ubuntu下github常用的命令,设置部分跳过,假设repository的名字叫hello-world: 1.创建一个新的repository:先在github上创建并写好相关名字,描述。$cd ~/hello-world //到hello-world目录$git init //初始化$git add . //把所有文件加入到索引 ...
一、目的:由于hadoop只能在Linux环境下运行,所以对于在windwos系统下使用IDE工作的开发人员来说,调试是件麻烦的工作,所以我们今天要配置的Hadoop开发环境是在Windows XP系统下,并集成eclipse使开发人员在做hadoop开发时更容易调试。二、本人配置的版本信息:windows XP系统,jdk1.6.0_05,eclipse-jee-indigo-win32 Release 3.7.0,cygwin 1.7.9-1,hadoop-0.20.2,三、配置步骤:1、安装cygwin:cygwin网上的资料很多,这里就不再详述。2、JAVA安装对于JAVA的安装与环境配 ...
转自:http://www.4ucode.com/Study/Topic/1925466   第一步,启动hadoop,命令:./start-all.sh 第二步,启动hive,命令: ./hive --auxpath /home/dream-victor/hive-0.6.0/lib/hive_hbase-handler.jar,/home/dream-victor/hive-0.6.0/lib/hbase-0.20.3.jar,/home/dream-victor/hive-0.6.0/lib/zookeeper-3.2.2.jar -hiveconf hbase.master=12 ...
志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。 本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。 在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志: 211.87.152.44 – - [18/Mar/2005:12:21:42 +0800] “GET / HTTP/1.1″ 200 ...
转自:http://www.bwxxkj.com/a/jishuzhongxin/xingyeyingyong/2012/0327/88943.html   前提:安装好 sqoop、hbase。 教材气的人,他们彼此建树友情,是很是轻易的;要他破损已有的友情,倒是一件难事。正如黄金的器皿一样,是不轻易破裂的;假如破损了,要修补它,使它恢答复复兴状,倒是最轻易的事。下载jbdc驱动:mysql-connector-java-5.1.10.jar 将?mysql-connector-java-5.1.10.jar?复制到 /usr/lib/sqoop/lib/ 下 MySQL导入HBas ...
在Linux下使用 tar 命令来将文件打包并压缩是很通常的用法了。可是Linux的文件系统对文件大小有限制,也就是说一个文件最大不能超过2G,如果压缩包的的内容很大,最后的结果就会超过2G,那么该怎么办呢?又或者压缩包希望 ...
iptables是Linux上常用的防火墙软件,下面vps侦探给大家说一下iptables的安装、清除iptables规则、iptables只开放指定端口、iptables屏蔽指定ip、ip段及解封、删除已添加的iptables规则等iptables的基本应用。 1、安装iptables防火墙 如果没有安装iptables需要先安装,CentOS执行: yum install iptables Debian/Ubuntu执行: apt-get install iptables 2、清除已有iptables规则 iptables -Fiptables -Xiptables -Z 3 ...
系统 # uname -a # 查看内核/操作系统/CPU信息 # head -n 1 /etc/issue # 查看操作系统版本 # cat /proc/cpuinfo # 查看CPU信息 # hostname # 查看计算机名 # lspci -tv # 列出所有PCI设备 # lsusb -tv # 列出 ...
Hadoop回收站trash,默认是关闭的。 1.修改conf/core-site.xml,增加 Xml代码 <property>   <name>fs.trash.interval</name>   <value>1440</value>   <description>Number of minutes between trash checkpoints.    If zero, the trash feature is disabled.    </description>  </property&g ...
随着Microsoft 也加入Hadoop 阵营,Hadoop 已经完全变成了DBMS 的好朋友了 , 2年之前的SIGMOD组织提出的“A Comparison of Approaches to Large-Scale Data Analysis”引发了关于并行数据库和MapReduce模型的讨论, 双方唇枪舌剑之后发现两个系统根本就是各有所长, DBMS 目前有些处理好的领域和商业支持,Hadoop 也有自己的优势和使用案例.     就如前一篇TDWI 所说的3个V 问题,新一代Hadoop MapReduce 主要解决的是数据容量和多种类型的数据(结构化,半结构化,非结构化). 而传统 ...
转自:http://www.gemini5201314.net/hadoop/hadoop-%e4%b8%ad%e7%9a%84%e4%b8%a4%e8%a1%a8join.html   作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各 ...
转自:http://www.gemini5201314.net/hadoop/%E5%90%84%E7%89%88%E6%9C%AC%E7%BC%96%E8%AF%91hadoop-eclipse-plugin.html 最近一直在使用mapr版本的hadoop, 然后用的karmasphere 的eclipse plugin . 突然想找一个eclipse IDE 连接一下Cloudera 版本的方便一下操作,结果就悲剧 ...
转自:http://hi.baidu.com/dmuyy/blog/item/2a0090e73c434334b83820fd.html   Taste 是 Apache Mahout 提供的一个协同过滤算法的高效实现,它是一个基于Java实现的可扩展的高效的推荐引擎。该推荐引擎是用<userid,itemid,preference>这样简单的数据格式表达用户对物品的偏好。以此为输入数据,计算后就可以得到为每个user推荐的items列表。他提供了方便的单机版的编程接口,也提供了基于hadoop的分布式的实现。单机版的编程接口主要适用于写demo和做算法的评估,若 ...
Global site tag (gtag.js) - Google Analytics