ubuntu14.04机器学习搭建——python、R、spark
主要记录了最近工作要用到的一些测试环境的搭建,记下来以后随时随地都可以搭建这样一个环境。没什么太多技术含量,主要是为了方便,大神请绕道。一.操作系统安装
1.下载操作系统镜像(博主实在虚拟机中安装的,毕竟只是测试用),虚拟机安装镜像 http://pan.baidu.com/s/1gdCXrGZ
2.修改软件源,博主用的是aliyun的,亲测可用
3.禁止guest登录(博主轻微强迫症)
首先安装vim :sudo apt-get install vim-gnome
sudo vim /usr/share/lightdm/lightdm.conf.d/50-unity-greeter.conf
添加 allow-guest=false
4.sudo无密码登录
sudo chmod 770 /etc/sudoers
sudo vim /etc/sudoers
修改为
root ALL=(ALL:ALL) NOPASSWD: NOPASSWD: ALL
# Members of the admin group may gain root privileges
%admin ALL=(ALL) NOPASSWD: NOPASSWD: ALL
# Allow members of group sudo to execute any command
%sudo ALL=(ALL:ALL) NOPASSWD: NOPASSWD: ALL
sudo chmod 0440 /etc/sudoers
5.增加源(为了安装最新版本的R语言)
sudo vim /etc/apt/sources.list 添加以下信息:
deb http://mirror.bjtu.edu.cn/cran/bin/linux/ubuntu trusty/
deb http://mirror.neu.edu.cn/ubuntu/ trusty-backports main restricted universe
二.python机器学习环境
1.python系统默认是2.7,博主就用的默认版本。
2.机器学习常见包的安装(numpy,scipy,pandas,matplotlib,sklearn)
sudo apt-get install python-pip
sudo apt-get install python-dev
修改pip的源(默认源下载太慢)
sudo vim ~/.pip/pip.conf (说明:随便安装一个错误的包,~/.pip就会自动生成) 添加
trusted-host=mirrors.aliyun.com
index-url=http://mirrors.aliyun.com/pypi/simple/
这里我们有两种方式安装python包:(1) apt-get直接安装 (2) pip install 安装 (推荐第一种方式安装,pip安装会出现某些包找不到资源)
sudo apt-get install python-numpy
sudo apt-get install python-scipy
sudo apt-get install python-matplotlib
sudo apt-get install python-sklearn
sudo pip install pandas
或者
sudo apt-get build-dep python-numpy(安装相关编译环境,可选)
sudo apt-get build-dep python-scipy
sudo pip install numpy
sudo pip install scipy(会有两个包找不到资源,推荐第一种方式安装)
sudo pip install numpy
sudo pip install pandas
另外博主也安装了scrapy等常用库
3.开发工具
由于博主不需要开发大型的工程,所以多数时候都不会用到集成环境。当然,由于沿用java的习惯,博主同样在eclipse安装了python插件,计划以后用来写python爬虫等等,这里不再详述
博主日常写代码用的是ipython notebook环境
sudo apt-get install ipython
sudo pip install notebook
输入 ipython notebook 就进入了代码界面
网上也有提到需要安装sudo apt-get install libzmq-dev,博主没安装照样跑的飞起。不过能装就装了吧
三.R环境
1.先来个全面升级吧
sudo apt-get update
可能会遇到错误:
Reading package lists... Done
W: GPG error: http://mirror.bjtu.edu.cn trusty/ Release: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY 51716619E084DAB9
输入:
sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 51716619E084DAB9
sudo apt-get upgrade 可能要花一段时间
2.安装R语言
sudo apt-get install r-base
3.R语言开发工具RStudio
http://pan.baidu.com/s/1jG93zwE
sudo apt-get install gdebi-core
sudo gdebi rstudio-0.99.484-amd64.deb
4.R包换国内的源
输入: rstudio
tools-->global option-->package 换成国内的源
四.spark环境
1.java安装
直接安装open-jdk(没什么好说的)
安装oraclejdk:
原来系统有的可以先删除
sudo apt-get autoremove **
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get upgrade
sudo apt-get install oracle-java7-installer
sudo apt-get install oracle-java7-set-default 2.源码编译环境
http://pan.baidu.com/s/1jG3xLNS 直接解压安装
http://pan.baidu.com/s/1c0iBqTU 未编译的源码包
MAVEN和scala以及sbt,在源码包的build目录下都有,添加环境变量就行了。
maven编译官方有文档,照着写就OK了
3.hadoop的编译环境
在做balancer优化的时候对源代码进行了一些更改,尝试了首次编译(以前都是直接解压安装的)。
在这里稍微提一下,编译需要java, c++,各种lib、devel(autoconf, automake, libtool, ncurses-devel, openssl-devel, gcc,g++, lzo-devel, zlib-devel), ant, maven, protobuf(容易忽略), cmake
五.eclipse集成python,scala
sudo apt-get install eclipse-platform 应该是3.8.1版本的
http://www.pydev.org/updates/ python插件在线安装地址
http://download.scala-ide.org/sdk/helium/e38/scala210/stable/site scala2.10插件在线安装
新开博客,以后会不定时更新机器学习与数据挖掘相关的算法实现以及spark MLlib相关的算法与应用。
页:
[1]