nawawa001 发表于 2015-11-30 10:01:50

ubuntu14.04机器学习搭建——python、R、spark

  主要记录了最近工作要用到的一些测试环境的搭建,记下来以后随时随地都可以搭建这样一个环境。没什么太多技术含量,主要是为了方便,大神请绕道。
  
  一.操作系统安装
  1.下载操作系统镜像(博主实在虚拟机中安装的,毕竟只是测试用),虚拟机安装镜像 http://pan.baidu.com/s/1gdCXrGZ
    2.修改软件源,博主用的是aliyun的,亲测可用
    3.禁止guest登录(博主轻微强迫症)
  首先安装vim :sudo apt-get install vim-gnome
  sudo vim /usr/share/lightdm/lightdm.conf.d/50-unity-greeter.conf
  添加 allow-guest=false
  4.sudo无密码登录
  sudo chmod 770 /etc/sudoers
  sudo vim /etc/sudoers
  修改为
  root ALL=(ALL:ALL) NOPASSWD: NOPASSWD: ALL
  # Members of the admin group may gain root privileges
%admin ALL=(ALL) NOPASSWD: NOPASSWD: ALL
  # Allow members of group sudo to execute any command
%sudo   ALL=(ALL:ALL) NOPASSWD: NOPASSWD: ALL
  sudo chmod 0440 /etc/sudoers
  5.增加源(为了安装最新版本的R语言)
  sudo vim /etc/apt/sources.list    添加以下信息:

deb http://mirror.bjtu.edu.cn/cran/bin/linux/ubuntu trusty/            
deb http://mirror.neu.edu.cn/ubuntu/ trusty-backports main restricted universe  
  二.python机器学习环境
  1.python系统默认是2.7,博主就用的默认版本。
  2.机器学习常见包的安装(numpy,scipy,pandas,matplotlib,sklearn)
  sudo apt-get install python-pip
  sudo apt-get install python-dev
  修改pip的源(默认源下载太慢)
  sudo vim ~/.pip/pip.conf (说明:随便安装一个错误的包,~/.pip就会自动生成)   添加
  
trusted-host=mirrors.aliyun.com
index-url=http://mirrors.aliyun.com/pypi/simple/
  这里我们有两种方式安装python包:(1) apt-get直接安装    (2) pip install 安装   (推荐第一种方式安装,pip安装会出现某些包找不到资源)
  sudo apt-get install python-numpy
sudo apt-get install python-scipy
sudo apt-get install python-matplotlib
  sudo apt-get install python-sklearn
  sudo pip install pandas
  或者
  sudo apt-get build-dep python-numpy(安装相关编译环境,可选)
sudo apt-get build-dep python-scipy
  sudo pip install numpy
sudo pip install scipy(会有两个包找不到资源,推荐第一种方式安装)
  sudo pip install numpy
sudo pip install pandas
  另外博主也安装了scrapy等常用库
  3.开发工具
  由于博主不需要开发大型的工程,所以多数时候都不会用到集成环境。当然,由于沿用java的习惯,博主同样在eclipse安装了python插件,计划以后用来写python爬虫等等,这里不再详述
  博主日常写代码用的是ipython notebook环境
  sudo apt-get install ipython
  sudo pip install notebook
  输入 ipython notebook 就进入了代码界面
  网上也有提到需要安装sudo apt-get install libzmq-dev,博主没安装照样跑的飞起。不过能装就装了吧
  
  三.R环境
  1.先来个全面升级吧
  sudo apt-get update   
  可能会遇到错误:
  Reading package lists... Done
W: GPG error: http://mirror.bjtu.edu.cn trusty/ Release: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY 51716619E084DAB9
  输入:
  sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 51716619E084DAB9
  
  sudo apt-get upgrade   可能要花一段时间
  2.安装R语言
  sudo apt-get install r-base
  3.R语言开发工具RStudio
  http://pan.baidu.com/s/1jG93zwE
  sudo apt-get install gdebi-core
  sudo gdebi rstudio-0.99.484-amd64.deb
  4.R包换国内的源
  输入: rstudio
  tools-->global option-->package 换成国内的源
  
  四.spark环境
  1.java安装   
  直接安装open-jdk(没什么好说的)
  安装oraclejdk:
  原来系统有的可以先删除
  sudo apt-get autoremove **
  sudo add-apt-repository ppa:webupd8team/java

sudo apt-get update
sudo apt-get upgrade
sudo apt-get install oracle-java7-installer
sudo apt-get install oracle-java7-set-default  2.源码编译环境
  http://pan.baidu.com/s/1jG3xLNS   直接解压安装
  http://pan.baidu.com/s/1c0iBqTU   未编译的源码包
  MAVEN和scala以及sbt,在源码包的build目录下都有,添加环境变量就行了。
  maven编译官方有文档,照着写就OK了
  3.hadoop的编译环境
  在做balancer优化的时候对源代码进行了一些更改,尝试了首次编译(以前都是直接解压安装的)。
  在这里稍微提一下,编译需要java, c++,各种lib、devel(autoconf, automake, libtool, ncurses-devel, openssl-devel, gcc,g++, lzo-devel, zlib-devel), ant, maven, protobuf(容易忽略), cmake
  
  五.eclipse集成python,scala
  sudo apt-get install eclipse-platform   应该是3.8.1版本的
  http://www.pydev.org/updates/   python插件在线安装地址
  http://download.scala-ide.org/sdk/helium/e38/scala210/stable/site    scala2.10插件在线安装
  
  
  
  新开博客,以后会不定时更新机器学习与数据挖掘相关的算法实现以及spark MLlib相关的算法与应用。
  
页: [1]
查看完整版本: ubuntu14.04机器学习搭建——python、R、spark