完整學習機器學習實錄2——安裝 Nvidia 機器學習環境

完整學習機器學習實錄2——安裝 Nvidia 機器學習環境

tags : 完整學習機器學習實錄

前言 —— 本文值得一讀之處

本篇將繼續介紹,如何以一個有效的思路,成功的安裝 Nvidia 機器學習環境。

不同於其他文章,本篇以概觀介紹為主、細節為輔,希望以清晰的思路,培養大家思考的能力;跳脫 step by step 的框架,使未來的學習中能夠以飛快的速度向前,即便遇到版本更新、也得以與時俱進。不再拘泥於完善的教程,也得以不斷自我成長。

前情提要

在上一篇完整學習機器學習實錄 1 —— 安裝 Ubuntu 18.04 ,我們安裝 Ubuntu 18.04 系統於 X299 及 1080ti 上,同時記錄了幾個有關於 ACPI 及 NVME 的基本知識和問題迴避。

這次,將來安裝學習機器學習時,最常遇見的環境坑,在 N 卡的環境上,需要安裝的包含顯示卡的驅動程式,Nvidia 提供的 CUDA 與 cuDNN,以及機器學習的套件包,舉凡 Tensorflow、caffe 等。在這裡以 Tensorflow 為例。

在安裝前

如果讀者有閱讀過其他文章,想必非常清楚這三者 Tensorflow, CUDA, cuDNN 的安裝順序通常是先安裝 CUDA 然後補上 cuDNNlib,最後再以 Python 套件的形式,安裝 Tensorflow ,而實際執行上,這樣的順序的確是良好的。

但是,於思考的邏輯上,依照這個順序去選擇安裝版本、去查資料,卻容易造成嚴重的版本錯誤,理由是,Tensorflow 依賴 CUDA 去調用 GPU,而 CUDA 又需要 cuDNN 作為 library 來實現深度神經網路。所以,要成功的安裝學習環境,也是就是要能順利運行 Tensorflow

必須依照 Tensorflow 的需求,去安裝相對應的 CUDA ,再依照 CUDA 的需求,去選擇對應的 cuDNN 作為函數庫。

在這邊,容我對 Tensorflow CUDA cuDNN 稍作展開,避免讀者在接下來的學習中遇到相關問題沒了個底。

Tensorflow

想必會來閱讀這篇文章的大家,對於 Tensorflow 肯定是耳熟能詳了,但是 Tensorflow 的本質究竟是什麼?在接下來的段落裡,我們希望讓大家對於 Tensorflow 能夠有更近一步的認識,而不再是 :

Tensoflow? 做機器學習的啊?
在这里插入图片描述

打開 Tensorflow 官網,我們便能清晰地看到官方對於 Tensorflow 的定位,An open source machine learning framework for everyone. 就我的理解為,「一個面向所有人的、開源的、機器學習框架。」

其實不止 Tensorflow ,多數的軟體都有這麼一句話,位於官網的顯眼處,只要你願意去打開官網,就能夠快速地理解其究竟是什麼定位,能夠拿來解決什麼問題?

在这里插入图片描述
是的,Tensorflow 是一個機器學習的「框架」framework,框架是一個大家公認的規範,也就是在茫茫程式大海中,你可以有自己的習慣、有自己的開發方式、有自己的 API 接法等等。但是,若你與大家使用了共同的規範、共同的習慣,那所有人開發起來就會方便許多,你們可以共用某支程式,共用某些 API ,彼此間也能夠迅速成長。

而 Tensorflow 究竟定義了什麼樣的規範,使之成為機器學習的框架呢?其實官網往下轉,就給出了我們想知道的答案。

在这里插入图片描述這段告訴你,Tensorflow 既是一個機器學習的框架,更是一個實現機器學習算法的接口。

  • 就高層次而言,Tensorflow 主要提供您:
    • 以計算圖的思考方式,去規劃與設計機器學習。
    • 以 session 作為一個窗口,讓使用者快速的設計計算圖。
  • 就低層次的意義而言, Tensorflow 實現了以下幾點:
    • 消弭了不同 CPU、GPU 及更多類型間的硬體差異。
    • 實現了多 worker(不同電腦)、多 device(多張 GPU)的優化,包括記憶體、運算核心、資料傳遞等。
    • 實現了自動的反向傳播算法,由 Tensorflow 去智能計算反向傳播。
    • 性能優化:包括了一些計算庫及不同的並行運算方式。

      這邊大略的提到它的功用,至於再往下展開,就是如合實現這些目標的概念解釋,有興趣得讀者,可以參考 「Tensorflow 實戰」,這本書,裡頭開篇便有詳細的說明。

CUDA

cuDNN

https://www.tensorflow.org/
https://developer.nvidia.com/cudnn

完整學習機器學習實錄1——安裝 Ubuntu 18.04

完整學習機器學習實錄1——安裝 Ubuntu 18.04

前言

  本系列將紀錄作者在學習機器學習的同時,曾經踩過的坑與詳細的操作記錄。

一方面希望之後能夠在不久的未來回顧過去所為、遇到相同的問題時能夠讓迅速找到答案;同時也希望幫助在類似環境下學習的朋友,能夠有一套較詳細的學習筆記,共同勉勵與成長!

硬體配置

1
2
3
4
5
MB : X299 AORUS Gaming 9
CPU: Intel I9-7920X
RAM: DDR4 HyperX 128G
SSD: Kingston A1000 NVMe PCIe SSD 960G
GPU: Nvidia GTX 1080ti (ROG-STRIX-GTX1080TI-O11G-GAMING)

這邊需要注意的

  • MB 與 CPU 經由老外實測^1,是可以運行 Ubuntu 的,所以如果出問題,不需要先去考慮是主板與 CPU 不支持。
  • SSD 是 NVME 協議,LINUX 理論上是支持的^2,組配時需確定主板支持才行。
  • GPU 是 Nvidia ,自古以來 Nvidia 這類外接顯卡在 LINUX 上都需要另外安裝驅動,比較麻煩些,但也不得不用是吧。

系統安裝

筆者打算安裝此時最新的 Ubuntu 18.04 ,並且實現 Windows 10 與 Ubuntu 雙系統。雖然可能會遇到不少坑,但畢竟他是 LTS 版本,選用還是有點保障的。

基本知識

安裝系統涉及主板等許多基礎知識,這邊以條列式記錄,並且附上連結,有興趣大家可以自行研讀,但至少要了解它的功用與存在意義。

  • UEFI:Unified Extensible Firmware Interface 統一可延伸韌體介面,用來定義作業系統韌體的中介 ^3,過去舊稱為 EFI,是用來取代 BIOS 的一種新定義。^4
  • 韌體(固件):firmware 顧名思義,韌體的所在是位於軟體和硬體之間的。像軟體一樣,他是一個被電腦所執行的程式。現已演進為一個硬體裝置當中的可程式化的內容,通常可用 電流清除並重寫更換儲存媒介 的方式更新。

    俗稱刷 BIOS 就是在刷韌體

  • Legacy/CSM:在 UEFI 普及後,我們時常可以在主機板選項中看到這兩者之一,開啟、關閉分別代表是否兼容傳統 BIOS 。這是在標準整合的時代,必然會出現的混亂選項,之後有望完全脫離 CSM^5
    • 微軟的 UEFI 推廣計畫:
      在这里插入图片描述
      • 類別0,這類系統使用x86 BIOS韌體,只支援傳統作業系統。
      • 類別1,這類系統採用支援UEFI和Pi規範的韌體,啟用CSM層功能,只支援傳統作業系統。
      • 類別2,這類系統採用支援UEFI和Pi規範的韌體,啟用CSM層功能,同時支援傳統和UEFI啟動的作業系統。
      • 類別3,這類系統採用支援UEFI和Pi規範的韌體,不再提供或完全關閉CSM層功能,只支援由UEFI啟動的作業系統。
      • 類別3+,在類別3的系統基礎上提供並啟用Secure Boot功能。

        若您的系統都以 UEFI 安裝,理論上開啟與否都不影響,但是為了更好的兼容,通常建議開啟 CSM 後選擇 UEFI 優先。(金士頓的官方說明^6 與 SSD 疑惑^7

  • Secure Boot:中文稱安全啟動,也就是主機板只認定「安全的系統」,才能夠順利啟動,目前被認定為安全的系統有以下等,不少 Linux 發行版也通過「安全」認證。
    • Windows 8 and 8.1
    • Windows Server 2012, and 2012 R2
    • Windows 10, VMware vSphere 6.5[52]
    • Fedora (since version 18)
    • openSUSE (since version 12.3)
    • RHEL (since RHEL 7)
    • CentOS (since CentOS 7[53])
    • Ubuntu (since version 12.04.2)
    • FreeBSD

而更詳記得內容如下文所述^8

The UEFI 2.3.1 Errata C specification (or higher) defines a protocol known as secure boot, which can secure the boot process by preventing the loading of drivers or OS loaders that are not signed with an acceptable digital signature. The mechanical details of how precisely these drivers are to be signed are not specified.[49] When secure boot is enabled, it is initially placed in “setup” mode, which allows a public key known as the “platform key” (PK) to be written to the firmware. Once the key is written, secure boot enters “User” mode, where only drivers and loaders signed with the platform key can be loaded by the firmware. Additional “key exchange keys” (KEK) can be added to a database stored in memory to allow other certificates to be used, but they must still have a connection to the private portion of the platform key.[50] Secure boot can also be placed in “Custom” mode, where additional public keys can be added to the system that do not match the private key.[51]
Secure boot is supported by Windows 8 and 8.1, Windows Server 2012, and 2012 R2, and Windows 10, VMware vSphere 6.5[52] and a number of Linux distributions including Fedora (since version 18), openSUSE (since version 12.3), RHEL (since RHEL 7), CentOS (since CentOS 7[53]) and Ubuntu (since version 12.04.2).[54] As of January 2017, FreeBSD support is in a planning stage.[55]
在这里插入图片描述

  • MBR 與 GPT:兩者分別為傳統 BIOS 與新型 UEFI 的分區結構,狹義的MBR 可以單止 BIOS 的系統引導程序,與之相對應的是 UEFI 的系統引導程序分區 ESP(EFI system partition)。

    • GPT 好處為近乎無限的分區數量以及識別無限硬碟大小。
    • MBR 僅限制 2T 與 4 個主要分區,但存在較好的相容性。
    • 單以一張圖可以這麼解釋兩者差別,MBR 主要受限於其分區、引導等內容都儲存在第一個分區,而這個分區的大小會影響其發展可能性:

      這部分較為複雜,牽扯到系統啟動時所需要查找的硬碟分區、以及其紀錄方式等,詳細內容可以查看這篇文章^9或是較口語化的這篇^10

  • 在 windows 以 UEFI 啟動電腦的流程:
    在这里插入图片描述
    Bootloader(引導)代碼及配置文件存於系統盤的ESP中。其中如圖深灰色層,Win10自帶的 Bootloader 為 Windows Boot Manager ,而同屬相同層次 ubuntu18.04 自帶的 Bootloader 為 GRUB2 。

目前實現 win10 / ubuntu18.04 雙系統有兩種方案:

  1. 在深灰色層,仍染以 Windows Boot Mananger 為主引導,但需要關閉 UEFI 和 Secure Boot,開啟Legacy / CSM,最後通過 EasyBCD 手動添加 Ubuntu 入口。
  2. 在淺灰色層,就交給以 GRUB2 作為主引導,使其生成開機選單。

顯而易見的,第二種方案更省時省力。

前面有提到,Ubuntu 已經通過 Secure Boot 的認證,所以如果以 GRUB2 為主導,其實不需要關閉 Secure Boot 依照邏輯也得以正常啟動。

製作與開始安裝 Ubuntu

  1. 使用 Ultraiso 選用「寫入硬碟映象」製作一支 ubuntu 18.04 的開機碟
  2. 使用 Win10 自帶的硬碟管理(開始鍵 + X ➡️ 選磁碟管理),在 C 磁碟(系統盤),右鍵「壓縮卷」,依個人狀況選擇留給 Ubuntu 的大小。
  3. 到 BIOS 將 Legacy / CSM 兼容打開,Secure Boot 可以保持原設定,將帶有 UEFI 前綴字樣的隨身碟設為首選開機。F10 存擋並重新啟動。
  4. 此時會進入 Ubuntu GRUB2 的引導開機介面,選擇 install Ubuntu 後正常情況會順利安裝。
  5. 這兒筆者遇到兩個狀況,第一是點選 install 後卻因為 ACPI error 而導致黑屏死機,必須強壓電源關機。在此紀錄筆者排除此狀況的流程。
    在这里插入图片描述

    釐清問題 — ACPI 是啥?

  • 進階組態與電源介面(英文:Advanced Configuration and Power Interface,縮寫:ACPI),是1997年由英特爾、微軟、東芝公司共同提出、制定提供作業系統應用程式管理所有電源管理埠,是一種工業標準,包括了軟體和硬體方面的規範^11

    • 換句話說,這又是一個 UEFI 社群的新規章,他定義了一些特殊的電源使用方式,例如下面這些功能^12:
      1. 用戶可以使外設在指定時間開關。
      2. 使用筆記本電腦的用戶可以指定電腦在低電壓的情況下進入 低功耗狀態,以保證重要的應用程式運行。
      3. 作業系統可以在應用程式對時間要求不高的情況下降低時鐘頻率。
      4. 作業系統可以根據外設和主板的具體需求為它分配能源。
      5. 在無人使用電腦時可以使電腦進入休眠狀態,但保證一些通 信設備打開。
      6. 即插即用設備在插入時能夠由ACPI來控制。
  • 問題的發生

    • Ubuntu 18.04 沒有原裝 Nvidia 顯卡的圖形驅動,導致無法正確透過 ACPI 調用電源管理而出錯。^13
  • 問題的解決

    • 我們可以透過更改 GRUB2 的啟動參數來「迴避」這個問題。^14

    • 再進入選擇 Try Ubuntu 或 install Ubuntu 的頁面,在選項上按下 e ,隨後可以進入 GRUB2 的參數修改介面,在 Linux 那行,後方刪除三個 --- 後加入 acpi=off

      • 錯誤示範:acpi=off 錯誤示範
      • 正確示範:在这里插入图片描述
      • 接著在開機時,要壓住 shift ,再次進入 GRUB2 並且做相同的設定。如圖片中倒數第二行,一樣加在 Linux 那行。
        在这里插入图片描述
    • 開機後可以使用以下指令安裝 Nvidia 驅動
      sudo add-apt-repository ppa:graphics-drivers/ppa
      sudo apt-get update
      nvidia-smi 後可獲得建議安裝指令
      sudo apt-get install nvidia-381 (後面請選擇適當的或最新版本)

    • 如果仍然出現問題可以編輯 /etc/default/grub ,加入 acpi=off
      但是要注意可能發生 CPU 風散停止的問題。
      在这里插入图片描述

  • 問題補充

  1. 接著,順利進入安裝程序後後,卻發現無法正確抓到 NVME SSD。

    釐清問題 — NVME SSD

    根據這篇文章把 Ubuntu 16.04 及 18.04 安裝到幾款特殊的 NVMe SSD^16 上,可以知道大概是 APST(Autonomous Power State Transitions) 的問題,可見作者在 Arch Linux Wiki 上可以找到解決方法
  • 問題的發生
    • 而問題的細節是因為 NVME 的省電模式似乎因為驅動的問題而掛了,近一步可以閱讀PMC NVMe主控动态电源管理^17理解更多有關於 NVME 電源管理代碼的問題。
  • 問題的解決
    • 在剛剛相同的頁面,相同行,空格後接續補上此參數nvme_core.default_ps_max_latency_us=5500 開機後 installer 就能偵測到 NVMe SSD 了。
      在这里插入图片描述
    • 因為 Ubuntu 預設是不會出現 GRUB 選單,會自動進入系統,所以安裝完第一次開機時要按住 shift 強制讓 GRUB 出現,再次加上 nvme_core.default_ps_max_latency_us=5500 參數開機,如果不加上還是能進系統,但會隨機遇到系統完全 hang 住無法動彈,只能強制重新開機的狀況,例如執行 lscpi uname 等指令都有可能引發。
    • 成功第一次穩定進入系統,要去編輯 /etc/default/grubnvme_core.default_ps_max_latency_us=5500 參數加上去,再執行 sudo update-grub 更新 GRUB 設定。
      在这里插入图片描述

      結論

      至此為止,已經成功了安裝必備的基本環境,可開始 Ubuntu 18.04 的機器學習之旅。接著,可以開始安裝相對應的 CUDA 以及 cuDNN,以及自己熟悉的機器學習框架與庫,Here we go!

AI 學習筆記整理

AI學習筆記

常見名詞觀念釐清

人工智能的範疇

  • 專家系統
  • 機器學習
  • 進化計算
  • 模糊邏輯
  • 計算機視覺
  • 自然語言處理
  • 推薦系統等

機器學習

William Mou’s Github
學習書籍:Python機器學習

Python基礎套件教學

SciPy Lecture Notes 中文版 numpy中文教程

  • 傳統算法
    • 決策樹
    • 聚類
    • 貝葉斯分類
    • 支持向量機
    • EM
    • Adaboost

距离及相似度度量方法

  • 學習方法的分類
    • 半監督學習
    • 集成學習
    • 深度學習
    • 監督學習(如分類問題)
      • 分類法
        1. 訓練數據集中學習
        2. 回歸分析導出模型
        3. 對新數據做出預測
      • 回歸預測
        1. 預測變數+反映變數
        2. 發覺變數間的關係
        3. 找出變數的適合曲線
    • 強化學習
      1. 與環境互動改善自身技能
      2. 透過測量函數回傳度量質
      3. 透過方式最大化獎勵:
        • 嘗試錯誤
        • 審議式規劃
    • 非監督學習(如聚類問題)
      沒有已知的結果和獎勵函數,透過探索數據本身的結構得到資訊
      1. 探索式數據分析技術
      2. 允許組織技術至有意義的「子族群」
      3. 使特徵有一定程度的相似性,發現特殊分群

深度學習,一種實現機器學習的技術

TensorFlow 筆記
从系统和代码实现角度解析TensorFlow的内部实现原理
莫煩Python

  • 背景

    深度學習本來並不是一種獨立的學習方法,其本身也會用到有監督和無監督的學習方法來訓練深度神經網絡。但由於近幾年該領域發展迅猛,一些特有的學習手段相繼被提出(如殘差網絡),因此越來越多的人將其單獨看作一種學習的方法。

    最初的深度學習是利用深度神經網絡來解決特徵表達的一種學習過程。深度神經網絡本身並不是一個全新的概念,可大致理解為包含多個隱含層的神經網絡結構。為了提高深層神經網絡的訓練效果,人們對神經元的連接方法和激活函數等方面做出相應的調整。

  • 缺點

    1. 深度學習模型需要大量的訓練數據,才能展現出神奇的效果,但現實生活中往往會遇到小樣本問題,此時深度學習方法無法入手,傳統的機器學習方法就可以處理。

    2. 有些領域,採用傳統的簡單的機器學習方法,可以很好地解決了,沒必要非得用複雜的深度學習方法。

    3. 深度學習的思想,來源於人腦的啟發,但絕不是人腦的模擬,舉個例子,給一個三四歲的小孩看一輛自行車之後,再見到哪怕外觀完全不同的自行車,小孩也十有八九能做出那是一輛自行車的判斷,也就是說,人類的學習過程往往不需要大規模的訓練數據,而現在的深度學習方法顯然不是對人腦的模擬。

  • 理念

    Science is NOT a battle, it is a collaboration. We all build on each other’s ideas. Science is an act of love, not war. Love for the beauty in the world that surrounds us and love to share and build something together. That makes science a highly satisfying activity, emotionally speaking!

    這段話的大致意思是,科學不是戰爭而是合作,任何學科的發展從來都不是一條路走到黑,而是同行之間互相學習,互相借鑒,博採眾長,相得益彰,站在巨人的肩膀上不斷前行。機器學習的研究也是一樣,你死我活那是邪教,開放包容才是正道。

介紹ppt

SRGAN

AIJT梯度下降法手算範例講解

tags : AI Junior Talk 人工智慧青年論壇

[name=牟展祐] [time=2018,2,23]

[name=牟展祐] [time=2018,6,23]
多層感知機





參考資料來源與出處:

人工智能、机器学习和深度学习的区别? 作者:育心。
附資源與完整指導!帶你從零開始掌握 Python 機器學習
深度學習 Deep Learning:中文學習資源整理
Machine Learning: Python 機器學習:使用Python
Machine Learning: Python 機器學習:使用Python
資源速查表

書籍選購

Python機器學習
Deep Learning:用Python進行深度學習的基礎理論實作
今天不學機器學習,明天就被機器取代:從Python入手+演算法
零起點Python機器學習快速入門

Tensorflow-GPU 環境配置

Tensorflow-GPU 環境配置

AuthorWilliam Mou
點我進入個人 Blog

前言

:::info
AI 發展日新月異,各軟硬體更是推陳出新,而其中 Tensorflow 與其依賴的 CUDA 更是當今潮流,但兩者版本卻多不互相兼容,常常有各種 Bug 。

故,今天實作一篇安裝成功的例子,盡可能完整的陳述相關知識,以及所需注意的地方;供大家參考與共同學習。若有任何不恰當或錯誤的地方,都煩請您聯絡作者修改,共同進步。
:::

需求

:::success
安裝前,須先明瞭自己對於開發(潔癖)需求,以個人為例,我希望能夠在 VScode 中用 shift + enter run conda env 裡的 tensorflow-gpu with Cuda9 and Cudnn7


以清單表示:
| |細項|
|—|————–|
|硬體|GeForce GTX 1080Ti|
|系統|Windows10 專業版|
|框架|Tensorlfow-GPU 1.9|
|版本|CUDA 9 & cuDNN 7.5|
|環境|python3.5 conda(Anaconda) env|
|編輯器|Visual Stusio code|
:::

正文

安裝 CUDA

:::info
定義:

CUDA 是由 NVIDIA 所推出的一種整合技術,在其製造的圖形處理單元(GPUs)之上,實現平行計算平臺與程式設計模型。透過這個技術,開發人員可了直接存取 CUDA GPUs 中的虛擬指令集和平行計算元件的記憶體,運用 NVIDIA GeForce 8 以後的 GPU 和較新的 Quadro GPU 進行並行計算。

[name=取自wiki]

作者案:

你可以將它看作是 NVIDIA 顯示卡專用的平台,讓開發者更輕鬆的以 CUDA C 或 OpenCL 撰寫代碼,並透過 CUDA 最終被驅動程式轉換成PTX代碼,交由顯示核心計算。

這種方法與 CPUs 不同的是, GPUs 有著側重以較慢速度執行大量併發執行緒的並行流架構,而非快速執行單一執行緒。擅長運算「小」而「多」的數據資料,尤其是圖像運算更是在行。

但這並不表示在相同的花費下,使用 GPU 訓練 AI 一定會比使用 CPU 來的有效益,端看數據的資料大小及其特性,有時候數台 Xeon 系列的 CPU 多核運算,會比 GPU 來的快或節省經費。
:::

:::success
綜合上述,要在 Windows 平台安裝 CUDA ,我們需要準備一些其所需要的軟體,包括以下:

:::

接著,要來安裝本節主角: CUDAcuDNN
:::danger
CUDA 的版本較多,而每個版本有自己所對應的 cuDNN (將在下節介紹),為此,我們必須選定好適當的版本號,並謹記在心,以對應恰當的 Tensorflow 與 cuDNN。

建議各位在安裝前,可以去搜尋看看他人 Tendsorflow 與 CUDA 配對成功的版本,而這裡提供 其他作者 已經測試成功的案例:

  • tensorflow 1.4 及以下的不支持高於 CUDA 9.0 。
  • tensorflow 1.0 及以上的不支持低於 CUDA 8.0 。
  • tensorflow-gpu 1.5 以上不支持使用 CUDA 8.0。

而本節,以 Tensorflow 1.9 與 CUDA 9.0 做為安裝範例。

:::

:::success
首先,前往 NVIDIA 開發者的官網,下載 CUDA 連結點我

點選相對應的版本後,下載 Base Installer。

雙擊執行檔案 cuda_9.0.176_win10_network.exe 開始安裝

在檢查系統系統相容性與合約後

會進入安裝選項,建議可以直接快速安裝。

作者案

若沒有要使用Visual Studio 2017 編譯 CUDA 的朋友,可以進入自訂安裝中修改設定,將 Visual Studio Integration 關閉,避免報錯。

:::warning
若仍然遇到 安裝失敗的情形

建議可至 這篇博客 依照步驟解決,本文便不多贅述。
:::

安裝 cuDNN

:::info
定義:

cuDNN 全名為:NVIDIACUDA®深度神經網絡庫 是用於 深度神經網絡 的GPU加速庫。 cuDNN為標準例程提供高度調整的實現,例如卷積,池化,規範化和激活層。而 cuDNN 同時也是 NVIDIA 深度學習SDK 的一部分。

全球深度學習研究人員和框架開發人員依靠 cuDNN 實現高性能 GPU 加速。它允許他們專注於訓練神經網絡和開發軟件應用程序,而不是花時間在低級 GPU 性能調適上。 cuDNN 加速了廣泛使用的深度學習框架,包括 Caffe2MATLABMicrosoft Cognitive ToolkitTensorFlowTheanoPyTorch

作者案

作為 CUDA 的一個深度學習加速庫, cuDNN 的版本必須配合 CUDA 才能正常運行。下面我們將演示如何正確的安裝 cuDNN 。
:::

:::success
首先,前往 NVIDIA DEVELOPER 官網,點擊下載 cuDNN。

註冊或登入


跳轉至下載頁面

勾選同意後,會跳出版本選擇

此處,我們可以選擇適合的 CUDA 版本、與作業系統進行下載

作者案

此處選擇 CUDA 9.0 ,以應對上方我們所安裝的版本。

下載後開啟

解壓縮檔案

之後會得到一個 CUDA 資料夾,分別含有 binincludelib 三個資料夾

將其內部的檔案,分別移至 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.0 路徑下的對應資料夾中

例如: bin 裡面,需包含 cudnn64_7.dll

再分別將三個資料夾的檔案拖移至對應的位置後,
我們要將下列路徑加入環境變數中,以利將來調用

  • C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\bin
  • C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\lib\x64

打開控制台→系統及安全性→進階系統設定→進階→環境變數(或是直接在控制台中搜尋 PATH)
尋找「系統變數」中「Path」的部份並用左鍵雙擊,新增下述變數:

  • C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\bin
  • C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\lib\x64

到此為止, cuDNN 的安裝就到一段落了
:::

安裝 Anaconda

:::info
Anaconda 是一種 Python 語言的免費增值開源發行版,用於進行大規模數據處理, 預測分析, 和科學計算, 致力於簡化包的管理和部署。Anaconda 使用 軟體包管理系統 Conda 進行包管理。

[name=取自wiki]

編者案

使用 Anaconda 的好處是他擁有豐富的套件包與良好的套件管理,在資源(硬碟)足夠的情況下,安裝它可以為我們省去很多套件相關的麻煩。

而其安裝過程較為簡單,唯一需要的注意的是,關於 Python 的 PATH 是否與電腦內存在的(例如:Visual Studio 自帶的 Python、 或是原生的 Python)產生衝突,若為第一次安裝則沒有這個問題。

而關於使用方式, wiki 寫得相當清楚,下方引用列出。

  • 使用時,可以點擊啟動相應的編程環境:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    Python(shell) : 標準CPython
    IPython(shell): 相當於在命令窗口的命令提示符後輸入ipython回車。pip install ipython安裝的ipython用法一樣。
    Ipython QTConsole
    IPython Notebook:直接點擊打開,或者在命令提示符中輸入ipython.exe notebook
    Jupyter QTConsole
    Jupyter Notebook:直接點擊打開,或在終端中輸入: jupyter notebook 以啟動伺服器;在瀏覽器中打開notebook頁面地址:http://localhost:8888 。Jupyter Notebook是一種 Web 應用,能讓用戶將說明文本、數學方程、代碼和可視化內容全部組合到一個易於共享的文檔中。
    Spyder:直接點擊打開IDE。最大優點就是模仿MATLAB的「工作空間」
    Anaconda Prompt : 命令行終端
    支持其他IDE,如Pycharm
  • 安裝包管理:

    1
    2
    3
    4
    5
    6
    列出已經安裝的包:在命令提示符中輸入pip list或者用conda list
    安裝新包:在命令提示符中輸入「pip install 包名」,或者「conda install 包名」
    更新包: conda update package_name
    升級所有包: conda upgrade --all
    卸載包:conda remove package_names
    搜索包:conda search search_term
  • 管理環境:

    1
    2
    3
    4
    5
    6
    7
    8
    安裝nb_conda,用於notebook自動關聯nb_conda的環境
    創建環境:在Anaconda終端中 conda create -n env_name package_names[=ver]
    使用環境:在Anaconda終端中 activate env_name
    離開環境:在Anaconda終端中 deactivate
    導出環境設置:conda env export > environmentName.yaml 或 pip freeze > environmentName.txt
    導入環境設置:conda env update -f=/path/environmentName.yaml 或 pip install -r /path/environmentName.txt
    列出環境清單:conda env list
    刪除環境: conda env remove -n env_name

    :::

:::success
首先,我們進入 Anaconda 官方網站,並點擊右上方的 Download Anaconda

選擇 Python3.6 64-bit版本

下載完成後雙擊安裝,以下為安裝過程截圖


可將兩者一併勾選,省去設定的麻煩

安裝完成後,我們可以打開 Anaconda prompt 創建環境

前面()表示我們當前的環境,我們需要創造一個專屬於 tensorflow 的環境,以免套件彼此間相互干擾,連跟新個版本都要綁手綁腳的。

依照 wiki 所說,我們可以使用
conda create -n env_name package_names[=ver]
來創建一個環境。

編者案

由於電腦已創建過 tensorflow 環境,所以截圖中的命名會多一個 -t 避免衝突

輸入

1
$ conda create -n tensorflow python=3.5

他會提示你你的環境將放在何處。

輸入 Y 進行環境創建,他會預先幫你安裝一些套件

環境創建完成,依照命令行提示,你的環境被套件被放在 C:\Users\willi\Anaconda3\pkgs\wheel-0.31.1-py35_0 ,可以輸入 conda activate 指令來進入環境,輸入 conda deactivate 來離開環境

接著我們進入環境

1
$ conda activate tensorflow

使用以下指令來安裝 tensorflow

1
2
3
$ pip install tensorflow
# 或者
$ conda install tensorflow

編者案

若有開發需求,可以如以下方式指定 tensoeflow 版本

1
2
3
4
># 移除舊有版本
>$ pip uninstall tensorflow-gpu==1.3.0
># 安裝指定版本
>$ pip install tensorflow-gpu==1.5.0

安裝完成

使用 import 來檢驗是否安裝正確

1
2
3
$ python
# 進入 python 互動介面後
>>> import tensorflow as tf

隨後逐行複製以下代碼,檢測是否正常運行 GPU

1
2
3
4
5
6
7
8
9
import tensorflow as tf
# Creates a graph.
a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')
c = tf.matmul(a, b)
# Creates a session with log_device_placement set to True.
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
# Runs the op.
print(sess.run(c))

運行成功應該如圖,輸出運行之顯示卡序號

1
GPU 0

與運算結果

1
2
[[22. 28.]
[49. 64.]]

:::

安裝 Visual Stduio Code

:::info
Visual Studio Code(簡稱VS Code)是一個由微軟開發的,同時支援Windows、Linux和macOS作業系統且開放原始碼的文字編輯器。它支援偵錯,並內建了Git 版本控制功能,同時也具有開發環境功能,例如代碼補全(類似於 IntelliSense)、代碼片段、代碼重構等。該編輯器支援用戶自訂配置,例如改變主題顏色、鍵盤捷徑、編輯器屬性和其他參數,還支援擴充功能程式並在編輯器中內建了擴充功能程式管理的功能。

[name=取自wiki]

作者案

作為一門編輯器, VS Code 具有跨平台、輕量、擴展性高等優點,使用容易上手,功能雖多卻不會像 Visual Studio 般繁亂,是個老少咸宜的好軟體。
:::

:::success
首先,前往 VS Code官網 下載之

之後全勾安裝後打開,可以得到如下畫面

我們可以先至你想要編輯的資料夾,此處以這個 ai 資料夾為例

右鍵點擊 Open with Code

之後 VS Code 就會將此資料夾作為一個工作區,在 VS Code 中開啟

之後點擊紅框處的新增檔案,創建一個測試用的 .py 檔。

接著,將以下 tensorflow 官方測試代碼複製到檔案內。

1
2
3
4
5
6
7
8
9
10
11
import tensorflow as tf

class SquareTest(tf.test.TestCase):
def testSquare(self):
with self.test_session():
x = tf.square([2, 3])
self.assertAllEqual(x.eval(), [4, 9])

if __name__ == '__main__':
tf.test.main()

此時,因為你所處的環境是 Anaconda 預設的環境中,並不包含 tensorflow 套件,所以會報錯。

我們可以點選左下角的選項,以察看與切換環境

點擊後,我們可以切換到到方才設定的環境 tensorflow

此時,我們可以注意到右下角的 pylint 以及諸如此類的提示,可以選擇安裝他們,讓開發更加順利。

下方命令行會自動打開,並顯示已成功安裝。

接著,點選左邊的紅框處,然後按下綠色三角形箭頭偵錯

選擇 Python

若得到以下畫面則代表設定與安裝順利

之後也可以使用 F5 來偵錯。
但若有其他慣用偵錯快捷鍵,可以透過 Ctrl + Shift + P ,搜尋開啟鍵盤快速鍵

或是使用 Ctrl + K 緊接著按 Ctrl + s 來開啟

接著上方欄位中搜尋 F5

點選左邊的小鉛筆,再輸入你想要的鍵盤快捷鍵後按 Enter 就大功告成囉。

:::

結語

希望讀者都能夠在本筆記中學到想學習的東西,也恭喜您成功設定完成 Tensorflow 的基礎設定,但 AI 的學習如同汪洋大海般,遠不只如此,僅此希望能夠帶給您一個好的開始與學習體驗,持之以恆,努力前進。共勉之。

:::warning
若對於此筆記有任何錯誤、或是沒有詳盡提到的地方,都非常期待您與我聯絡,能與您的共筆是我的榮幸。歡迎將更多的建議寫在其他 HackMD 中,我將以連結的方式將其引入;或是將建議寄送到我的信箱: william.mou960174@gmail.com
:::

其他參考資料

https://blog.csdn.net/LOVE1055259415/article/details/80343932
https://zhuanlan.zhihu.com/p/30324113
https://rreadmorebooks.blogspot.com/2017/04/win10cudacudnn.html
https://zhuanlan.zhihu.com/p/37086409

CNN-實作練習

CNN 神經網路實作

tags: AI Junior Talk 人工智慧青年論壇 機器學習

比賽介紹 imagenet

神經網路介紹

AlexNet 網路

成功率提高至 83.6% 至此開始發展電腦視覺

  • 使用 ReLU
  • LRN層(後來被淘汰,例如 BN)
  • overlapping pooling
  • Dropout

VGG16

  • 優點
    • 相對淺
    • 構造簡單
    • 易入門
  • 缺點
    • 權重多
    • 肥(吃較多記憶體)
  • VGG16 paper

Google Net

當年已經勝過 Google Net

  • 較為複雜
  • 由 Inception 組成
  • 神經網路具有分支
    • 避免深層網路過多過長時,早期權重無法被修正
    • 可以直接以分支的 softmax 去反向傳播修正權重

ResNet

  • 同 VGG16 構造較為簡單
  • 但是較深,所以新增捷徑
  • 透過捷徑反向傳播修正前面權重
  • 曾樹效果是有上限的

  • 優點:參數少
  • 缺點:使用者容易設定過多層

預訓練權重應用

資料集來源
課程架構