Android 台灣中文網

標題: [非標準字串] 正規表示式 + Excel 函數/VBA 工具 [打印本頁]

作者: kofkin00 時間: 2020-5-18 22:28
標題: [非標準字串] 正規表示式 + Excel 函數/VBA 工具
本帖最後由 kofkin00 於 2020-6-10 08:31 編輯

<研究動機>

非標準字串，自有了畫龍字串替換器(GGGBOY 繁中化)提取英文/簡體/英簡字串，簡直如魚得水。但問題如何在破千破萬行混雜的程式段+真實字串段之中，『火眼金睛』離析命中真實字串段，節省許多寶貴時間，同時避開誤觸修改程式段造成回寫的錯誤！尤其如果要弄到Hex考慮字元長短，教人兩手一攤，折騰許久

不小心誤入過非標準字串歧路的道友，更能體會其標準字串的透剔美好。。。

<經驗假設>

個人流程構思是：英文字串較無亂碼問題，所以此帖主要探討GB2312編碼為主。
1.{初道過濾}提取字串後，GB2312編碼→ 簡轉繁→ 繁體.a 透過Notepad++
正規表示式(regular expression)比對簡亂碼+符號+英+數+繁體逐步篩選(白名單)要的字串，8成是理想。

登錄/註冊後可看大圖

左圖很多字串無規律，若用Excel函數篩選程式碼字串(黑名單)非常難且多工，不如利用現成 Notepad++ 正規表示式做搜尋。用白名單形式會簡單多。
☆但須注意一些特別樣式的正常字串，如下圖

登錄/註冊後可看大圖

2.{二道過濾}再貼到Excel 合併原始ANSI文字檔及轉繁體文字檔的行號列+繁體字串列，加以利用Excel函數及VBA手法。
3.{末道過濾}將Excel處理過的資料，貼回回寫用的ANSI文字檔，流程1&2乃提升效率關鍵。人力校稿。
實際好處，可比較之前的帖子中篇：GB2312編碼簡體中文(亂碼) → 繁體中文化 [非標準字串] 之步驟9，當時方法是開兩個文字檔做Compare，一筆一筆全靠人力篩選與剪貼。

<操作說明>

使用『畫龍字串替換器』，當此次範例題材的簡單手法操演
因為Notepad++ 正規表示式難在保留(ID)行號列下只做字串列篩選，所以後續大部分拉到Excel處理。
◊原始.a 文字檔(ANSI編碼)，目的：無空白列，Excel方便往下拉(填滿公式/函數)
方法一：編輯 → 行處理 → 移除空行(包含只有空白的行 ) 剩11038行

登錄/註冊後可看大圖

移除空行.jpg (75.5 KB, 下載次數: 12)

下載附件保存到相冊

2020-5-23 09:23 上傳

方法二：用正規表示式 [^.?]$ 將空白列刪除，其它字串勿動，存檔

登錄/註冊後可看大圖

001規則運算式.jpg (101.46 KB, 下載次數: 12)

下載附件保存到相冊

2020-5-19 00:49 上傳

登錄/註冊後可看大圖

002移除未標記行.jpg (98.81 KB, 下載次數: 13)

下載附件保存到相冊

2020-5-19 00:49 上傳

登錄/註冊後可看大圖

003剔除掉空白列.jpg (104.64 KB, 下載次數: 13)

下載附件保存到相冊

2020-5-19 00:50 上傳

找出 ^[=] 將之刪除，因為開頭是=，在Excel會出現 #NAME? 誤判以為是公式錯誤

1.將原始.a 文字檔，另行複製一份為繁體.a 及回寫.a [共三個文字檔]

登錄/註冊後可看大圖

02共三個文字檔.jpg (8.71 KB, 下載次數: 11)

下載附件保存到相冊

2020-5-18 22:57 上傳

2.開啟原始.a (ANSI編碼)全選字串
將原始.a去除空白列，正規式 [0-9]{3,}: ← 標記行號列(ID) →『移除未標記行』 → 複製全選行號列

登錄/註冊後可看大圖

01.jpg (106.99 KB, 下載次數: 8)

下載附件保存到相冊

2020-5-23 09:38 上傳

複製到 Excel Final工作表『 A欄位』

3.開啟繁體.a 將去除空白列並轉成繁體後，正規式 [0-9]{3,}: ← 標記行號列(ID) →『移除標記行』 → 複製全選字串列
逐步篩選(白名單)[初級過濾]要的字串後

登錄/註冊後可看大圖

03.jpg (173.61 KB, 下載次數: 15)

下載附件保存到相冊

2020-5-23 09:43 上傳

複製到 Final工作表『 B欄位』下，

☆同張工作表，A欄位原始ANSI行號 B欄位繁體字串 →才能排序！字串的字少到字多，先刪除過濾

登錄/註冊後可看大圖

output_BH1flr.gif (185.58 KB, 下載次數: 6)

下載附件保存到相冊

2020-6-9 16:43 上傳

4.Excel VBA 處理[二級過濾]  → Step1工作表，點擊工具箱，啟用表單化工具
  i 將行列數與字串數，轉為二維陣列。
  ii[Step1重複項統計]按鈕將Final工作表的繁體字串，複製字串列到step1工作表的E欄位(※盲點問題)
   字典方法：過濾重複後(key)，並分組統計各種字串的重複次數，新增一欄位顯示次數(時間視資料量多寡)
  ※盲點：只取字串長度>2 或>3 以上？或重複次數過濾<3但有些的重複三次，例如單中文字真、假
{功能同內建移除重複項，但會更改到原始字串，且需再複製貼上至其它工作表}

登錄/註冊後可看大圖

移除重複項.jpg (36.37 KB, 下載次數: 9)

下載附件保存到相冊

2020-5-25 00:16 上傳

{功能似同內建樞紐分析圖以字串列做分組得出各種字串重複的次數，再篩選}

登錄/註冊後可看大圖

樞紐分析圖.jpg (45.79 KB, 下載次數: 8)

下載附件保存到相冊

2020-5-25 00:18 上傳

iii 若有Error字串，須處理掉，才能進行Step3
iv [Step3 設定刪除>= 重複值]按鈕，搭配遞減排序，邊檢查邊設定刪除重複次數大的程式碼字串；字串長度遞減排序，剪下正常字串
v [正規表示式]下拉式選單是簡單的條件；複雜條件請自行手key輸入(結果可框選刪除或剪下至Final工作表G欄位)。正規式是針對iv挑剩下字數少但數量龐大，無規律的字串做篩選
◊搭配[剪下ToFinal]按鈕，框選要的字串，自動剪下貼到Final工作表G欄位，並清除空白列上移
vi [Final工作表]將您篩選完的字串列(Step1工作表G欄位)與原始AB欄字串核對，還原產生 (上)ID+(下)字串 {單欄結果}

5.框選複製，回寫工作表，最終資料(上行號+下字串)
6.貼上到回寫.a文字檔(先清除空白) = 獲得完整的原始ANSI『行號：ANSI字串』+『繁體字串』

登錄/註冊後可看大圖

09回寫再開確認ANSI編碼.jpg (81.86 KB, 下載次數: 10)

下載附件保存到相冊

2020-5-18 23:02 上傳

7.(人工)修改檢查多餘的行號，存檔 ANSI編碼

登錄/註冊後可看大圖

10做刪改剔除不要的行號.jpg (90.2 KB, 下載次數: 10)

下載附件保存到相冊

2020-5-18 23:03 上傳

8. 將回寫.a 用畫龍字串替換器回寫！(邊try邊改遺漏之處)

登錄/註冊後可看大圖

<參考文獻>
Excel 函數與 VBA {Regular Expression}

<研討改進>

希望諸位資訊大神能有幾個方向幫忙提出交流改進：
1.在下解題(過濾)流程盲點，提出您的見解或自己的流程方法。
2.重點！正規表示式更好的寫法，步驟明瞭，精準標記要處理的(中文化)字串！
3.Excel 一般表格與函數的設計﹑對照 (VBA大神）！
[實驗材料]

實驗.zip (2.02 MB, 下載次數: 16)