2017年1月16日 星期一

awk / sed 清除HTML Tags

# 移除空白行
sed '/^\s*$/d'

# 移除所有的HTML Tags,但 javascript <script> </script> 的程式碼內容則仍存在
sed 's/<[^>]*>//g'

# 移除所有的javascript Tags 與程式碼內容
awk 'BEGIN{RS="</script>"}/<script/{gsub("<script.*","")}{print}END{if(RS=="")print}'

# 移除所有的 javascript Tags 與程式碼內容和HTML Tags
awk 'BEGIN{RS="</script>"}/<script/{gsub("<script.*","")}{print}END{if(RS=="")print}' | sed 's/<[^>]*>//g'

2017年1月1日 星期日

excel - 分離字串中的中文與英文

點擊看大圖 (原圖)
利用 Excel 函數 LEN會傳回文字字串中的字元數、而LENB則會傳回用於代表文字字串中字元的位元組數。其中LENB 支援 DBCS 的語言包括日文、簡體中文、繁體中文及韓文,當 DBCS 語言設定為預設語言時,LENB 會將每個字元計算為 2 位元組。

藉由LENB的函數特性來計算屬於中文自述的長度。再搭配 LEFT() 和 RIGHT() 等文字函數來分離原文資料的中文與英文部分。

B欄:原文
C欄:=LEN(B欄)
D欄:=LENB(B欄)
E欄:=LEFT(B欄, (D欄-C欄)
F欄:=RIGHT(B欄, (C欄 - (D欄-C欄)))




參考資料:Excel函數 (官方)